In recent years, The R & D and promotion of Tibetan mobile terminals are developping vigorously, it has played a far-reaching significance for the development of Tibetan culture, but at the same time this brought great challenges to information security. The project intends to study the Tibetan SMS spam, combined with Tibetan characteristics, the Naive Bayes algorithm which widely used in Chinese text categorization, is applied in the Tibetan spam filtering. Through collection of real Tibetan SMS to create Tibetan SMS corpus, study automatic identification of coding and conversion technology for common Tibetan phone,Tibetan SMS automatic segmentation and feature extraction of Tibetan spam messages, analysis and evaluation for the Bayesian classification model, explore the effective way for the Tibetan spam filtering.
近年来藏文移动终端的研发和推广工作蓬勃发展,对藏文化的发展起到了深远的意义,但同时对信息安全带来了巨大挑战。本项目拟研究分析藏文垃圾短信,结合藏文自身的特点,把广泛适用于中文文本分类的朴素贝叶斯算法应用在藏文垃圾短信过滤研究上,通过收集真实藏文短信来建立藏文短信语料库,研究国内外常见藏文手机编码自动识别和转换、藏文短信自动分词和藏文垃圾短信特征项提取等关键技术,对贝叶斯分类模型进行了结果分析与评估,探索藏文垃圾短信过滤的有效方法。
本项目在国家自然基金的资助下,通过建立藏文短信语料库,研究了藏文手机编码自动识别和转换、藏文短信自动分词和藏文垃圾短信特征项提取等关键技术,对朴素贝叶斯分类模型进行了结果分析与评估,分析结果表明,基于二元特征的TF-IDF特征的Multinomial Naive Bayes算法较与其他贝叶斯算法在藏文垃圾短信过滤上有较好的优势。这个研究对探索藏文垃圾短信有效过滤方法提供了一定的参考。通过本项目已经完成了六篇论文,其中四篇已发表(两篇EI检索)。
{{i.achievement_title}}
数据更新时间:2023-05-31
城市生活垃圾热值的特征变量选择方法及预测建模
基于小波高阶统计量的数字图像来源取证方法
壳斗科植物四种扁趾铁甲潜叶习性生物学特性
基于离散Morse理论的散乱点云特征提取
基于神经网络方法获得最优化月球内部结构模型
基于贝叶斯网络的排列算法研究
贝叶斯网络分类器高效算法研究
基于MCMC算法的非线性贝叶斯估计方法及其应用
基于贝叶斯压缩感知的稀疏阵列高分辨测向算法研究