In recent years, The R & D and promotion of Tibetan mobile terminals are developping vigorously, it has played a far-reaching significance for the development of Tibetan culture, but at the same time this brought great challenges to information security. The project intends to study the Tibetan SMS spam, combined with Tibetan characteristics, the Naive Bayes algorithm which widely used in Chinese text categorization, is applied in the Tibetan spam filtering. Through collection of real Tibetan SMS to create Tibetan SMS corpus, study automatic identification of coding and conversion technology for common Tibetan phone,Tibetan SMS automatic segmentation and feature extraction of Tibetan spam messages, analysis and evaluation for the Bayesian classification model, explore the effective way for the Tibetan spam filtering.
近年来藏文移动终端的研发和推广工作蓬勃发展,对藏文化的发展起到了深远的意义,但同时对信息安全带来了巨大挑战。本项目拟研究分析藏文垃圾短信,结合藏文自身的特点,把广泛适用于中文文本分类的朴素贝叶斯算法应用在藏文垃圾短信过滤研究上,通过收集真实藏文短信来建立藏文短信语料库,研究国内外常见藏文手机编码自动识别和转换、藏文短信自动分词和藏文垃圾短信特征项提取等关键技术,对贝叶斯分类模型进行了结果分析与评估,探索藏文垃圾短信过滤的有效方法。
本项目在国家自然基金的资助下,通过建立藏文短信语料库,研究了藏文手机编码自动识别和转换、藏文短信自动分词和藏文垃圾短信特征项提取等关键技术,对朴素贝叶斯分类模型进行了结果分析与评估,分析结果表明,基于二元特征的TF-IDF特征的Multinomial Naive Bayes算法较与其他贝叶斯算法在藏文垃圾短信过滤上有较好的优势。这个研究对探索藏文垃圾短信有效过滤方法提供了一定的参考。通过本项目已经完成了六篇论文,其中四篇已发表(两篇EI检索)。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
转录组与代谢联合解析红花槭叶片中青素苷变化机制
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
基于FTA-BN模型的页岩气井口装置失效概率分析
基于贝叶斯网络的排列算法研究
贝叶斯网络分类器高效算法研究
基于MCMC算法的非线性贝叶斯估计方法及其应用
基于贝叶斯压缩感知的稀疏阵列高分辨测向算法研究