In production and daily life, instant messages, microblogs, e-mails, product reviews, etc. are made up of a lot of unstructured short documents, which exhibit massive and complex properties. These massive short text data sets are important sources of knowledge, which contain a large amount of valuable information. They are usually transformed into structured data by vectors with the number of words in the text collection as dimension. Phrases, sentence patterns and other dependence among the words are more important for the semantic information of short documents. Thus, after the structured representing, the data has the characteristics of ultra-high dimension, sparsity, important dependence structure among the variables and so on. With the practical application purpose, this project is driven by the issues encountered in analyzing and processing of massive short text data, and employs the existing theories and methods of Bayesian graphical model. We will investigate new statistical methods for the massive short text data, mine the relationship between words and the class variable and the dependence among words to construct a Bayesian hierarchical model, and improve the performance of automatic text classification and clustering.
生产生活中随处可见的即时通讯、微博、电子邮件、商品评论等都是由大量的无结构自由短文本组成,呈现出海量性和复杂性。这些海量的短文本数据蕴含着大量的信息,是重要的知识源。它们通常被结构化表示成以文本集中词总数为维数的向量。而对于短文本来说,词组、句式结构等词与词之间的关系对于保全语义信息更为重要。于是,结构化表示之后的数据就有了超高维、稀疏以及变量间关系重要等特点。本项目以分析和处理海量短文本数据中亟待解决的问题为驱动,以现有的贝叶斯图模型理论与方法为基础,以实际应用为目的,研究适用于海量短文本数据的统计方法,挖掘词语与分类变量、词语与词语之间的相互依赖关系,构建基于变量间依赖关系网络的贝叶斯层次模型,实现高精度快速自动文本分类、聚类。
文本数据是典型的非结构数据,呈现出海量性和复杂性等特点,是近年来统计学习乃至整个机器学习领域都关注和研究的数据类型。文本的基本语义单位是词,在文本分析中如何科学地选出重要的词并赋予恰当的权重并进行自动分类、聚类成为很多问题的关键,也是本课题的主要研究任务。..本课题以分析和处理海量短文本数据问题中需要解决的问题为驱动,以现有的贝叶斯图模型理论为基础,以实际应用为目的,探索适用于海量短文本数据的统计方法。为此,我们主要完成了如下工作:首先给出了一个基于概率模型的“词频-关联词频”的赋权方法。通过研究比较两种文本分类中广泛运用的朴素贝叶斯模型,我们使用“词事件”模型来捕获各文档内部的词频信息;其次,提出了一种基于“词事件”的关联流行的词选择方法。我们可以将基于文档类别预测概率比的匹配得分函数分解,并得到各个特征(词)的得分;再次,我们提出了一种基于概率模型的新赋权方法。我们在贝叶斯模型中引入一个潜在变量来表示各个词是否提供分类相关信息,并设定相关的共轭先验分布;最后,我们运用如上特征选择和赋权方法,挖掘词语之间的相互依赖关系,构建结构先验,实现了快速高效的文本自动分类、聚类。此外,我们也研究了一些深度学习的方法来进行相应的文本信息挖掘。.
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
统计因果推断及贝叶斯网络
基于不同尺度土壤图模拟农田有机碳动态变化不确定性的贝叶斯推断
基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究
故障预测和系统健康管理的贝叶斯推断