文本纹理模型及其在涉恐情报分析领域的应用研究

基本信息
批准号:61772337
项目类别:面上项目
资助金额:61.00
负责人:刘功申
学科分类:
依托单位:上海交通大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:马颖华,林祥,汪晓锋,黄晨,杨帆,许镇泉,丁佳晨,李忠豪,付俊杰
关键词:
情报文本纹理情感分析文本挖掘涉恐情报
结项摘要

Subject-oriented classification, keyword beased filter methods can’t precisely recgonize terrorism intelligence from mass network information. Text sentiment analysis, which can group information into support, oppose and nutrality, is one of the key technology to recgonize terrorism intelligence. The text presentation based on Text Texture Model not only considers the order and dependecy property between features, but also the morphology, syntax and rhetoric of article. There are several works in this project. Firstly, we propose a creative model in this project, named text texture model (TTM)..Moreover, two sentiment analysis methods based on TTM are proposed: .(1).Representing text texture features by field-based structure method, and auto-classifying text with structural pattern recognition method..(2).Representing text texture features with higher-order tensor space model, and applying higher-order tensor theory to text classification..Finally, In the light of the characteristics of terrorism intelligence recgonization, we should use sentiment analysis technology to recgonize precislly terrorism intelligence from mass Internet information..In this proposal,some new mathematical tools,including higher-order tensor and structural pattern recognition technique are introduced into the field of Natural Languages Processing, which is meaningful and encouraging to text feature expression exploration.

基于主题的分类(过滤)技术、关键字及其扩展技术都不能精确识别海量信息中的涉恐怖情报。情感倾向性识别能够有效地把信息分为支持、反对和中立,是精确识别涉恐怖信息的核心技术之一。基于文本纹理模型的文本表示不仅考虑了特征项间的序关系、依赖关系,而且重视文本的词法、句法、修辞等外在属性。课题研究内容包括:首次提出了文本纹理模型的概念,并给出了建模过程。进而基于文本纹理模型,提出了两种情感识别方法。一是,基于分域的结构法表示文本纹理特征,并运用结构模式识别方法进行自动分类。二是,提出了基于高阶张量空间模型的文本纹理特征表示方法,并拟运用基于张量空间模型的分类原理解决自动分类问题。最后,针对涉恐怖情报分析的特点,研究情感分析技术在涉恐情报分析中的使用。本课题采用新数学工具探索文本情感识别面临的新挑战,对揭示文本特征表达的发展规律有重要意义,为高阶张量和结构模式识别技术在自然语言领域的应用提供了新思路。

项目摘要

基于主题的分类(过滤)技术、关键字及其扩展技术都不能精确识别海量信息中的涉恐怖情报。涉恐怖信息识别涉及的核心技术很多,其中和自然语言处理的相关的技术包括:命名实体识别、情感倾向性识别、社交网络用户行为分析等。情感分析识别能够有效地把信息分为支持、反对和中立;命名实体识别能够在源文字序列中精确识别出实体名称,特别是能够识别出非主流的实体名称;社交网络用户行为分析能够在社交网络数据流中分析出非主流用户以及非主流的信息。课题的主要成果包括:.(1)针对自然语言的文本表示模型。为了更精确地识别网络文本中的涉恐信息,需要对网络文本的语义进行精确的表示。本项目探索了通过预训练方式的深度学习语言模型,并获得了较好的成绩。为了研究基于深度学习的语言模型,创造性地提出了切片循环神经网络模型,该模型在github上受到了广泛的关注;为了提高深度学习模型的效率,结合硬件进行了算法优化,提出了自定义浮点数集其计算方法和硬件架构。.(2)面向涉恐领域的情感分析算法。针对该任务主要研究了基于深度学习算法的主客观自动识别模型,句子级的情感分析算法、多维度(方面级)的情感倾向性识别模型,基于Resnet的机器撰写文稿自动设别模型等。其中,课题组是国内首个提出研究主客观句子分析的的团队,同时也首次构建了中文主客观句子的数据集。.(3)针对面向涉恐怖领域的自然语言文本的多种任务,提出了基于卷积神经网络的文本聚类算法,分类学层次结构建模及其在多标签文本分类模型,研究了涉恐领域的NER(命名实体识别)方法等。其中,在文本聚类方面,首次提出采用端到端的深度学习模型进行聚类;在NER方面,首次提出不依赖“实体本身知识”的命名实体识别模型。.(4)针对涉恐怖识别的应用系统探索,设计开发了基于事件相似度匹配的非常规实体自动发现系统;基于开源情报的非常规任务信息检索系统等。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

刘功申的其他基金

批准号:61272441
批准年份:2012
资助金额:20.00
项目类别:面上项目
批准号:60502032
批准年份:2005
资助金额:18.00
项目类别:青年科学基金项目

相似国自然基金

1

动态Copula模型的构建及其在金融领域的应用研究

批准号:70671074
批准年份:2006
负责人:杜子平
学科分类:G0114
资助金额:18.70
项目类别:面上项目
2

贝叶斯随机波动预测模型构建及其在金融领域中的应用研究

批准号:70771038
批准年份:2007
负责人:朱慧明
学科分类:G0105
资助金额:20.00
项目类别:面上项目
3

面向特定领域文本的知识元及其关联挖掘方法研究

批准号:60803079
批准年份:2008
负责人:刘均
学科分类:F0607
资助金额:20.00
项目类别:青年科学基金项目
4

面向机器翻译的文本领域识别

批准号:60672149
批准年份:2006
负责人:黄河燕
学科分类:F0113
资助金额:30.00
项目类别:面上项目