The text information on the Internet is explosively growing. Due to the crypticity and virtualness of Internet users, the virtual, illegal, spam, and vice information on the Internet is rapidly swelling, and spreads and permeats in various types of texts in different forms. Authorship identification of the Web texts has become an important and urgent research issue in the fields of network public opinion monitoring, information safety and intelligent information processing. At present, a few works focus on authorship identification of the Web texts which come from microblogs and blogs. Moreover, current methods are usually restricted by specific topics. To solve these problems, this project will systematically study theoretical models and core algorithms of identifying authorship and attributes of the Internet users from multi-sources Web texts. The research contents include: (1) extracting writing stylistic features of the Internet users from Web texts; (2) designing a topic adaptive approach to identifying authorship of the Internet users; (3) devising a portable method to recognize different attributes of the Internet users.
互联网上的文本信息呈爆炸式增长,网络用户的隐蔽性与虚拟性使得网络空间上的虚假信息、非法信息、垃圾信息和不良信息等急剧膨胀,以不同形式散布和渗透在各种类型的文本中。识别网络文本信息的作者身份已经成为网络舆情监测、信息安全、智能信息处理领域重要而紧迫的研究课题。现有的研究工作对博客、微博等网络文本的作者身份识别研究较少,相关方法往往受限于特定的主题。针对这些问题,本项目将系统地研究识别多源Web文本信息的作者身份和作者属性的理论模型和核心方法,具体包括:(1) Web文本的作者写作风格特征提取方法;(2) 具有主题自适应的作者身份归属识别方法;(3) 具有可移植性的作者身份属性识别方法。
本项目围绕多源Web文本的作者身份和作者属性识别的相关工作展开了研究,一年来的主要研究内容包括如下三方面:Web文本的作者写作风格特征表示和提取、作者身份归属识别,以及作者身份属性识别。在文本风格特征表示和提取方面,提出了一种基于词段型连续n-gram模型、词段型离散n-gram模型,以及多层语境模型的源代码风格特征提取方法;设计了一种基于卷积神经网络模型的微博文本表示方法,以及一种基于Doc2vec和词频-逆文档频率的博客分布式集成表示方法。针对作者身份归属识别问题,设计了一种基于序列最小优化的源代码作者身份归属识别方法,以及一种基于深度信念网络模型的源代码作者身份归属识别方法。在自然语言文本的作者身份归属识别方面,研制了一种决策级中文分词融合方法;提出了一种基于特征优化的文本相似度计算方法。另外,分析了文本挖掘和自然语言处理研究领域相关文献的作者合作关系。在作者身份属性识别方面,设计了一种基于长短期记忆网络模型的微博作者性别识别方法,以及一种基于卷积神经网络模型的博客作者性别、年龄和教育程度识别方法。本项目共发表国际会议论文5篇。获得1项国家发明专利授权,申请2项国家发明专利。本项目培养毕业硕士生2人、毕业本科生2人。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于改进LinkNet的寒旱区遥感图像河流识别方法
A tale of two databases: the use of Web of Science and Scopus in academic papers
基于直观图的三支概念获取及属性特征分析
基于小波高阶统计量的数字图像来源取证方法
基于注意力机制和多尺度残差网络的农作物病害识别
面向Web文本的属性和属性值知识获取方法研究
基于语言特征的网络用户身份属性识别方法研究
面向Web服务的可信身份认证和版权保护机制
人脸图像的身份和表情同步识别方法研究