传统的文本表示方法是建立在"词袋"(Bag-Of-Words)表示方法上的,即认为文档是一个关于词或短语的离散集合。经典的信息检索模型、文本分类方法和文献挖掘算法等无一不是建立在这种表示方法之上的。然而这种表示抹杀了文档内部描述单元之间的句法、语义上联系,抹杀了自然语言固有的内在本质。实际上,单词之间有句法、语义上互相依赖,句子之间有前后、篇章的依赖,只有图或树等复杂结构才能有效地表示。本项目将围绕这一基本问题,开展二个方面的研究:一,针对实际问题,如何利用图结构有效地表示文本;二,在图结构表示的基础上,如何有效地开展相关文献挖掘算法的研究,包括基于图结构的自动摘要、文本推理、评论信息的情感分析、文本分类的研究。项目研究的领域以生物文献挖掘为主,同时也利用TAC国际评测提供的数据,以验证算法的通用性。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于被动变阻尼装置高层结构风振控制效果对比分析
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于多色集合理论的医院异常工作流处理建模
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
海量不确定图挖掘算法研究
基于概率图分类模型的潜在药物靶标挖掘算法研究
基于图挖掘的蛋白质功能预测算法的研究
基于多关系的模糊认知图挖掘模型、算法与评价机制研究