本项目尝试基于迁移学习方法,解决传统的信息抽取过程需要较多人工参与且依赖于大规模训练语料和缺乏领域自适应性的问题,研究从现有的数据中迁移知识,用来帮助将来的学习或者其它领域的学习。通过探索相应的信息抽取方法,弥补领域资源匮乏和领域资源变迁的问题;系统地研究信息抽取的领域自适应方法,从而提高信息抽取的自动化程度;致力于研究信息抽取中的术语抽取、关系抽取、术语的共指消解等关键技术。本项目提出基于指示词和链接分析的方法实现术语抽取;采用自底向上的规约和聚类方法得到关系类型并抽取关系实例;基于多特征抽取与优化的共指消解策略;同时探索上述方法在自然语言处理具体应用中的实施策略,并通过相关任务检验和评价信息抽取方法。为信息检索、自动文摘、文本分类、本体自动构建等各种智能信息处理任务提供重要的支持和借鉴。
本项目主要研究了三个层次的问题,(1) 迁移学习理论和方法的探索:提出一种弱指导的迁移学习方法,其核心是一种新的迁移知识获取策略,并将其应用于自动文本分类中进行验证,以打破传统机器学习任务对于训练集和测试集要求同一概率分布和特征空间的假设,迁移知识通过学习一些特征词的语言学信息及统计信息,构成一种统一的表示形式,相关实验在相同的特征空间及不同的特征空间进行,结果表明,迁移学习方法是有效的,在不同的测试环境下均取得了较理想的结果。同时探索了一种基于EM的直推式迁移学习方法,其核心是利用EM算法对隐含变量的极大似然估计能力,从已标注的源领域数据中获取到迁移知识,然后借助EM算法将迁移知识与未标注的目标领域数据结合,以协助目标领域任务的完成,实验结果证明基于EM的术语抽取迁移学习方法能够解决目标领域缺乏标注语料问题。(2) 信息抽取理论和技术的研究:提出基于深度置信网络(DBN)的中文名实体检测与识别、关系抽取技术,其核心是利用DBN网络分别进行实体检测、实体分类、实体的检测与识别三个任务,探讨了词特征与字特征在这些任务中的优劣、浅层DBN网络神经元数量和深层DBN网络的深度对任务效果的影响,并且与其他机器学习的结果进行了比较,实验结果表明,基于字特征的结果在多数任务中均超过了词特征的结果,深层DBN网络比浅层DBN取得了较好的结果,且稳定性更好。此外,探索了一种改进的深度置信网络的模型训练方式,一种是交替无监督和有监督训练过程的DBN网络,一种是多层有监督训练的DBN网络,实验证明这两种DBN网络都能提高深层DBN网络的效果,使其超越浅层的DBN网络,并且与基础的深层网络结果相比,效果提高明显。(3)信息抽取任务中的主题事件抽取与检测技术探索:研究了一种基于时序特征的特定事件抽取方法,其核心是基于时序特征进行事件抽取的方法,结合先验知识和SVM分类方法进行事件的检测和分类,按照抽取出的事件的时间序列进行排序,基于地震和其他自然灾害的事件抽取实验表明,利用本文提出的方法获得了较高的召回率和准确率。此外,探讨了基于增量式模型的子主题事件动态追踪技术,其核心是结合Single-Pass聚类方法、兼类思想以及动态增量思想,提出了一种动态增量式子主题探测与追踪模型,该模型可以有效的对专题事件进行子主题分析,进而使人们能够更直接和快速的了解主题事件的进展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
采用深度学习的铣刀磨损状态预测模型
基于机器学习的高性能自适应信息抽取关键技术研究
基于集成学习的生物医学文本信息抽取方法研究
基于简标注和弱监督学习的开放的信息抽取研究
文本多粒度关系抽取半监督自适应学习的研究