基于迁移学习的自适应信息抽取技术研究

基本信息
批准号:61073130
项目类别:面上项目
资助金额:32.00
负责人:郑德权
学科分类:
依托单位:哈尔滨工业大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:陆勤,李文捷,陈宇,李世奇,王葳,郑博文,郑宏,胡亚楠,张练
关键词:
术语抽取关系抽取共指消解信息抽取迁移学习
结项摘要

本项目尝试基于迁移学习方法,解决传统的信息抽取过程需要较多人工参与且依赖于大规模训练语料和缺乏领域自适应性的问题,研究从现有的数据中迁移知识,用来帮助将来的学习或者其它领域的学习。通过探索相应的信息抽取方法,弥补领域资源匮乏和领域资源变迁的问题;系统地研究信息抽取的领域自适应方法,从而提高信息抽取的自动化程度;致力于研究信息抽取中的术语抽取、关系抽取、术语的共指消解等关键技术。本项目提出基于指示词和链接分析的方法实现术语抽取;采用自底向上的规约和聚类方法得到关系类型并抽取关系实例;基于多特征抽取与优化的共指消解策略;同时探索上述方法在自然语言处理具体应用中的实施策略,并通过相关任务检验和评价信息抽取方法。为信息检索、自动文摘、文本分类、本体自动构建等各种智能信息处理任务提供重要的支持和借鉴。

项目摘要

本项目主要研究了三个层次的问题,(1) 迁移学习理论和方法的探索:提出一种弱指导的迁移学习方法,其核心是一种新的迁移知识获取策略,并将其应用于自动文本分类中进行验证,以打破传统机器学习任务对于训练集和测试集要求同一概率分布和特征空间的假设,迁移知识通过学习一些特征词的语言学信息及统计信息,构成一种统一的表示形式,相关实验在相同的特征空间及不同的特征空间进行,结果表明,迁移学习方法是有效的,在不同的测试环境下均取得了较理想的结果。同时探索了一种基于EM的直推式迁移学习方法,其核心是利用EM算法对隐含变量的极大似然估计能力,从已标注的源领域数据中获取到迁移知识,然后借助EM算法将迁移知识与未标注的目标领域数据结合,以协助目标领域任务的完成,实验结果证明基于EM的术语抽取迁移学习方法能够解决目标领域缺乏标注语料问题。(2) 信息抽取理论和技术的研究:提出基于深度置信网络(DBN)的中文名实体检测与识别、关系抽取技术,其核心是利用DBN网络分别进行实体检测、实体分类、实体的检测与识别三个任务,探讨了词特征与字特征在这些任务中的优劣、浅层DBN网络神经元数量和深层DBN网络的深度对任务效果的影响,并且与其他机器学习的结果进行了比较,实验结果表明,基于字特征的结果在多数任务中均超过了词特征的结果,深层DBN网络比浅层DBN取得了较好的结果,且稳定性更好。此外,探索了一种改进的深度置信网络的模型训练方式,一种是交替无监督和有监督训练过程的DBN网络,一种是多层有监督训练的DBN网络,实验证明这两种DBN网络都能提高深层DBN网络的效果,使其超越浅层的DBN网络,并且与基础的深层网络结果相比,效果提高明显。(3)信息抽取任务中的主题事件抽取与检测技术探索:研究了一种基于时序特征的特定事件抽取方法,其核心是基于时序特征进行事件抽取的方法,结合先验知识和SVM分类方法进行事件的检测和分类,按照抽取出的事件的时间序列进行排序,基于地震和其他自然灾害的事件抽取实验表明,利用本文提出的方法获得了较高的召回率和准确率。此外,探讨了基于增量式模型的子主题事件动态追踪技术,其核心是结合Single-Pass聚类方法、兼类思想以及动态增量思想,提出了一种动态增量式子主题探测与追踪模型,该模型可以有效的对专题事件进行子主题分析,进而使人们能够更直接和快速的了解主题事件的进展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
3

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
4

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021
5

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020

郑德权的其他基金

相似国自然基金

1

基于机器学习的高性能自适应信息抽取关键技术研究

批准号:60673041
批准年份:2006
负责人:周国栋
学科分类:F0211
资助金额:27.00
项目类别:面上项目
2

基于集成学习的生物医学文本信息抽取方法研究

批准号:61402099
批准年份:2014
负责人:王浩畅
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目
3

基于简标注和弱监督学习的开放的信息抽取研究

批准号:61103077
批准年份:2011
负责人:周德宇
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
4

文本多粒度关系抽取半监督自适应学习的研究

批准号:61202135
批准年份:2012
负责人:陈一飞
学科分类:F06
资助金额:24.00
项目类别:青年科学基金项目