自然语言处理中基于矩阵的结构化学习研究

基本信息
批准号:61402175
项目类别:青年科学基金项目
资助金额:26.00
负责人:吴苑斌
学科分类:
依托单位:华东师范大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:续晋华,晁国清,周阳,杨默,朱江
关键词:
自然语言处理信息抽取结构化学习中文分词序列标注
结项摘要

Natural Language Processing (NLP) is one of the key components in many knowledge discovery and data mining tasks. Fast and accurate NLP algorithms are important not only in applications, but also in understanding and analyzing of human languages. As a machine-learning-based method in NLP, structured prediction attracts many interests from researches due to its great reliability and flexibility. It has became one of the most effective methods in many NLP tasks. However, features of structured prediction are often represented by vectors in previous works. The traditional vector representation may loss some important information and prior knowledge of NLP problems, which could affect the performances of classifiers...In this proposal, we will study an alternative way to represent features: using matrices. The matrix features will provide an opportunity to overcome the drawbacks of the vector representation, and help to develop efficient structured prediction algorithms. Our main research topics include: matrix feature representation for NLP tasks, regularization methods with matrix norms, matrix learning for structured prediction, and applications to parsing and sequential labelling. We hope that the exploration of matrix learning will improve the performances of structured prediction and benefit various NLP applications..

随着互联网的发展, 自然语言处理成为整理和分析大规模文本数据的核心和基础. 结构化学习作为一种高效, 实用的机器学习方法, 在自然语言处理中具有广泛的应用, 也是近年来的研究热点之一. 但在目前的结构化学习中, 通常将模型的特征表示成为向量. 这样的表示方式存在着信息丢失, 不能有效利用先验知识和实际问题的特性等问题. . 在本项课题研究中, 我们将关注自然语言处理中的特征表示方法, 并在其基础上建立新的结构化学习模型, 研究相应的参数学习和解码算法, 并力争提高自然语言处理任务的性能和效率. 其研究目标包括: 1) 自然语言处理中基于矩阵的特征表示和模型建立; 2)基于矩阵的结构化学习算法; 3) 基于矩阵的结构化学习在词法分析, 句法分析等实际系统中的应用.. 预期的研究成果包括: 发表国内外学术期刊或会议论文6-8篇, 申请专利1-2项.

项目摘要

本项课题主要围绕自然语言处理中的基于矩阵的结构化学习算法展开. 主要研究了结构化学习中的基于矩阵的特征表示, 参数学习算法, 近似解码算法等关键问题. 三年来的主要研究内容归纳为以下三方面:(1) 针对特征建模和参数学习问题, 我们使用矩阵来表示自然语言处理中常用特征. 对于带有秩1约束的结构化学习框架, 提出了一种基于对偶上升的在线学习算法. 该算法能够快速的计算高阶稀疏矩阵的最大奇异向量, 从而提升结构化学习系统的效率. 我们给出了相应的收敛性分析结果, 并在中文分词任务上验证了算法的有效性. (2) 针对结构化学习中的近似解码问题, 一方面利用PAC-Bayes框架分析了近似解码算法的估计误差. 另一方面, 通过例子说明了近似解码算法可以和精确解码算法有相当的近似误差. 我们提出了一种新的间隔定义, 能够方便的集成于现有的结构化学习算法.在文本分类, 中文分词, 词性标注, 短语切分, 依存句法分析验证了理论分析和算法有效性.(3)我们将结构化学习应用到问答系统和信息抽取系统中.对于问答系统, 我们基于带隐变量的结构化学习算法提出一种答案抽取算法.对于信息抽取系统, 我们在自动构建的训练数据集上使用结构化学习算法进行关系抽取任务...课题基本按照预定的计划进行, 达到了项目的预期目标, 并完成了项目预期的研究成果. (1) 理论研究成果: 围绕结构化学习与矩阵学习的相关研究成果发表在16篇国际会议及期刊论文上. 其中国际高水平会议论文ICML, NIPS, AAAI, EMNLP, EACL, CoNLL, SemEval共发表论文12篇, SCI检索论文1篇, 其他会议论文3篇. (2) 资源建设: 在亚马逊语料上搜集和整理了4000篇评论, 标注和整理其中的倾向性关系, 制订了相关标注规范, 并公开发布了语料库. (3) 学术交流: 担任国际会议期刊ACL, EMNLP, NLPCC, TALIP审稿人. 加入微软亚洲研究院``铸星''访问学者计划. 参加ICML, EACL, YSSNLP等国内外会议. (4) 人才培养: 指导了1名博士生, 4名硕士生, 5名本科生(其中一人获得华东师范大学优秀毕业生).

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
2

信息熵-保真度联合度量函数的单幅图像去雾方法

信息熵-保真度联合度量函数的单幅图像去雾方法

DOI:10.3724/SP.J.1089.2019.17435
发表时间:2019
3

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
4

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

DOI:10.7498/aps.68.20181682
发表时间:2019
5

城市生活垃圾热值的特征变量选择方法及预测建模

城市生活垃圾热值的特征变量选择方法及预测建模

DOI:10.11936/bjutxb2021010011
发表时间:2021

吴苑斌的其他基金

相似国自然基金

1

基于核矩阵学习的半结构化文本挖掘研究

批准号:60642001
批准年份:2006
负责人:杨建武
学科分类:F0211
资助金额:7.00
项目类别:专项基金项目
2

基于深度学习、自然语言处理及负相关学习的大规模药物-靶标相互作用预测方法研究

批准号:61902342
批准年份:2019
负责人:王延斌
学科分类:F0213
资助金额:30.00
项目类别:青年科学基金项目
3

基于自然语言处理的安全漏洞静态检测方法研究

批准号:61802413
批准年份:2018
负责人:黄建军
学科分类:F0205
资助金额:25.00
项目类别:青年科学基金项目
4

自然语言处理中语言元素的非齐次属性研究

批准号:60673037
批准年份:2006
负责人:刘秉权
学科分类:F0211
资助金额:26.00
项目类别:面上项目