自适应的中文网络意见挖掘关键技术研究

基本信息
批准号:60973081
项目类别:面上项目
资助金额:30.00
负责人:付国宏
学科分类:
依托单位:黑龙江大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:杨艳,金虎,沙鸿,王昕,王奇,付春元,李函章,刘春阳
关键词:
情感分析意见挖掘机器学习主观性识别
结项摘要

从网络评论中挖掘意见信息是当前网络信息处理研究领域的热点问题之一。领域适应性和性能稳定性是目前意见挖掘系统在处理大规模开放网络文本时所面临的两个主要问题。针对这些问题,结合中文网络评论的特点,本项目拟以自然语言处理技术为基础,融合多种语言学知识,在机器学习框架下研究自适应的中文网络意见挖掘关键技术。主要研究内容包括:研究面向网络评论文本的中文处理技术,重点解决网络文本存在的次生成问题;研究中文情感知识获取和意见语料构造方法,重点研究领域和上下文相关的动态情感知识自动获取方法,以提高系统的自适应能力;研究模式匹配和情感密度相结合的主观性识别算法;在机器学习框架下研究融合多个特征和情感知识的意见抽取和极性分类方法,重点研究特征选择和优化算法,以提高系统的性能稳定性。本项目的实施对自然语言处理、信息检索、文本挖掘、自动文摘、问答系统和智能信息服务等研究领域具有重要的科学意义和应用前景。

项目摘要

随着互联网的迅猛发展,特别是Web2.0的兴起,意见挖掘已经成为自然语言处理领域的一个研究热点。本项目以解决汉语网络意见挖掘中的部分关键问题、提高汉语情感分析性能为目标,对意见文本分析、主观性识别、情感极性分类和意见要素标注等关键问题进行了深入研究和探索,并取得以下研究进展:.(1) 针对网络意见文本自由、多样和开放的特点,引入语素概念,在机器学习框架下构建了面向网络意见文本的语言分析技术,包括基于语素的词法分析、基于双层条件随机域模型的嵌套命名实体识别、基于序列标注的意见文本标点校对等,重点解决网络文本分析中存在的未登录词识别与预测等次生成问题以及标点误用等病态输入问题。.(2) 针对主观性识别所面临的主观性特征选择及其表示等难题,构建了汉语句子情感密度计算模型,提出一种基于情感密度子区间的汉语主观性识别方法;引入模糊集合表示词语的主观性强度,提出一种基于模糊集合论的汉语词语主观性强度计算方法。同其它方法相比,情感密度子区间和模糊词汇主观性强度的引入一定程度上可以反映主、客观句子之间的细微区别,有利于主观性识别性能的提高。.(3) 以情感语素为基础,深入探索了不同粒度的情感之间的联系和融合机理,构建多粒度融合的句子情感强度计算方法,提出一种基于模糊集的中文句子情感分类方法,有效地解决了情感极性分类所面临的动态极性以及中文情感倾向性概念外延边界的模糊性等问题。.(4) 为了开发一个高质量的多领域意见标注语料库,我们制定le详细的语料建设方案,包括语料的结构设计、收集和标注等;同时,开发了相应的自动标注工具,如基本语言标注工具和意见要素标注工具等。迄今,已完成手机、汽车和数码相机等产品领域的语料收集、整理并初步完成基本语言标注、标点校对和意见要素等信息的标注。.基于以上这些方法和资源,我们实现了一个汉语情感分析系统,并验证了方法的有效性。此外,在本项目支持下,项目组共发表学术论文21篇,培养学术骨干1名,培养硕士研究生11人。本项目的研究成果可广泛应用于意见摘要、商业智能、产品推荐等相关领域。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

付国宏的其他基金

批准号:61170148
批准年份:2011
资助金额:56.00
项目类别:面上项目
批准号:61672211
批准年份:2016
资助金额:63.00
项目类别:面上项目

相似国自然基金

1

Web文本意见挖掘关键技术研究

批准号:61250010
批准年份:2012
负责人:牛振东
学科分类:F0211
资助金额:20.00
项目类别:专项基金项目
2

汉语解释性意见挖掘关键技术研究

批准号:61672211
批准年份:2016
负责人:付国宏
学科分类:F0211
资助金额:63.00
项目类别:面上项目
3

网络意见挖掘若干前沿问题研究

批准号:60903108
批准年份:2009
负责人:刘洋
学科分类:F0607
资助金额:18.00
项目类别:青年科学基金项目
4

互联网环境下中文实体知识挖掘关键技术研究

批准号:61202329
批准年份:2012
负责人:刘康
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目