融合文本网数据的深度学习技术研究

基本信息
批准号:61572339
项目类别:面上项目
资助金额:64.00
负责人:严建峰
学科分类:
依托单位:苏州大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:刘志强,李云飞,周小科,刘晓升,罗晨,黄一清,高阳,朱方舟,周文杰
关键词:
主题模型深度学习文本网数据
结项摘要

Network data refer to information sets composed of context of the research target. Network data contain plenty of information besides of the domain-specific data and usually hold lot of potential features, which may provide many potentials for deep learning model to futher improve accuracy performance. This proposal uses topic model as the basic tool to analyze and model the rich features contained in network data, based on which features got from network data are then combined with those got from domain-specific data. We first study feature extraction method to get as much feature information as possible using topic model, which represents features with topic distributions. We then study multimodal fusion for effective combination of features. We also study parameter tunning and parallel paramter learning to improve strengh of the proposed deep learning architecture. Our project aims to improve accuracy and generalization performance of present deep learning architecture.

文本网数据指研究对象相关的上下文构成的信息集合。文本网数据来源多样、包含信息众多,能够在研究对象的领域数据之外提供更为丰富的特征集,对提高深度学习模型的精度有重要意义。本项目以主题模型为主要工具,分析和建模文本网数据所蕴含的大量特征,在此基础上研究融合文本网数据的深度学习技术,主要包括:研究基于主题模型的特征提取方法,在保留特征信息的前提下,以高度抽象的主题分布来表达文本网数据的特征;研究多模态融合技术,同时融合领域数据所提取特征和文本网数据所含特征,使用丰富的特征集来提高后续分类器的精度;研究本方案深度学习框架的参数优化和模型泛化问题,确保分类和预测精度;研究高效的模型并行学习方法,提高模型参数的学习效率。本项目的预期成果拟在保证模型推理速度的前提下,显著提高有效特征数量,提高深度学习框架的精度和泛化性能。

项目摘要

本项目基于深度学习模型和主题模型来对领域数据和文本网数据进行特征表示,通过高效的并行学习方式,在可接受的时间内给出高精度的分类或预测结果。项目的研究内容主要包括:多模态交叉模型、深度学习参数优化及模型泛化、高效的模型并行化方法、典型应用上的算法验证四个部分。.在多模态交叉模型研究方面,从多种角度来考虑两种模型的结合以及两种模态特征的结合方式。一方面,我们利用基于深度学习模型得到较好的领域数据特征,另一方面,基于主题模型来取得文本网数据包含的丰富信息,在此基础上学习到更好的有效特征集合。在深度学习参数优化以及模型泛化研究方面,本项目模型将大量文本网数据所蕴含信息引入到深度学习框架中,进一步研究深度学习参数的优化及模型的泛化。在高效的模型并行化方法研究方面,本项目进一步增加了来源广泛的文本网数据,不仅增加了需要学习的数据量,而且显著扩大了数据的维度。在典型应用上的算法验证研究方面,在前几项研究内容的基础上,本项目在典型应用上实现原型系统,并基于 CPU 和 GPU 混合集群或机群环境构建并行架构,实现具有参数优化和模型泛化,可防数据缺失以及噪声干扰的深度学习模型。.本项目研究成果主要是完成融合文本网数据深度学习方法的相关技术框架、设计方案和原型系统测试报告,提出并完成基于多模态特征融合的关键算法、完成结合主题模型和深度学习框架的原型系统。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

严建峰的其他基金

批准号:61003259
批准年份:2010
资助金额:7.00
项目类别:青年科学基金项目
批准号:61272449
批准年份:2012
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

基于深度学习的数据-文本生成技术研究

批准号:61876004
批准年份:2018
负责人:常宝宝
学科分类:F0606
资助金额:62.00
项目类别:面上项目
2

基于深度学习的文本和语音多模态数据挖掘研究

批准号:61672301
批准年份:2016
负责人:裴志利
学科分类:F0605
资助金额:62.00
项目类别:面上项目
3

基于深度学习的多源异构质检大数据融合与分析技术研究

批准号:91646122
批准年份:2016
负责人:许应成
学科分类:G0110
资助金额:43.00
项目类别:重大研究计划
4

基于深度学习的中文文本蕴涵关系识别技术研究

批准号:61762081
批准年份:2017
负责人:张志昌
学科分类:F0211
资助金额:39.00
项目类别:地区科学基金项目