Network data refer to information sets composed of context of the research target. Network data contain plenty of information besides of the domain-specific data and usually hold lot of potential features, which may provide many potentials for deep learning model to futher improve accuracy performance. This proposal uses topic model as the basic tool to analyze and model the rich features contained in network data, based on which features got from network data are then combined with those got from domain-specific data. We first study feature extraction method to get as much feature information as possible using topic model, which represents features with topic distributions. We then study multimodal fusion for effective combination of features. We also study parameter tunning and parallel paramter learning to improve strengh of the proposed deep learning architecture. Our project aims to improve accuracy and generalization performance of present deep learning architecture.
文本网数据指研究对象相关的上下文构成的信息集合。文本网数据来源多样、包含信息众多,能够在研究对象的领域数据之外提供更为丰富的特征集,对提高深度学习模型的精度有重要意义。本项目以主题模型为主要工具,分析和建模文本网数据所蕴含的大量特征,在此基础上研究融合文本网数据的深度学习技术,主要包括:研究基于主题模型的特征提取方法,在保留特征信息的前提下,以高度抽象的主题分布来表达文本网数据的特征;研究多模态融合技术,同时融合领域数据所提取特征和文本网数据所含特征,使用丰富的特征集来提高后续分类器的精度;研究本方案深度学习框架的参数优化和模型泛化问题,确保分类和预测精度;研究高效的模型并行学习方法,提高模型参数的学习效率。本项目的预期成果拟在保证模型推理速度的前提下,显著提高有效特征数量,提高深度学习框架的精度和泛化性能。
本项目基于深度学习模型和主题模型来对领域数据和文本网数据进行特征表示,通过高效的并行学习方式,在可接受的时间内给出高精度的分类或预测结果。项目的研究内容主要包括:多模态交叉模型、深度学习参数优化及模型泛化、高效的模型并行化方法、典型应用上的算法验证四个部分。.在多模态交叉模型研究方面,从多种角度来考虑两种模型的结合以及两种模态特征的结合方式。一方面,我们利用基于深度学习模型得到较好的领域数据特征,另一方面,基于主题模型来取得文本网数据包含的丰富信息,在此基础上学习到更好的有效特征集合。在深度学习参数优化以及模型泛化研究方面,本项目模型将大量文本网数据所蕴含信息引入到深度学习框架中,进一步研究深度学习参数的优化及模型的泛化。在高效的模型并行化方法研究方面,本项目进一步增加了来源广泛的文本网数据,不仅增加了需要学习的数据量,而且显著扩大了数据的维度。在典型应用上的算法验证研究方面,在前几项研究内容的基础上,本项目在典型应用上实现原型系统,并基于 CPU 和 GPU 混合集群或机群环境构建并行架构,实现具有参数优化和模型泛化,可防数据缺失以及噪声干扰的深度学习模型。.本项目研究成果主要是完成融合文本网数据深度学习方法的相关技术框架、设计方案和原型系统测试报告,提出并完成基于多模态特征融合的关键算法、完成结合主题模型和深度学习框架的原型系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于深度学习的数据-文本生成技术研究
基于深度学习的文本和语音多模态数据挖掘研究
基于深度学习的多源异构质检大数据融合与分析技术研究
基于深度学习的中文文本蕴涵关系识别技术研究