Information quality has been a prime research topic in the field of Library and Information Science. User-generated contents (UGC) is a nascent approach to the creation and organization of web information resource within the context of Web2.0. Web users’ diverse participative behavior and complex motivation pose challenges to the effective safeguard of the information quality of UGC. As a result, credible and quality contents are in urgent need. This project applies the theory and techniques of Deep Learning to studying the automated and quantitative quality assessment, and the detection and recognition of quality flaws. We start by probing into the assessment elements of the information quality of UGC from a multidimensional angle, and then proceed to employ Multiview Deep Learning to automatically extract high-order latent features to construct an automated assessment model. With the characteristics of quality flaws predefined by users and the feature space generated by learning we are able to recognize and detect low quality or flawed information. We conclude this project by using BaiduBaike and Zhihu Answering as an experiment dataset to evaluate the model and algorithm so as to build a prototype system and to come up with general strategies for assessing information quality. By facilitating the quality monitoring, usage of high-quality and credible user-generated contents, this project makes significant contribution to both theoretical development and real-world value.
信息质量研究一直是信息科学及图书情报领域关注和研究的热点。用户生成内容作为Web2.0环境下一种新兴的网络信息资源创作与组织模式,网络用户参与行为的多样性和用户生成内容动机的复杂性导致其质量难以得到高效地保障,可信高质量内容已经成为信息消费者的迫切需求。本项目运用深度学习的理论和技术,研究用户生成内容文本信息如何进行自动和定量的质量测评及缺陷的识别与检测。首先从多维的角度探讨用户生成内容质量的评估要素,在此基础上,利用多视图深度学习的方法自动抽取高阶隐式特征构建自动评估模型,结合用户预定义的质量缺陷特征和学习抽取的特征集对低质量或缺陷信息进行识别与检测,最后选取百度百科和知乎问答为例作为实验数据集对模型和算法进行评测构建原型系统并提出相应的质量判断与评估策略。本项目研究对于用户生成内容的质量管控、保障内容消费者获取利用高质量、可信的用户生产内容具有重要的理论价值与实际意义。
信息质量研究一直是信息科学及图书情报领域关注和研究的热点,尤其是网络用户参与行为的多样性和用户生成内容动机的复杂性导致信息质量的参差不齐,可信高质的信息管护是学界和业界亟需解决的关键问题。本项目从多元视角出发,以用户生成内容信息作为主要研究对象,利用社会科学、管理科学与工程、心理学及用户行为理论,引入深度学习、人工智能、区块链等技术方法,探索维基百科、微信公众号、健康社区等不同场景下,信息质量评估、管护的方法和策略,取得了系列研究成果,完成项目预期目标。首先,围绕信息质量测度的核心概念和重要理论进展,从质量的测度、预测控制与激励等多元视角下系统梳理用户生成内容质量研究进展。然后基于不同应用场景的信息质量需求开展实证研究,包括:针对维基百科,开展文章信息质量评估,构建全面的特征框架,并应用深度学习、特征融合等方法进行质量缺陷识别,切实地帮助提升维基百科文章质量;以微信公众号文章为例,提出一种基于深度学习的自媒体平台文章的新颖度评估方法;针对国内外主流电商平台在线评论数据集,设计使用自我注意力的分层注意力框架,开展情感分析及可视化;针对在线问答社区,采用心理学理论和结构方程模型方法,探究用户交互行为的认知机制和信任机制;针对档案学领域,引入区块链技术,利用其技术优势,构建电子文件可信保护框架,维护电子文件真实性、可靠性、完整性和可读性。基于上述研究,共产出专著1本,本领域SCI/SSCI英文论文9篇,CSSCI中文论文6篇,领域核心期刊中文论文1篇,计算机软件著作权登记1项。本项目研究成果直击用户生成内容行业领域的信息质量管理痛点,为提升和优化信息质量提供可参考的管护策略和可实践的技术方法,有力助推了网络可信社区环境优化以及互联网平台空间净化目标的实现。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
二维FM系统的同时故障检测与控制
水中溴代消毒副产物的生成综述
现代优化理论与应用
黄曲霉毒素B1检测与脱毒方法最新研究进展
融合深度学习与进化优化的多源异构用户生成内容个性化搜索
基于深度学习的层次化视觉注意模型研究
基于层次化情感本体和深度学习的社交媒体视觉内容情感分析
基于深度多示例学习的视频理解与内容安全分析