Web has evolved into a user-centric ecosystem, user-generated content become the main content of the Web. The extraction and integration management of user-generated content, called materialization of user-generated content, becomes a key link of converting Web data into Web value. This project focuses on various user-generated content existing in a large number of heterogeneous sites, and studies the key technologies related with its materialization. Firstly, aiming at the challenging issues on automated and adaptive extraction of user-generated content, this project will put forward an original extraction method, which concentrates on discovering extraction rules by integrating transfer learning and Bayesian logical deduction. The proposed method will provide a solution for automated and adaptive extraction of user-generated content existing in different contexts. Secondly, based on the full analysis of both the diversification of user-generated content and the analysis-specific and application-specific access requirements, this project will carry on key study to both distributed storage model and index technologies, and these technologies should give a full consideration on user ID, timeline, and other access dimensions. Finally, this project will integrate the above technologies and establish a prototype system to realize the materialization of Web user-generated content. This system will also be used to carry out a wide range of intensive experiments and verify its effectiveness and efficiency. Based on the key technologies on materialization of user-generated content, this project can provide a unified data management platform of massive Web user-generated content, which will give a great improvement for data into value.
Web已演变成以用户为核心的生态系统,用户生成内容成为Web的主要内容。Web用户生成内容的有效抽取与集成管理(物化)成为Web数据向Web价值转化的关键环节。本项目主要针对大量异构站点中模式不一的用户生成内容,研究其从Web页面到本地物化过程中的关键技术。针对用户生成内容抽取自动化和自适应这一挑战性问题,重点研究迁移学习和贝叶斯逻辑推演相融合的抽取规则学习技术,提供不同环境下的自动自适应抽取技术方案;针对用户生成内容的表现多样性特征和其分析应用中存在的共性访问需求,研究以用户ID、时间轴等为基本参考维度的分布式数据存储模型和索引技术,解决海量用户生成内容的存储和访问优化等难点问题;同时,建立Web用户生成内容物化原型系统,并进行广泛密集实验,验证系统效率。本项目旨在通过对用户生成内容物化关键技术的研究,建立统一的用户生成内容管理平台,为提升数据到价值的转换效率服务。
Web用户生成内容承载了用户的真实意图等信息,其蕴含的丰富信息对识别用户偏好、进而提供个性化服务等具有重要价值。但由于用户生成内容嵌入在结构不一、表达形式灵活的Web页面中,使得自动准确地用户生成内容获取问题成为高效地使用Web用户生成内容的巨大障碍,致使Web用户生成内容的有效抽取与集成管理(物化)成为Web数据向Web价值转化的关键环节。项目组聚焦Web用户生成内容的爬取、抽取、存储和访问优化这一数据管理主线,提出了若干新颖且效果良好的方法。在Web用户生成内容提取方面,提出了结构与语义特征协同开采、结构相似度和语义距离同步计算的用户生成内容抽取方法,提升了Web用户生成内容的抽取自适应性;在大规模数据的存储访问优化方面,基于Spark平台特性,提出了融合编码和多版本数据管理的分布式数据存储解决方案,并基于编码特性构建了二级索引结构,保障了数据访问效率;同时,针对数据的非均匀分布特征,在Hadoop平台下设计了数据快速匹配算法。基于获取的数据集和建立的推荐应用,项目组对上述各项成果进行了广泛地理论分析和实验分析,验证了项目组建议的用户生成内容获取和管理方法的有效性和高效性。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
拥堵路网交通流均衡分配模型
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
中外学术论文与期刊的宏观差距分析及改进建议
Web社会网络用户与内容建模研究
统一的语义Web内容生成模型研究
基于内容的WEB视频检索关键技术的研究
基于海量旅游Web数据的智慧旅游平台关键技术