海量Web用户生成内容物化关键技术

基本信息
批准号:61462017
项目类别:地区科学基金项目
资助金额:45.00
负责人:杨青
学科分类:
依托单位:桂林电子科技大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:张敬伟,张会兵,刘少兵,张海涛,尚宏佳,吴清霞,吴新强,王如意
关键词:
Web数据增量抽取海量数据管理用户生成内容抽取
结项摘要

Web has evolved into a user-centric ecosystem, user-generated content become the main content of the Web. The extraction and integration management of user-generated content, called materialization of user-generated content, becomes a key link of converting Web data into Web value. This project focuses on various user-generated content existing in a large number of heterogeneous sites, and studies the key technologies related with its materialization. Firstly, aiming at the challenging issues on automated and adaptive extraction of user-generated content, this project will put forward an original extraction method, which concentrates on discovering extraction rules by integrating transfer learning and Bayesian logical deduction. The proposed method will provide a solution for automated and adaptive extraction of user-generated content existing in different contexts. Secondly, based on the full analysis of both the diversification of user-generated content and the analysis-specific and application-specific access requirements, this project will carry on key study to both distributed storage model and index technologies, and these technologies should give a full consideration on user ID, timeline, and other access dimensions. Finally, this project will integrate the above technologies and establish a prototype system to realize the materialization of Web user-generated content. This system will also be used to carry out a wide range of intensive experiments and verify its effectiveness and efficiency. Based on the key technologies on materialization of user-generated content, this project can provide a unified data management platform of massive Web user-generated content, which will give a great improvement for data into value.

Web已演变成以用户为核心的生态系统,用户生成内容成为Web的主要内容。Web用户生成内容的有效抽取与集成管理(物化)成为Web数据向Web价值转化的关键环节。本项目主要针对大量异构站点中模式不一的用户生成内容,研究其从Web页面到本地物化过程中的关键技术。针对用户生成内容抽取自动化和自适应这一挑战性问题,重点研究迁移学习和贝叶斯逻辑推演相融合的抽取规则学习技术,提供不同环境下的自动自适应抽取技术方案;针对用户生成内容的表现多样性特征和其分析应用中存在的共性访问需求,研究以用户ID、时间轴等为基本参考维度的分布式数据存储模型和索引技术,解决海量用户生成内容的存储和访问优化等难点问题;同时,建立Web用户生成内容物化原型系统,并进行广泛密集实验,验证系统效率。本项目旨在通过对用户生成内容物化关键技术的研究,建立统一的用户生成内容管理平台,为提升数据到价值的转换效率服务。

项目摘要

Web用户生成内容承载了用户的真实意图等信息,其蕴含的丰富信息对识别用户偏好、进而提供个性化服务等具有重要价值。但由于用户生成内容嵌入在结构不一、表达形式灵活的Web页面中,使得自动准确地用户生成内容获取问题成为高效地使用Web用户生成内容的巨大障碍,致使Web用户生成内容的有效抽取与集成管理(物化)成为Web数据向Web价值转化的关键环节。项目组聚焦Web用户生成内容的爬取、抽取、存储和访问优化这一数据管理主线,提出了若干新颖且效果良好的方法。在Web用户生成内容提取方面,提出了结构与语义特征协同开采、结构相似度和语义距离同步计算的用户生成内容抽取方法,提升了Web用户生成内容的抽取自适应性;在大规模数据的存储访问优化方面,基于Spark平台特性,提出了融合编码和多版本数据管理的分布式数据存储解决方案,并基于编码特性构建了二级索引结构,保障了数据访问效率;同时,针对数据的非均匀分布特征,在Hadoop平台下设计了数据快速匹配算法。基于获取的数据集和建立的推荐应用,项目组对上述各项成果进行了广泛地理论分析和实验分析,验证了项目组建议的用户生成内容获取和管理方法的有效性和高效性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021

杨青的其他基金

批准号:61177062
批准年份:2011
资助金额:68.00
项目类别:面上项目
批准号:71072123
批准年份:2010
资助金额:26.80
项目类别:面上项目
批准号:79942004
批准年份:1999
资助金额:1.50
项目类别:专项基金项目
批准号:31070715
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:31200933
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:81860011
批准年份:2018
资助金额:35.00
项目类别:地区科学基金项目
批准号:20576016
批准年份:2005
资助金额:25.00
项目类别:面上项目
批准号:59275201
批准年份:1992
资助金额:6.00
项目类别:面上项目
批准号:30873153
批准年份:2008
资助金额:34.00
项目类别:面上项目
批准号:51372220
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:71373049
批准年份:2013
资助金额:56.00
项目类别:面上项目
批准号:39400109
批准年份:1994
资助金额:7.50
项目类别:青年科学基金项目
批准号:71872011
批准年份:2018
资助金额:49.00
项目类别:面上项目
批准号:41672344
批准年份:2016
资助金额:80.00
项目类别:面上项目
批准号:51408550
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:31272630
批准年份:2012
资助金额:82.00
项目类别:面上项目
批准号:70371033
批准年份:2003
资助金额:14.00
项目类别:面上项目
批准号:61475124
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:30300468
批准年份:2003
资助金额:20.00
项目类别:青年科学基金项目
批准号:51204139
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:60672185
批准年份:2006
资助金额:20.00
项目类别:联合基金项目
批准号:81101869
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:58870177
批准年份:1988
资助金额:3.50
项目类别:面上项目
批准号:31572591
批准年份:2015
资助金额:67.00
项目类别:面上项目
批准号:60473048
批准年份:2004
资助金额:5.00
项目类别:面上项目
批准号:71472013
批准年份:2014
资助金额:56.80
项目类别:面上项目
批准号:U1630111
批准年份:2016
资助金额:60.00
项目类别:联合基金项目
批准号:41301042
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:11204002
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:51908280
批准年份:2019
资助金额:23.00
项目类别:青年科学基金项目
批准号:41375101
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:91024020
批准年份:2010
资助金额:35.00
项目类别:重大研究计划
批准号:60706020
批准年份:2007
资助金额:22.00
项目类别:青年科学基金项目
批准号:70702028
批准年份:2007
资助金额:19.00
项目类别:青年科学基金项目
批准号:39380019
批准年份:1993
资助金额:8.00
项目类别:专项基金项目
批准号:41106116
批准年份:2011
资助金额:29.00
项目类别:青年科学基金项目
批准号:81472270
批准年份:2014
资助金额:70.00
项目类别:面上项目
批准号:51672245
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:41576149
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:20676021
批准年份:2006
资助金额:8.00
项目类别:面上项目
批准号:61176113
批准年份:2011
资助金额:66.00
项目类别:面上项目
批准号:81373396
批准年份:2013
资助金额:65.00
项目类别:面上项目
批准号:31571443
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:81573301
批准年份:2015
资助金额:25.00
项目类别:面上项目

相似国自然基金

1

Web社会网络用户与内容建模研究

批准号:61102136
批准年份:2011
负责人:林琛
学科分类:F0113
资助金额:25.00
项目类别:青年科学基金项目
2

统一的语义Web内容生成模型研究

批准号:60703059
批准年份:2007
负责人:唐杰
学科分类:F0203
资助金额:21.00
项目类别:青年科学基金项目
3

基于内容的WEB视频检索关键技术的研究

批准号:69803009
批准年份:1998
负责人:庄越挺
学科分类:F0214
资助金额:11.00
项目类别:青年科学基金项目
4

基于海量旅游Web数据的智慧旅游平台关键技术

批准号:61662015
批准年份:2016
负责人:周娅
学科分类:F0202
资助金额:43.00
项目类别:地区科学基金项目