海量Web用户生成内容物化关键技术

基本信息

批准号：61462017

项目类别：地区科学基金项目

资助金额：45.00

负责人：杨青

学科分类：

依托单位：桂林电子科技大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：张敬伟,张会兵,刘少兵,张海涛,尚宏佳,吴清霞,吴新强,王如意

关键词：

Web数据增量抽取海量数据管理用户生成内容抽取

结项摘要

Web has evolved into a user-centric ecosystem, user-generated content become the main content of the Web. The extraction and integration management of user-generated content, called materialization of user-generated content, becomes a key link of converting Web data into Web value. This project focuses on various user-generated content existing in a large number of heterogeneous sites, and studies the key technologies related with its materialization. Firstly, aiming at the challenging issues on automated and adaptive extraction of user-generated content, this project will put forward an original extraction method, which concentrates on discovering extraction rules by integrating transfer learning and Bayesian logical deduction. The proposed method will provide a solution for automated and adaptive extraction of user-generated content existing in different contexts. Secondly, based on the full analysis of both the diversification of user-generated content and the analysis-specific and application-specific access requirements, this project will carry on key study to both distributed storage model and index technologies, and these technologies should give a full consideration on user ID, timeline, and other access dimensions. Finally, this project will integrate the above technologies and establish a prototype system to realize the materialization of Web user-generated content. This system will also be used to carry out a wide range of intensive experiments and verify its effectiveness and efficiency. Based on the key technologies on materialization of user-generated content, this project can provide a unified data management platform of massive Web user-generated content, which will give a great improvement for data into value.

Web已演变成以用户为核心的生态系统，用户生成内容成为Web的主要内容。Web用户生成内容的有效抽取与集成管理（物化）成为Web数据向Web价值转化的关键环节。本项目主要针对大量异构站点中模式不一的用户生成内容，研究其从Web页面到本地物化过程中的关键技术。针对用户生成内容抽取自动化和自适应这一挑战性问题，重点研究迁移学习和贝叶斯逻辑推演相融合的抽取规则学习技术，提供不同环境下的自动自适应抽取技术方案；针对用户生成内容的表现多样性特征和其分析应用中存在的共性访问需求，研究以用户ID、时间轴等为基本参考维度的分布式数据存储模型和索引技术，解决海量用户生成内容的存储和访问优化等难点问题；同时，建立Web用户生成内容物化原型系统，并进行广泛密集实验，验证系统效率。本项目旨在通过对用户生成内容物化关键技术的研究，建立统一的用户生成内容管理平台，为提升数据到价值的转换效率服务。

项目摘要

Web用户生成内容承载了用户的真实意图等信息，其蕴含的丰富信息对识别用户偏好、进而提供个性化服务等具有重要价值。但由于用户生成内容嵌入在结构不一、表达形式灵活的Web页面中，使得自动准确地用户生成内容获取问题成为高效地使用Web用户生成内容的巨大障碍，致使Web用户生成内容的有效抽取与集成管理（物化）成为Web数据向Web价值转化的关键环节。项目组聚焦Web用户生成内容的爬取、抽取、存储和访问优化这一数据管理主线，提出了若干新颖且效果良好的方法。在Web用户生成内容提取方面，提出了结构与语义特征协同开采、结构相似度和语义距离同步计算的用户生成内容抽取方法，提升了Web用户生成内容的抽取自适应性；在大规模数据的存储访问优化方面，基于Spark平台特性，提出了融合编码和多版本数据管理的分布式数据存储解决方案，并基于编码特性构建了二级索引结构，保障了数据访问效率；同时，针对数据的非均匀分布特征，在Hadoop平台下设计了数据快速匹配算法。基于获取的数据集和建立的推荐应用，项目组对上述各项成果进行了广泛地理论分析和实验分析，验证了项目组建议的用户生成内容获取和管理方法的有效性和高效性。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

DOI：10.1007/s11192-020-03387-8

发表时间：2020

DOI：10.11707/j.1001-7488.20210410

发表时间：2021

杨青的其他基金

批准号：61177062

批准年份：2011

资助金额：68.00

项目类别：面上项目

批准号：71072123

批准年份：2010

资助金额：26.80

项目类别：面上项目

批准号：79942004

批准年份：1999

资助金额：1.50

项目类别：专项基金项目

批准号：31070715

批准年份：2010

资助金额：32.00

项目类别：面上项目

批准号：31200933

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：81860011

批准年份：2018

资助金额：35.00

项目类别：地区科学基金项目

批准号：20576016

批准年份：2005

资助金额：25.00

项目类别：面上项目

批准号：59275201

批准年份：1992

资助金额：6.00

项目类别：面上项目

批准号：30873153

批准年份：2008

资助金额：34.00

项目类别：面上项目

批准号：51372220

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：71373049

批准年份：2013

资助金额：56.00

项目类别：面上项目

批准号：39400109

批准年份：1994

资助金额：7.50

项目类别：青年科学基金项目

批准号：71872011

批准年份：2018

资助金额：49.00

项目类别：面上项目

批准号：41672344

批准年份：2016

资助金额：80.00

项目类别：面上项目

批准号：51408550

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：31272630

批准年份：2012

资助金额：82.00

项目类别：面上项目

批准号：70371033

批准年份：2003

资助金额：14.00

项目类别：面上项目

批准号：61475124

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：30300468

批准年份：2003

资助金额：20.00

项目类别：青年科学基金项目

批准号：51204139

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：60672185

批准年份：2006

资助金额：20.00

项目类别：联合基金项目

批准号：81101869

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

批准号：58870177

批准年份：1988

资助金额：3.50

项目类别：面上项目

批准号：31572591

批准年份：2015

资助金额：67.00

项目类别：面上项目

批准号：60473048

批准年份：2004

资助金额：5.00

项目类别：面上项目

批准号：71472013

批准年份：2014

资助金额：56.80

项目类别：面上项目

批准号：U1630111

批准年份：2016

资助金额：60.00

项目类别：联合基金项目

批准号：41301042

批准年份：2013

资助金额：26.00

项目类别：青年科学基金项目

批准号：11204002

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：51908280

批准年份：2019

资助金额：23.00

项目类别：青年科学基金项目

批准号：41375101

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：91024020

批准年份：2010

资助金额：35.00

项目类别：重大研究计划

批准号：60706020

批准年份：2007

资助金额：22.00

项目类别：青年科学基金项目

批准号：70702028

批准年份：2007

资助金额：19.00

项目类别：青年科学基金项目

批准号：39380019

批准年份：1993

资助金额：8.00

项目类别：专项基金项目

批准号：41106116

批准年份：2011

资助金额：29.00

项目类别：青年科学基金项目

批准号：81472270

批准年份：2014

资助金额：70.00

项目类别：面上项目

批准号：51672245

批准年份：2016

资助金额：62.00

项目类别：面上项目

批准号：41576149

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：20676021

批准年份：2006

资助金额：8.00

项目类别：面上项目

批准号：61176113

批准年份：2011

资助金额：66.00

项目类别：面上项目

批准号：81373396

批准年份：2013

资助金额：65.00

项目类别：面上项目

批准号：31571443

批准年份：2015

资助金额：60.00

项目类别：面上项目

批准号：81573301

批准年份：2015

资助金额：25.00

项目类别：面上项目

相似国自然基金

Web社会网络用户与内容建模研究

批准号：61102136

批准年份：2011

负责人：林琛

学科分类：F0113

资助金额：25.00

项目类别：青年科学基金项目

统一的语义Web内容生成模型研究

批准号：60703059

批准年份：2007

负责人：唐杰

学科分类：F0203

资助金额：21.00

项目类别：青年科学基金项目

基于内容的WEB视频检索关键技术的研究

批准号：69803009

批准年份：1998

负责人：庄越挺

学科分类：F0214

资助金额：11.00

项目类别：青年科学基金项目

基于海量旅游Web数据的智慧旅游平台关键技术

批准号：61662015

批准年份：2016

负责人：周娅

学科分类：F0202

资助金额：43.00

项目类别：地区科学基金项目

海量Web用户生成内容物化关键技术

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

智能煤矿建设路线与工程实践

水中溴代消毒副产物的生成综述

A tale of two databases: the use of Web of Science and Scopus in academic papers

基于PROSAIL模型和多角度遥感数据的森林叶面积指数反演

杨青的其他基金

力电光三相耦合效应提高ZnO微纳光子器件性能研究

基于精益原则的复杂研发项目价值流优化与实证研究

投资项目财务效益与风险综合评价系统

昆虫β-N-乙酰己糖氨酶OfHex1生理功能的结构基础

2号染色体麻风易感基因鉴定分离

COPD血清外泌体小RNA分子标志物的筛选及其在上皮-间质转化中的作用及机制研究

生物催化芳香硝基选择性还原中酶的作用,分离与性质

秦代机械设计与制造工艺的研究与考证

真菌Calonectria IFO30427来源的IDO抑制剂的发现及其抗肿瘤免疫逃逸作用研究

单根宽范围波长可调半导体纳米线激光器研究

基于制度视角的跨期动态CEO薪酬激励定价及其治理绩效研究

青石棉污染区人群间皮瘤中抗癌基因突变的研究

基于复杂网络的研发项目系统架构集成与优化研究

杭嘉湖地区全新世极端气候环境事件及其对新石器文化的影响

沥青-集料界面粘脱滑移本构模型及细观粘弹蠕变性能研究

猪细小病毒PPV2010株对初产母猪繁殖障碍的影响及其机制研究

风险投资全过程评价体系研究

大视场复眼微光学元件的飞秒激光微加工方法研究

姜黄素介导光动力作用阻抑血管成形术后再狭窄及其机制研究

基于预测控制的双闭环智能井优化控制方法研究

民航企业精益价值管理理论和方法研究

Sirt1调控hTERT表达在胃癌发生中作用的研究

秦代机械工程的研究与考证

R-spondin3在猪妊娠早期中的作用及其调控机制研究

凸区域提取的动态内核投票方法

基于结构化方法的复杂研发项目多领域集成分析与优化研究

飞秒激光诱导光子晶体光栅的多光子效应机理及器件研究

关中盆地全新世气候要素及农业活动重建的黍粟碳同位素记录

噪声环境下腔QED量子信息处理及调控

居住型街区空间形态与声环境耦合关系及设计方法研究

水汽输送变化对天山山区气候增湿的影响研究

基于免疫学的非常规突发事件应急管理主动防御多智能系统

一维微纳光电材料的纳秒激光脉冲原位改性研究

基于消费者行为分析的网上支付风险管理及监管研究

抗CD3的单链改形抗体的研究

营养盐驱动下微食物环与主食物网的耦合机制研究

去乙酰化酶SIRT1 调控胃癌浸润转移的机制研究

基于微纳发光材料的宽场远场纳米显微方法研究

全球变化下北黄海中华哲水蚤种群数量增加的原因及机制

昆虫几丁质酶与几丁质合酶的分离、纯化与性质表征

基于飞秒激光制备技术的新型微全分析纳米磁珠芯片的研究

抑制IDO过度活化对阿尔茨海默病小鼠认知缺陷的改善及其机制研究

miR-574-3p正反馈调控HIF/VEGF血管生成通路的分子机制研究

新型吲哚生物碱类IDO抑制剂的发现及其在肿瘤免疫治疗中的作用研究

相似国自然基金