面向Web数据集成的半结构化Web数据自适应抽取与整合问题研究

基本信息
批准号:61303007
项目类别:青年科学基金项目
资助金额:23.00
负责人:丁艳辉
学科分类:
依托单位:山东师范大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:王洪国,张永新,谷建军,王鑫,张岳,赵建秀,杨福强
关键词:
冲突消解半结构化Web数据重复记录检测Web数据集成自适应抽取
结项摘要

With the huge number of heterogeneous and valuable data arising in the internet, Web data integration integrates multiple Web data sources and provides important data supporting for such applications as business intelligence, market intelligence, and so on. Semi-structured data is an important part of Web data. The extraction and integration of semi-structured Web data is the crucial step of Web data integration, which face many difficulties and challenges. The project intends to conduct in-depth research on the extraction and integration issues of semi-structured web data. Due to the characteristics that Web data integration is a dynamic process, adaptive extraction methods are studied in this project. The accumulated data in Web data integration system and the long-distance dependencies between Web elements are used to realize that the new data source in the same domain can be extracted adaptively. The techniques that deal with duplicate record detection and conflict resolution simultaneously are studied in this project. The accumulated data in Web data integration system and the domain knowledge, as well as the relationship between duplicated record detection and conflict resolution, are used to realize that both the two processes are solved simultaneously, which can improve the accuracy and adaptability of both processes.

面对互联网上海量、异构、有价值数据的大量涌现,Web数据集成通过有效地整合多数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析型应用提供重要的数据支撑。半结构化数据是Web数据的重要组成部分,半结构化Web数据的抽取与整合是Web数据集成的重要环节,存在着许多困难和挑战。本项目拟在Web数据集成的背景下,对半结构化Web数据的抽取与整合问题进行深入研究。拟针对Web数据集成动态性的特点,研究半结构化Web数据自适应抽取技术,充分利用Web数据集成系统中已集成的数据以及Web数据元素间的长距离依赖关系,实现对同一领域内新数据源的适应性抽取;研究重复记录检测与冲突消解的结合处理技术,充分利用Web数据集成系统中已集成数据及领域知识的指导作用,以及重复记录检测与冲突消解间的相互促进作用,建立适应Web数据特点的重复记录检测与冲突消解结合处理方法,提高Web数据整合方法的准确性和适应性。

项目摘要

面对互联网上海量、异构、有价值数据的大量涌现,Web数据集成通过有效地整合多数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析型应用提供重要的数据支撑。本项目主要在Web数据集成的背景下,对半结构化Web数据的抽取与整合问题进行深入研究,并以高校毕业生就业推荐作为应用背景,将研发的方法应用至原型系统中。并将Web数据融合思路,应用至医学图像多模态数据的融合处理中。.发表相关论文9篇,其中SCI期刊1篇,EI期刊3篇,领域内知名会议报告论文1篇;研发原型系统1个;获软件著作权1项;利用项目中的方法,为其他项目提供支撑,作为第二负责人申请国家社会科学基金1项;作为主要参与人荣获山东省科技进步二等奖1项(第4位);作为主要参与人申请国家发明专利1项(第3位);作为指导老师,依托本项目指导本科生申请国家级创新创业项目1项;培养硕士研究生6名,其中已毕业2名,在读4名,指导硕士生发表SCI论文2篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021

丁艳辉的其他基金

相似国自然基金

1

WEB数据抽取与集成技术研究

批准号:60273018
批准年份:2002
负责人:孟小峰
学科分类:F0202
资助金额:22.00
项目类别:面上项目
2

Deep Web数据集成查询结果抽取与整合关键技术研究

批准号:61100167
批准年份:2011
负责人:董永权
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
3

面向Deep Web的数据整合关键技术研究

批准号:61872168
批准年份:2018
负责人:董永权
学科分类:F0211
资助金额:62.00
项目类别:面上项目
4

面向移动用户的Web数据集成技术研究

批准号:61379050
批准年份:2013
负责人:孟小峰
学科分类:F0202
资助金额:73.00
项目类别:面上项目