With the huge number of heterogeneous and valuable data arising in the internet, Web data integration integrates multiple Web data sources and provides important data supporting for such applications as business intelligence, market intelligence, and so on. Semi-structured data is an important part of Web data. The extraction and integration of semi-structured Web data is the crucial step of Web data integration, which face many difficulties and challenges. The project intends to conduct in-depth research on the extraction and integration issues of semi-structured web data. Due to the characteristics that Web data integration is a dynamic process, adaptive extraction methods are studied in this project. The accumulated data in Web data integration system and the long-distance dependencies between Web elements are used to realize that the new data source in the same domain can be extracted adaptively. The techniques that deal with duplicate record detection and conflict resolution simultaneously are studied in this project. The accumulated data in Web data integration system and the domain knowledge, as well as the relationship between duplicated record detection and conflict resolution, are used to realize that both the two processes are solved simultaneously, which can improve the accuracy and adaptability of both processes.
面对互联网上海量、异构、有价值数据的大量涌现,Web数据集成通过有效地整合多数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析型应用提供重要的数据支撑。半结构化数据是Web数据的重要组成部分,半结构化Web数据的抽取与整合是Web数据集成的重要环节,存在着许多困难和挑战。本项目拟在Web数据集成的背景下,对半结构化Web数据的抽取与整合问题进行深入研究。拟针对Web数据集成动态性的特点,研究半结构化Web数据自适应抽取技术,充分利用Web数据集成系统中已集成的数据以及Web数据元素间的长距离依赖关系,实现对同一领域内新数据源的适应性抽取;研究重复记录检测与冲突消解的结合处理技术,充分利用Web数据集成系统中已集成数据及领域知识的指导作用,以及重复记录检测与冲突消解间的相互促进作用,建立适应Web数据特点的重复记录检测与冲突消解结合处理方法,提高Web数据整合方法的准确性和适应性。
面对互联网上海量、异构、有价值数据的大量涌现,Web数据集成通过有效地整合多数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析型应用提供重要的数据支撑。本项目主要在Web数据集成的背景下,对半结构化Web数据的抽取与整合问题进行深入研究,并以高校毕业生就业推荐作为应用背景,将研发的方法应用至原型系统中。并将Web数据融合思路,应用至医学图像多模态数据的融合处理中。.发表相关论文9篇,其中SCI期刊1篇,EI期刊3篇,领域内知名会议报告论文1篇;研发原型系统1个;获软件著作权1项;利用项目中的方法,为其他项目提供支撑,作为第二负责人申请国家社会科学基金1项;作为主要参与人荣获山东省科技进步二等奖1项(第4位);作为主要参与人申请国家发明专利1项(第3位);作为指导老师,依托本项目指导本科生申请国家级创新创业项目1项;培养硕士研究生6名,其中已毕业2名,在读4名,指导硕士生发表SCI论文2篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
中外学术论文与期刊的宏观差距分析及改进建议
WEB数据抽取与集成技术研究
Deep Web数据集成查询结果抽取与整合关键技术研究
面向Deep Web的数据整合关键技术研究
面向移动用户的Web数据集成技术研究