基于多源信息融合的元数据自动抽取方法研究

基本信息
批准号:61202232
项目类别:青年科学基金项目
资助金额:21.00
负责人:高良才
学科分类:
依托单位:北京大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:YingLiu,房婧,邱勤,祁茜茜,李克强,杨世娇
关键词:
元数据信息抽取数字图书馆
结项摘要

How to capture the metadata information from the unstructured and semi-structured texts, namely metadata extraction, is one of the major challenges and focuses in digital library, and even in the whole information service domain. The existing methods on metadata extraction primarily rely on the content analysis of texts. However, the results from such content-based methods often contain text errors and the extracted metadata is only a small part of the relevant metadata of resources. As a result, heavy manual correction and enrichment is needed to obtain accurate and complete metadata. Therefore, our project proposes an automatic metadata extraction method based on multi-source information fusion. Depending on the relationship between resources and external data, our proposed method first constructs the searching and fusion mechanism of multiple sources of metadata, and employs the metadata from external data sources to correct and complement the extracted results of content-based methods. Also, our method can break through the limitation of the existing methods, and achieve much more precise and comprehensive metadata. This project would focus on multiple key problems, such as seed metadata generation, external metadata search and collection, multi-source metadata fusion, etc. Overall, our project will have the following contributions: information fusion algorithms based on Minimized Energy Model, self-adaptive metadata searching strategies, statistical feedback based quality evaluation of data sources, and seed metadata extraction methods based on combinational optimization. The goal of the project is to provide a new approach for metadata extraction and to level up the automation of metadata capture.

如何从非结构化或半结构化文本中自动获取元数据信息,即元数据抽取问题,是当前数字图书馆乃至整个信息服务领域的研究热点与难点之一。现有方法仅依赖文档本身的内容信息,难以逾越信息缺失与自身内容错误等障碍,不可避免地要引入大量人工审校,对抽取结果进行修正和补全。为此,本项目拟研究基于多源信息融合的元数据抽取方法,通过挖掘文档和外部数据的关系,构建多来源元数据信息的搜集与融合机制,充分发挥外部数据对抽取结果的修正与补偿作用,实现元数据的准确、全面抽取,突破现有方法的局限性。具体地,本项目将围绕种子元数据的生成、外部元数据的搜索、多源元数据的融合等关键问题,研究基于组合优化策略的种子元数据抽取方法、具有自适应性的元数据搜索策略、基于能量最小化模型的元数据信息融合算法、基于统计反馈的数据源质量评估体系等,为元数据抽取提供一个新的手段。其研究成果将大幅度提高元数据采集技术的自动化水平。

项目摘要

元数据是关于数据的数据,随着大数据时代的来临,如何从非结构化或半结构化数据中自动获取其元数据信息,即元数据抽取问题,是当前大数据乃至整个信息服务领域的研究热点之一。现有元数据抽取方法仅仅基于文档自身内容信息,没有考虑同一元数据在文档之外(外部数据)可能多次出现的特点,难以逾越信息项缺失与自身内容错误等障碍,不可避免地要引入大量人工审校,对抽取结果进行修正和补全。为此,本项目将元数据抽取问题放在大数据环境之中, 研究基于多源信息融合的元数据抽取方法,通过挖掘文档和外部数据的关系,构建多来源元数据信息的搜集与融合机制,充分发挥外部数据对抽取结果的修正与补偿作用,实现元数据的准确、全面抽取,突破现有方法的局限性。具体地,本项目主要研究了该问题的三个子问题,即种子元数据抽取、多源元数据搜索、元数据融合。.关于种子元数据抽取,我们提出自顶向下和自底向上相结合的文档元数据抽取方法,基于自适应的文本分块策略,优化文档元数据抽取结果;同时提出利用文档内部“相同文档元素样式同质”的特点,提高包含元数据的页面元素的定位与识别效果。多源元数据搜索,是一个工程性较强同时又很困难的问题,因为不同的数据源,其接口、数据格式和访问权限等差异很大且动态变化。基于此特点,我们对主流的数据源进行了归类整理,设计了基于静态页面分析的元数据识别方法和基于数据源接口动态监测的元数据抓取方法,并在此基础上,建立了不同数据源的质量评估模型和匹配的搜索策略,实现了运行稳定且数据丰富的元数据搜集,为元数据融合提供了数据支持。元数据融合方面,我们研究了多源元数据的特征选择与融合方法,提出了基于最小化能量模型的元数据融合方法;同时将元数据融合结果反馈到种子元数据抽取过程和搜索过程,通过迭代更新,优化最终的元数据抽取结果;.本项目研究过程中,我们发表了学术论文7篇,其中A类会议(计算机学会推荐会议列表)SIGIR论文 1篇,数字图书馆领域的顶级会议ACM&IEEE JCDL 1篇。本项目所发表的论文,目前已被国内外同行引用23次(根据Google Scholar统计)。在研究成果的产业化应用方面,本项目申请发明专利2项,部分研究成果已经应用于方正、斯迈尔等数字出版与知识服务企业。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

高良才的其他基金

批准号:61573028
批准年份:2015
资助金额:66.00
项目类别:面上项目

相似国自然基金

1

基于多源数据融合的复杂岩体结构信息提取方法研究

批准号:41901401
批准年份:2019
负责人:张荣春
学科分类:D0115
资助金额:24.00
项目类别:青年科学基金项目
2

文本中信息的自动抽取方法研究

批准号:69375016
批准年份:1993
负责人:张永奎
学科分类:F03
资助金额:6.00
项目类别:面上项目
3

多信息动态抽取、融合与关联的回归测试方法研究

批准号:61872167
批准年份:2018
负责人:黄如兵
学科分类:F0203
资助金额:63.00
项目类别:面上项目
4

基于多源信息融合的灌溉决策方法研究

批准号:51709262
批准年份:2017
负责人:陈智芳
学科分类:E0902
资助金额:25.00
项目类别:青年科学基金项目