Due to the data volume, variety, and ubiquitous linkage among the data objects in real life, a new challenge has been posed on how to effectively manage the massive, diverse, and complex linked data. In this project, we will focus on how to extract and populate the entities and their relations from the heterogeneous and weakly-labeled Web resources, and fully explore the key technologies for extracting, managing, and mining massive complex linked data with emphasis on the new characteristics of linked data, namely, multi-source and heterogeneity, diversity of the entity and relation types, multi-language, and uncertainty. Specifically, we will study the methods to extract linked data, to populate the newly discovered facts into a linked database, to efficiently store and query massive linked data, to improve the usability of linked data, and to preserve user privacy based on the linked data. In the meantime, a prototype of the linked data management system will be built based on the methods proposed in this project, and explore the application of linked data in the fields of medical health and medical literature retrieval. The research results of this project are expected to provide fundamental theories and techniques for effective extraction, management, mining,and application of massive complex linked data.
现实世界中由于数据的大规模和多样性及数据间语义关系的普遍性使得关联数据呈现出海量、复杂、多样等特点,为有效地管理关联数据提出了新的挑战。本项目旨在获取和融合万维网上各类异构、弱标注的关联数据资源,针对大规模复杂关联数据所呈现出的多源异构性、实体和关联类型的开放性、跨语言特征和不确定性等特点,系统深入地研究大规模复杂关联数据的获取、管理与挖掘的各项关键技术。其中本项目将重点研究关联数据的获取方法、关联数据融合技术、海量关联数据的存储和查询方法、面向关联数据的数据可用性研究、以及面向关联数据的隐私保护等内容。同时,还将基于本项目所提技术构筑针对大规模复杂关联数据的原型管理系统,探讨关联数据在医疗健康、医学文献检索等领域的应用。本项目的研究可以为大规模复杂关联数据的获取、管理、挖掘及应用提供坚实的理论依据和技术支撑。
现实世界中由于数据的大规模和多样性及数据间语义关系的普遍性使得关联数据呈现出海量、复杂、多样等特点,为有效地管理关联数据提出了新的挑战。本项目旨在获取和融合万维网上各类异构、弱标注的关联数据资源,针对大规模复杂关联数据所呈现出的多源异构性、实体和关联类型的开放性、跨语言特征和不确定性等特点,系统深入地研究大规模复杂关联数据的获取、管理与挖掘的各项关键技术。本项目重点研究了实体及其语义关系抽取、关联数据融合、海量关联数据的存储和查询、关联数据的可用性、以及面向关联数据的隐私保护等内容。..本项目围绕上述研究内容提出了约20个关于大规模关联数据管理与挖掘的算法或模型,并基于这些算法、模型开发了若干系统。其中分布式关联数据管理系统gStore能够支持百亿边规模数据的RDF图数据的管理,该系统已被应用到了多个真实应用场景。而gAnswer系统获得2018年NLIWoD and QALD-9比赛的第一名。本项目共发表研究论文79篇,其中国际顶级期刊论文12篇、国际顶级会议论文32篇。1篇论文获得ACM SIGIR 2020的最佳短文奖、1篇论文获得DASFAA 2018的最佳论文奖、1篇论文获得APWeb-WAIM 2019的最佳演示奖。申请并获授权专利7项。本项目培养博士研究生15名、硕士生21名。课题骨干邹磊获得自然科学基金委的优青项目资助、以第一完成人获得2018年度教育部自然科学奖二等奖。课题骨干刘知远入选中国科协“青年人才托举工程”和国家青年拔尖人才计划。 项目负责人王建勇2017年入选IEEE会士和中国人工智能学会首批会士。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
大规模格结构数据管理关键技术研究
大规模模糊RDF数据管理关键技术研究
大规模标注RDF数据管理的关键技术研究
面向时空应用的大规模复杂模糊时空XML数据管理关键技术研究