基于矩阵—张量协同分解的大规模知识推理方法研究

基本信息
批准号:61402465
项目类别:青年科学基金项目
资助金额:24.00
负责人:王泉
学科分类:
依托单位:中国科学院信息工程研究所
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:邱泳钦,李强,宋旭亮,李思旭,杨文静
关键词:
语义网知识库知识推理关系数据矩阵/张量分解
结项摘要

Knowledge base construction and its applications have gained much attention in the last few years. Knowledge inference, which aims at automatically inferring new facts in knowledge bases, then stands out as a key research problem. It significantly enlarges the coverage of knowledge bases, and can benefit a great many applications. Tensor factorization, which requires no prior knowledge and scales up well to large knowledge bases, has quickly emerged as one of the most promising approaches to knowledge inference. Existing tensor factorization based methods employ only one type of information to perform knowledge inference, i.e. the entity-entity relations. However, as such information is usually scarce in knowledge bases, existing methods inevitably suffer from the problems caused by data sparsity, e.g. poor learning accuracy and overfitting. In this project, we propose a novel knowledge inference framework which can take fully advantage of three types of information, i.e. the entity-entity relations, the entity categories, and the relation domains and ranges. By incorporating additional information, the proposed framework can effectively address the data sparsity problem, and thus can significantly enhance inference accuracy and drastically reduce overfitting. Moreover, just like existing tensor factorization based methods, the proposed framework can also be processed in a distributed manner, and thus can easily handle large-scale knowledge bases. As knowledge inference is a key issue in knowledge base construction and population, studying on it has important implications for both theory and practice.

知识库的构建和应用是近来学术界和工业界关注的焦点。其中,一个很重要的研究议题就是知识的自动推理,即运用知识库中已有的知识推理出新的、未知的知识。它能显著提高知识的完备性、扩大知识的覆盖面,具有广阔的应用前景。利用张量分解技术实现知识推理具备灵活无依赖和高度可扩展的优势,因此发展成为当下研究的热点。然而,现有基于张量分解的知识推理方法都只用到了实体和实体间的关系这一种信息,存在着因数据稀疏所带来的推理准确度不高、容易发生过拟合等缺陷。本课题在此基础上,创新性地引入实体类别以及关系定义域和值域这两种信息,提出了一套融合多元信息的知识推理通用框架。一方面,通过引入额外信息,它能有效解决现有方法中的数据稀疏问题,提高知识推理准确度,降低过拟合风险。另一方面,它能成功继承现有方法易于分布式处理的优良特性,计算效率高,可扩展性强。本课题的研究面对的是知识库中的核心问题,具有重要的理论意义和实践价值。

项目摘要

知识图谱的构建和应用是近来学术界和工业界关注的焦点。其中,一个很重要的研究议题就是知识的自动推理,即运用知识图谱中已有的知识推理出新的、未知的知识。它能显著提高知识的完备性、扩大知识的覆盖面,具有广阔的应用前景。基于分布式知识表示的推理技术具备灵活无依赖和高度可扩展的优势,因此迅速发展成为当下研究的热点。然而,现有的分布式知识表示学习方法都只用到了实体关系三元组这一种信息,存在着因数据稀疏所带来的推理精度不高、容易发生过拟合等缺陷。..鉴于此,本项目在实体关系三元组的基础上,创新性地引入实体类型、关系定义域值域、关系路径、逻辑规则等多种不同形态的信息,成功构建了一系列融合多元信息的分布式知识表示与推理通用框架和实例化方法,包括:1)融合实体类型的语义平滑分布式知识表示与推理框架;2)融合关系路径的上下文依赖分布式知识表示与推理框架;3)融合逻辑规则的串行式分布式知识表示与推理框架;4)融合逻辑规则的联合式分布式知识表示与推理框架。通过多元化信息的融入,应对现有分布式知识表示学习技术所面临的数据稀疏问题,提高了推理精度。在此基础上,本项目进一步研制了5)基于耦合路径排序的推理规则自动发现算法,以及6)集成多种推理策略的知识推理原型系统。..项目总共发表学术论文13篇,SCI收录2篇,EI收录6篇。其中在CCF A类国际会议ACL/IJCAI上发表长文3篇;在CCF B类国际会议EMNLP/COLING/WSDM上发表长文3篇、短文2篇;在CCF A类国际期刊IEEE Transactions on Knowledge and Data Engineering(IEEE TKDE)上发表学术论文2篇。迄今论文他引(Google Scholar统计)达140余次。以集成多种推理策略的知识推理原型系统参加了第10届ACM网络搜索与数据挖掘国际会议所举办的WSDM Cup 2017知识图谱Triple Scoring任务评测,力压包括美国伊利诺伊大学香槟分校、德国莱比锡大学、雅虎日本等在内的21家参赛队伍,获得了全球第一名的好成绩。..本项目研究的是知识图谱中的核心问题,开创了分布式知识表示与推理的新范式,具有十分重要的理论意义和实践价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
4

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
5

感应不均匀介质的琼斯矩阵

感应不均匀介质的琼斯矩阵

DOI:10.11918/j.issn.0367-6234.201804052
发表时间:2019

王泉的其他基金

批准号:61572385
批准年份:2015
资助金额:64.00
项目类别:面上项目
批准号:61876223
批准年份:2018
资助金额:65.00
项目类别:面上项目
批准号:11901408
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:61070045
批准年份:2010
资助金额:33.00
项目类别:面上项目

相似国自然基金

1

大规模动态模态分解中的张量方法

批准号:11801479
批准年份:2018
负责人:丁维洋
学科分类:A0405
资助金额:22.00
项目类别:青年科学基金项目
2

计算大规模矩阵部分奇异值分解的投影方法

批准号:11001039
批准年份:2010
负责人:牛大田
学科分类:A0502
资助金额:16.00
项目类别:青年科学基金项目
3

基于大规模张量分解的超高维数据结构化表示与分析方法研究

批准号:61602185
批准年份:2016
负责人:谭明奎
学科分类:F0605
资助金额:21.00
项目类别:青年科学基金项目
4

大规模协同环境下工程经验知识演化机制和知识积累方法

批准号:71671113
批准年份:2016
负责人:蒋祖华
学科分类:G0112
资助金额:49.30
项目类别:面上项目