基于短文本的知识库自动更新关键技术研究

基本信息
批准号:61472040
项目类别:面上项目
资助金额:84.00
负责人:宋丹丹
学科分类:
依托单位:北京理工大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:李凤霞,礼欣,李建国,王金刚,何景,陈广,姚旭东,蒋明明,李宁
关键词:
知识挖掘知识库文本挖掘短文本
结项摘要

Knowledge base is essential for knowledge management and utilization. But traditional knowledge bases are maintained manually by volunteer editors, which make them hard to keep up-to-date. Consequenctly, automatic update of knowledge bases becomes a hot research topic. In recent years, short texts are increasing rapidly, and as their information is massive, real-time, and specific, short texts become an important information source to update knowledge bases. However, short texts contains few contents and much noise, with various expressions and irregular grammars, thus bring big challenges for automatic updating process. In this project, we will research on key technologies for automatic updating of knowledge bases based on short texts. Firstly, facing the challenges in data storage and indexing, we will construct a tailored dependency grammar model with densities, and research on the identification for indexable contents of short texts. Secondly, we will propose a feature extension method for entities and short texts with temporal and spatial information incorporated, to solve the sparse problem of the feature space. Thirdly, with limited annotation data, we will give out a correlation discrimination method of entity and short text pairs combining classification and ranking targets. Finally, we will provide a semantic rule template self-learning method to adaptively extract entity information from short texts. In this way, we can realize the goal of automatic updating knowledge bases from short texts.

知识库对于知识的整理和利用具有重要意义,但传统的知识库更新由于依靠人工编辑导致内容滞后问题严重,使得知识库的自动更新成为研究热点。近年来快速增长的短文本数据因其具有海量性、实时性、信息特有性等优点成为知识库更新的一个重要数据来源。但是,由于短文本内容少、噪声多、表述多样、语法不规范,给自动更新过程带来很大挑战。 本项目研究基于短文本的知识库自动更新关键技术,具体包括:针对海量实时短文本的索引需求,构建引入密度的改进依存文法模型,提出面向实体信息的短文本可索引内容识别方法;研究稀疏特征空间上的可用特征扩展方法,通过引入时空信息进行有效特征扩展;基于有限标注数据,提出融合分类与排序目标的训练和分析方法,进行实体-短文本相关性分析;提出语义规则模板自学习算法,研究短文本中实体信息的自适应抽取。从而实现基于海量、实时、多样的短文本进行知识库自动更新的目标。

项目摘要

近年来随着维基百科、百度百科等知识库的发展,知识库成为信息积累的重要平台,对于知识的整理与有效利用具有重要意义。为了解决人工维护的方式使得知识库更新严重滞后的问题,本研究基于具有海量、实时、特有等特性的短文本,围绕在基于短文本的知识库自动更新的关键技术开展研究,提高知识库中信息的数量与质量。.(1)提出了融合知识图谱和概念信息的知识库实体表示方法,在由三元组表示的知识图谱中融合概念信息,使实体嵌入和词嵌入共享相同的向量空间,最后得到同时含有结构化语义和非结构化语义信息的实体向量表示。.(2)提出了融入偏好信息的累积引文推荐的实体-引文分类方法及联合分析模型,把同类训练实例的差异信息融入到支持向量机中,并称这种同类训练实例的差异信息为偏好数据对。为了求解模型的优化目标函数,设计了一个自适应的序列最小化优化算法,提出了两层启发式采样方法,有效地从训练数据中选择有效的偏好数据对。.(3) 提出了一致对抗训练增强的生成对抗网络,能够在有限的开销范围内,构造数量几乎无穷的辨别器。为避免冗余,这些辨别器要表现出不同的评价标准,即对真实样本一致支持,而对于生成的样本则可以从不同方面找到不支持的理由,如样本中的畸变、污点和残缺等。在训练中,让辨别器对真实样本表现一致,而对生成样本不一致,使生成器能够学会如何生成对不同辨别器都评估一致的样本。.(4)研究了辩论文本中的组织短语挖掘方法,提出了一种隐变量模型——shell主题模型,同时建模主题和shell。对于组织短语,使用二元模型对其建模;对于主题内容,使用一元模型对其建模。能够标识shell短语;与不区分shell和主题内容的基线方法相比,区分shell和主题内容的方法有助于提升相应任务的性能。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
2

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020
3

自组装短肽SciobioⅡ对关节软骨损伤修复过程的探究

自组装短肽SciobioⅡ对关节软骨损伤修复过程的探究

DOI:10.13417/j.gab.039.003219
发表时间:2020
4

知识产权保护执法力度、技术创新与企业绩效 — 来自中国上市公司的证据

知识产权保护执法力度、技术创新与企业绩效 — 来自中国上市公司的证据

DOI:
发表时间:2016
5

基于关系对齐的汉语虚词抽象语义表示与分析

基于关系对齐的汉语虚词抽象语义表示与分析

DOI:
发表时间:2020

宋丹丹的其他基金

批准号:71502054
批准年份:2015
资助金额:16.50
项目类别:青年科学基金项目
批准号:61003168
批准年份:2010
资助金额:7.00
项目类别:青年科学基金项目
批准号:61204064
批准年份:2012
资助金额:30.00
项目类别:青年科学基金项目

相似国自然基金

1

面向大规模网络评论文本的产品知识库构建关键技术研究

批准号:61502493
批准年份:2015
负责人:徐立恒
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
2

基于大规模知识库的问答系统关键技术研究

批准号:61672058
批准年份:2016
负责人:赵东岩
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

语义Web知识库补全关键技术研究

批准号:61772079
批准年份:2017
负责人:王志春
学科分类:F0607
资助金额:15.00
项目类别:面上项目
4

藏医诊疗知识库系统关键技术研究

批准号:61563044
批准年份:2015
负责人:张磊
学科分类:F0607
资助金额:39.00
项目类别:地区科学基金项目