Much valuable information is hidden in the trove of massive natural language text data both online and offline. Knowledge is indispensible in understanding text. In the past, in addition to lexicons and thesauri, noun-based taxonomies or ontologies have been constructed either manually or automatically to support natural language processing. However, nouns or noun phrases alone are not sufficient to understand human text because verbs, and more generally, actions are central to the semantics of sentences. Recent research on semantic role labeling (SRL) seeks to automatically detect the senses of the verbs and their arguments, but the approach relies heavily on manually curated frame corpus and does not scale well. In this project, we propose to study the theory of action concepts, and to develop a framework for automatically construct an action-centric concept ontology from large-scale web text data. This ontology captures action semantics that is more fine-grained and more general that is available from SRL. We also propose to develop a way to automatically map an action into a noun-based concept, in a process called action conceptualization. To demonstrate the usefulness and effectiveness of the proposed ontology, we will develop a number of well-known text processing applications which are all powered by the new technology.
海量的线上和线下自然语言文本数据中蕴藏着非常有价值的信息。知识是理解和处理文本数据的关键。过去,人们用手工或自动的方法构建了词典、词库和基于名词的分类知识库或本体知识库。但是仅靠名词和名词短语来理解文本是不够的。这是因为动词或广义上的动作在每个语句的语义中都起着关键作用。近年来语义角色标注(SRL)的研究试图自动地监测出语句中动词和它的参数的含义,但是这些监督式学习方法依赖人工编纂的语料,故而难以扩展。本项目中我们将谓语动词和动作看作一种概念,研究动作概念的理论以及如何从海量互联网数据上自动提取并构建一个以动作为中心的本体概念知识库。这一知识库可以掌握比SRL更细粒度、更广泛的动作语义。我们还将设计一种把动作自动映射到一个名词概念上的方法。这一过程被称为动作概念化。最后我们将在这些新技术的基础上开发若干经典文本处理应用,以展示动作概念知识库的用途和性能。
海量的线上和线下自然语言文本数据中蕴藏着非常有价值的信息。知识是理解和处理文本数据的关键。过去,人们用手工或自动的方法构建了词典、词库和基于名词的分类知识库或本体知识库。但是仅靠名词和名词短语来理解文本是不够的。这是因为动词或广义上的动作在每个语句的语义中都起着关键作用。近年来语义角色标注(SRL)的研究试图自动地监测出语句中动词和它的参数的含义,但是这些监督式学习方法依赖人工编纂的语料,故而难以扩展。本项目中我们将谓语动词和动作看作一种概念,研究动作概念的理论以及如何从海量互联网数据上自动提取并构建一个以动作为中心的本体概念知识库。这一知识库可以掌握比SRL更细粒度、更广泛的动作语义。我们还设计一种把动作自动映射到一个名词概念上的方法。这一过程被称为动作概念化。最后我们将在这些新技术的基础上开发若干经典文本处理应用,以展示动作概念知识库的用途和性能。在本项目中,我们对数千个英文动词的参数作了概念化处理,并获得相当高准确度的参数概念集合。这项成果发表在AAAI 2016,并公开了我们的数据集和开源代码。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于综合治理和水文模型的广西县域石漠化小流域区划研究
基于直观图的三支概念获取及属性特征分析
A Fast Algorithm for Computing Dominance Classes
基于可能属性分析的粒描述
基于关系对齐的汉语虚词抽象语义表示与分析
基于主题形式概念分析的文本处理关键技术研究
基于语义网络的肾系疾病古籍本体知识库构建及方证规律挖掘
基于Wiki资源的中英文跨语言本体知识库构建
基于形式概念分析的描述逻辑本体构建理论与方法