The study of language change and variation has achieved a significant growth in the past half-century, but there is seldom research conducted from the aspect of Natural Language Processing (NLP) or semantic mining. One reason is that these computational based approaches just give statistical trends and fail to meet the accuracy needs of sociolinguists. The other reason is that there is not enough segmented, POS labeled and proofread diachronic corpus to support such research. Based on the solid existing work, this project is to carry out from the following three aspects. (1) Corpus construction: the construction of a large-scale diachronic corpus mainly on modern Chinese, togather with a Web based corpus searching tools and data visualization platform; (2) Research on ontology mining and diachronic corpus based ontologies construction; (3) Research on diachronic ontologies based semantic change mining, and lexical sense disambiguation knowledge-base construction. Through the study mentioned above, this project aims to build a large-scale Chinese diachronic corpus (including diachronic ontologies) and to construct a public research platform based on the corpus, which also supplies a demonstration study on diachronic language variation by the computational based algorithm.
语言变迁研究作为社会语言学的一个重要课题,在过去半个世纪中取得了显著成就,然而借助自然语言处理和语义挖掘技术对此进行的研究却比较少。一方面是因为,计算方法给出的是统计结果,无法达到社会语言学家的精确性要求;另一方面是因为,目前尚缺乏切分和词性标注并经人工校对的大规模历时语料库。本课题拟以申请者现有工作基础出发,从三方面开展研究工作:(1)汉语历时语料库建设:拟建以现代汉语为主体的,包含部分古代汉语语料的大规模历时语料库;同步建设网上语料库检索与数据可视化应用平台。(2)历时本体挖掘算法研究以及汉语历时词汇本体知识库建设。(3)基于历时词汇本体的现代汉语词汇语义变迁研究与词汇义项标注知识库建设。综合上述三方面的工作,该研究旨在构建大规模历时语料库(包括历时词汇本体知识)的同时,呈现一个完整的采用计算方法实现语言变迁研究的应用示范。
词义在实际使用过程中会随着社会环境语言环境的变化而发生变迁。词义变迁导致的一个直接效果就是词的多义以及各种转义现象。利用历时语料库进行词义变迁研究有助于发现词义在大的历史区间的变迁规律,为特定历史时期的词义自动解读提供科学依据和解决方案。词义变迁在不同时代会呈现出跟时代特征有关联的变迁,而在共时平面上,也就是针对不同的话语场景也会引发特定的转义现象。从历时共时两个角度探索研究词义的多样性,能为更加精准的语言理解和语言生成提供支持。.利用大规模语料库辅助词典编撰已成为被业内普遍认同的方案。但考虑到语料库本身的建设会有一定的时间延迟,同时语料库的覆盖面,代表性也是一个很难精确衡量的问题。为此,提供基于自动更新的动态语料库之上的在线词义变化及义项发现服务就成为语料库词典编撰一个合理的解决方案。.本研究从历时共时两个不同角度对词义变迁以及词义在实际使用环境中的多样性表达进行了探索。特别针对与不同历史时代社会环境对词义变迁的影响,以及不同话语环境下词汇情感义的多样性表达进行了深入的研究。提出了较为有效的研究方法。取得了一定的成果。为更加精准的词义多样性的理解与标注奠定了基础。.本研究还开发了基于动态语料库的词典编撰环境。用户可以把语料库检索任务内嵌在词典条目中,以此实现与语料库更新同步的词典信息自动维护。这为今后的互联网动态词典方案提供了基本框架。在线动态词典编撰服务可望在年内上线。.词义变迁可以体现在一词多义上,同时,从另一个角度来看,也反映在能不同的词来表达相同的意思。其中研究比较多的语言现象就是近义词,但在实际中还有另外一个相关的语言现象-转述词。转述词指的是在特定语境下可以被其他词替换使用的词汇。转述现象直接导致了语言表达的多样性。同时也为语言生成任务的自动评测与训练带来干扰。.本研究针对这个问题,利用经典小说的多份中译本语料,完成了超过10万句对的转述语料库。并在此基础上实现了小句以及词汇一级的对齐。相关语料,包含5个不同的中文转述以及英文原文句子,目前已经有5万句对上线提供业内同行自由下载使用。另外还有新近完成的5万句对转述对齐语料即将上线提供使用。这应该是目前中文领域最大的转述语料库。可以为英中机器翻译及中文序列生成任务提供好的训练集和测试集。相关的词汇级别的转述知识也能在很多角度对自然语言处理任务提供帮助。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于关系对齐的汉语虚词抽象语义表示与分析
基于语义分析的评价对象-情感词对抽取
基于脉搏波的中医体质自动辨识系统研究初探
基于数据挖掘治疗过敏性紫癜肾炎用药规律探讨
融合多种支持度定义的频繁情节挖掘算法
汉语亚词汇语义加工的发展研究
《基于动态流通语料库的汉语基本词汇特征曲线跟踪及提取研究》
词汇、句法和语义—基于认知实验的汉语加工过程研究
汉语拼音及汉语词汇的频谱研究