Sequence labeling is a classic Natural Language Processing (NLP) task. In this proposal, we investigate the Chinese word segmentation and the Part-Of-Speech (POS) tagging task, which are treat as character-based sequence labeling task and word-based sequence labeling task, respectively. The state-of-the-art Chinese word segmentation and POS tagging systems obtained high accuracy in domains like newswire with the large-scale annotated training corpora. However, the performance of system trained on newswire corpora significantly decreases when it is used in other domains such as patents. For example, the F1 measure of the well-known Chinese word segmenter LTP is 91.2% on newswire data, while 76.9% on patent data. This is because the training data (source domain) and test data (target domain) are from different distributions. In this proposal, we will develop some neural domain adaptation methods to improve the cross-domain sequence labeling performance. In the experiments, we use Chinese Treebank as source domain data and patent, novel, Weibo as target domain data to test the proposed Chinese sequence labeling systems. The proposed Chinese word segmenter and POS tagger, without domain limitation, can be used in many Chinese natural language processing task for new words detection, such as science and technology document content analysis system.
序列标注问题是自然语言处理常见的问题之一。本课题拟针对中文序列标注任务中的分词任务(字序列标注)和词性标注任务(字\词序列标注)展开研究。现有常用分词和词性标注工具在拥有大量标注数据的新闻领域有着较高的准确率,但将上述工具应用至非新闻文本,系统性能发生骤降。例如哈工大LTP分词器,在新闻语料的F1值为91.2%,但在专利文本为87.1%。上述现象的产生是由于用于训练系统的始源域数据(新闻)与测试的目标域数据(专利)差异较大。本课题拟采用基于深度神经网络的领域自适应算法解决在中文序列标注过程中由于数据领域不同带来的系统性能骤降的问题。实验中,以Chinese Treebank语料作为始源域数据,专利、小说、微博等语料作为目标域数据,对自适应中文序列标注系统进行测试。本课题建立的领域自适应分词和词性标注系统,具有较强的新词发现能力,可应用于专业文本处理系理系统,诸如科技文献内容分析系统。
序列标注问题是自然语言处理常见的问题之一。本项目围绕中文序列标注任务展开,主要包括中文分词、中文命名实体识别、中文缺失代词补全等。由于在一些特定领域中可利用的标注数据极为有限,使得系统性能不佳。针对目标领域标注数据有限的情况,开展了两方面的研究工作:一方面,利用跨域数据,采用领域自适应方法,提升系统在目标领域数据上的性能;另一方面,仅利用目标域数据,采用数据增强、利用知识库等方法,提升系统性能。实验结果表明所提出的模型均在相应任务上取得了系统性能的提升,使得系统在数据标注有限的情况下,仍具有相对良好的性能。在研究过程中,课题组在序列标注任务上开展了很多探索性工作,如对中医古籍文献进行了标注并建立中医古籍分词系统。中医古籍分词系统的建立,使得计算机和非专业人员理解专业古籍语义变得相对容易,为后续中医古籍自动化信息处理奠定了良好的基础。本项目围绕中文自然语言处理的基础研究而展开,所提模型可广泛应用于中文信息处理相关任务中,如信息抽取、对话系统等。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于自适应干扰估测器的协作机器人关节速度波动抑制方法
含饱和非线性的主动悬架系统自适应控制
基于速变LOS的无人船反步自适应路径跟踪控制
城市生活垃圾热值的特征变量选择方法及预测建模
基于卷积神经网络的JPEG图像隐写分析参照图像生成方法
中文领域本体学习及半自动构建方法研究
基于时空领域本体的语义标注技术研究
基于需求语义标注与领域知识的服务透明化推荐方法研究
基于字依存的中文精细结构标注及其学习算法研究