With iPhone 4S SIRI voice system introducing artificial intelligence to our real life, the machine understanding of natural language attracts more and more attention. In fact, toponyms and spatial relations related information accounts for 70%~80% of the total amount. However, due to the complexity of Chinese and spatial relations, we cannot satisfactorily recognize the Chinese toponyms as well as construct the spatial relations using current research methods. Upon the basis of the previous research of this subject, the project will study toponyms within Chinese context. By analyzing the sound, form, meaning and other characteristics, such as geographical, regional, historical, social, ethnical and linguistic features, laws and roles of toponyms in the expression of natural language spatial relations will be explored, based on which a new method combining with Hidden Markov model for the recognition of Chinese toponyms will be structured; toponym-based argument structure will be proposed; the importance of toponyms in the expression of natural language will be stressed; and a toponym-driven Chinese text spatial relations construction model will be developed. In the following experiment section, multi-thematic data will be applied for model training to obtain model parameters that are adaptive for natural language spatial relations construction in multiple scenarios. Finally, numerous corpus experiments will be conducted to validate this model, resulting in presenting a new idea for the intelligent analysis of Chinese natural language spatial relations.
iPhone4S的SIRI语音系统把人工智能引入到现实生活,自然语言的机器理解受到越来越多的关注。在自然语言中,含有地名及空间关系的信息量占到全部信息量的70%-80%,由于中文语言及空间关系的复杂性,目前的研究方法无法很好的处理中文地名的识别及其空间关系的构建工作。本课题基于前期的研究基础,以中文文本环境下的地名为研究对象,通过分析地名的音、形、义特征及其所包含的地理性、区域性、历史性、社会性、民族性和语言性特点,探索地名在自然语言空间关系表达中的规律和作用,并以此规律为基础,结合隐马尔科夫模型构建中文地名的识别方法;提出基于地名的论元结构,强调地名在自然语言空间信息表达中的重要性,建立以地名驱动的中文文本空间关系构建模型;通过多专题地址数据的模型训练,获得适应多场景自然语言空间关系构建的模型参数。最后,通过大量的语料实验来验证该模型,从而为中文自然语言空间关系智能解析提供新的研究思路。
项目立项于2013年,正直智能移动设备硬件进入成熟时期,而基于移动硬件传感器的软件应用呈现百花齐放的阶段,适时,苹果推出了其第四代移动电话IPhone4s,其操作系统IOS提供了最新的智能语音助手SIRI,其对自然语言的理解程度大大超出了一般人的预想。凭借其巨大的用户基础,使自然语言机器解析的成果迅速普及到普通公众的日常生活。这种技术的广泛应用对处理中文地名信息及其空间关系的构建提出了新的要求,需要解决其中涉及的一些关键理论问题和技术问题,本课题基于此背景和目的立项。.项目在实际实施过程中,根据具体的研究情况进行了部分的调整,主要完成的研究内容集中在:(1)解决结构化文本信息中地名及地址信息的解析。空间相关文本包含结构化文本和泛在自由文本,后者的解析难度大大超过前者,对于前者的研究可为对后者的研究提供思路和借鉴,因此本阶段主要工作集中在结构化文本尤其是地址信息的解析。地址是一种对个体地域空间位置信息的编码方法,在我国,由于城市快速发展,地址规划相对落后,非标准地址大量存在。在分析标准地址模型空间约束关系类型的基础上,提出了一种基于地址树模型的中文地址提取方法,该模型以拓扑关系作为空间约束关系是否一致的判断标准,可以从非标准地址中提取标准地址,并剔除非标准和错误地址元素;(2)收集并构建地址参考库,研究地名的结构特征,挖掘地名所反映的自然和人文特征,选择深圳市地名数据库进行了关于含“围”地名数据集的研究。通名“围”的命名起源有两种看法。本文以广东省为研究区域,基于GIS技术,从含“围”地名群空间分布特征出发,通过分析其与环境因素之间的关系,并与客家含“屋”地名群进行选址差异的对比,揭示了绝大多数含“围”地名分布在山地丘陵地区,且符合客家人的选址要求,支持“围屋”的命名起源说法,少数含“围”地名分布在珠江三角洲的水患易发地区,支持“堤围”的命名起源说法;(3)对广东省地名的空间分布模式的研究,揭示了广东省内四种民系,包括广东人、福佬人、客家人及壮族人地名的空间分布模式,并通过对四类地名命名中所反映的自然和人文信息,对比揭示广东省内自然和人文环境变迁,以及相关的民系人口聚居迁移的情况;(4)国内主流在线地理编码服务质量评价研究。在线地理编码服务是非专业用户最常用的非空间数据空间化的手段。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
涡度相关技术及其在陆地生态系统通量研究中的应用
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于深度学习的中文文本蕴涵关系识别技术研究
面向Web的中文模糊地名自动识别与近似地理范围估算
中文语言文本理解
中文网络文本的地理实体语义关系标注与评价