面向中文文本的事件时空语义解析方法研究

基本信息
批准号:41401451
项目类别:青年科学基金项目
资助金额:25.00
负责人:张春菊
学科分类:
依托单位:合肥工业大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:胡迪,潘剑寒,张汝捷,陈晓丹,王古月,余龙飞
关键词:
人工智能时空预测灾害系统建模机器学习
结项摘要

There is a rapid development of unstructured geographic information in text, however, most of them are rarely with an effective use. Therefore, how to obtain the unanalyzed, non-dominant spatial, temporal and event information from text is an urgent issue in geographical information science. In Chinese text, descriptions of spatio-temporal and event information are unstructured, qualitative and uncertain. According to the above description characters, this research is carried out in view of this main idea, “text description, normalization expression, structured extraction, visualization expression, semantic association” of spatio-temporal and event information in Chinese text. Firstly, based on description regularities of temporal information in Chinese text, an interpretation approach is illustrated for extraction, reasoning and standardization of temporal information, which combines trigger words and rule-based model. Secondly, a judgment method of theme event information is proposed which integrates contextual and semantic information. It emphasizes the spatial and temporal elements for event tracking. Thirdly, based on the spatial data source of national gazetteer, a hierarchical matching and visualization method for place names, spatial relations and temporal information is presented. Event information is expressed in a GIS spatio-temporal framework. Finally, by using of a LDA (Latent Dirichlet Allocation) model, a semantic association method of spatio-temporal and theme event is explored, and a consistency constraint of “temporal information- spatial information - concept type” is constructed for the spatio-temporal process of theme event. The studies proposed in this project will form new ideas to access geographic information resources from text, and improve the interpretation method of geographic information from Natural Language. Further, it will enrich the theories and methods of geographic information science, and promote the social, popular and intelligent development of geographic information science.

面对非结构化地理信息的爆炸式增长与有效利用之间的矛盾,从文本中获取未分析的、非显性的地理信息已成为当前地理信息科学迫切需要解决的问题。本项目针对中文文本中事件时空信息描述的定性化、非结构化、隐蔽性和语义不确定性等特点,通过分析文本与GIS中事件时空信息表达机制的差异,研究基于规则模型和机器学习模型相结合的事件时空信息抽取方法,构建时空框架约束的事件信息匹配模型与算法,探讨基于LDA模型的事件时空语义关联方法和基于“时间-空间-概念类型”多重一致性约束的事件时空过程重构方法,设计原型系统并进行实例验证分析。通过该项目的研究,有望形成从文本中获取地理信息资源的新思路,进一步完善面向自然语言的地理信息解析和时空化方法,丰富地理信息科学的理论与方法,推动地理信息科学的社会化、大众化和智能化发展。

项目摘要

面对非结构化地理信息的爆炸式增长与有效利用之间的矛盾,本项目从GIS和自然语言相结合的角度,较为系统地探讨了以“文本描述-规范化表达-结构化抽取-可视化重构”为主线的中文文本中事件时空信息解析的方法体系,采用机器学习方法解决其中的关键问题,搭建了事件时空与属性信息的定性表达与GIS定量挖掘分析的“桥梁”,进一步完善面向自然语言的地理信息解析和时空化方法,丰富地理信息科学的理论与方法,推动地理信息科学的社会化、大众化和智能化发展。.(1)归纳总结了中文文本中事件时空与属性信息的语言描述特点和语义结构,设计了中文文本中事件时空信息的标注体系和标注模式,形成了较为完善的事件时空信息标注规范。基于GATE平台构建了中文文本中事件时空信息标注语料库,为事件时空信息抽取研究提供了标准化训练和测试数据。.(2)通过构建时间词汇词典和描述模式,研究了基于规则模型的时间信息抽取、推理和规范化方法,在中文文本中地名、空间关系研究基础上,进一步探索了基于深度信念网络的地名识别方法和基于有限状态机的中文地址抽取方法,完成了基于Bootstrapping弱监督学习方法的属性信息抽取方法,以及基于条件随机场的事件名称识别方法。结合事件时空表达特性和文本中事件时空信息的描述特点,基于支持向量机统计模型,提出了一种时空驱动的事件分类方法。分类准确率在封闭测试和开放测试中高达92.30%和80.60%。.(3)归纳总结了文本中空间位置信息描述方式,探讨了定性位置信息的空间化方法,基于时间地理学理论,实现了事件信息的时空可视化,搭建事件时空信息的定性描述与GIS定量化时空表达之间的桥梁。.(4)基于事件信息的结构化抽取和时空化表达结果,采用改进的k-means聚类算法,实现事件单元语义关联,研究了基于“空间-时间-概念类型”多重一致性约束条件的主题事件判断模型,采用空间联接、时间联接、时空同步联接和时空异步联接四种方法进行原子事件的时空语义关联与过程重构。.本项目研究逐步形成了面向中文文本的地理大数据资源挖掘与利用新理念,在科学研究、公共安全管理、历史文化、社交网络等领域具有广阔的推广应用价值,推动地理信息科学的社会化、大众化和智能化发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

张春菊的其他基金

相似国自然基金

1

社交媒体中文本情感语义计算理论和方法

批准号:61632011
批准年份:2016
负责人:秦兵
学科分类:F0211
资助金额:265.00
项目类别:重点项目
2

基于语义的中文文本聚类研究

批准号:60772081
批准年份:2007
负责人:施水才
学科分类:F0113
资助金额:30.00
项目类别:面上项目
3

面向自然语言文本生成的事件语义计算研究

批准号:61100133
批准年份:2011
负责人:刘茂福
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目
4

基于复杂网络的中文文本语义相似度研究

批准号:71373200
批准年份:2013
负责人:刘怀亮
学科分类:G0414
资助金额:56.00
项目类别:面上项目