Building gazetteer by labour is a hard woking ,which is time-consuming and the scale of gazetteer is limited, that can not satisfy the requirement of geographic information retrieval based on Web. So we research on web-based automatic identifying of a chinese vague toponym and the approximate footprint estimate. We use geographically focused collaborative crawling for acquiring web page with chinese vague toponym and associated place names from mulit-source information.Further, we use a hierarchical strategy which a combination of rules and statistics for identifying chinese vague toponym. Finally, spatial scan statistic-based approach is used to estimate the approximate geographic coverage of chinese vague toponym. This project research on the new problem about the obtaining of toponym based on Web, the results can be applied to various WebGIS application, which has important theoretical value and prospects.
基于人工方式构建中文地名词典,耗时长、地名数目规模受限,无法满足Web环境下地理信息获取服务对地名的需求。本项目研究面向Web的中文模糊地名自动识别与近似地理范围估算,利用面向地名主题信息的协同聚焦爬取方法,从多源海量Web信息中爬取模糊地名及关联地名网页信息,进一步利用规则与统计相结合的模糊中文地名分级识别策略,有效的提取模糊地名及其关联地名信息,最终基于空间扫描统计的方法完成模糊地名近似地理覆盖范围估算。本项目研究Web环境下地名自动获取的新问题,其成果可应用各类网络空间信息系统,具有重要的理论研究价值与应用前景。
本项目重点研究了面向Web的中文模糊地名自动识别与近似地理范围估算,提出了基于MapReduce的地名主题信息的协同爬取方法,能够高效的获取地名相关的网页信息。我们提出了规则识别与条件随机场学习相结合的地名识别方法,提高了地名识别的查全率与查准率,提出了基于监督学习的地名近似地理覆盖范围估算方法。最终,项目开发实现了LanguageBridge地名识别与范围估算工具,不但能识别中文与英文地名,还能够识别阿拉伯文、俄语、乌克兰语、印度尼西亚语等数十种语言。
{{i.achievement_title}}
数据更新时间:2023-05-31
多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于直觉模糊二元语义交互式群决策的技术创新项目选择
WMTL-代数中的蕴涵滤子及其应用
城市生活垃圾热值的特征变量选择方法及预测建模
文本环境下中文地名识别及其空间关系构建
基于地名本体的地理空间信息组织与应用研究
中文网络文本的地理实体语义关系标注与评价
语义Web模糊规则互换与推理关键技术研究