Deep web refers to web data sources that provide a considerable amount of information with backend databases that are not indexed by general search engines, which contains abundant information and features with high quality,strong relevant to domains and high speeding rates. It gradually becomes the main body of the Internet information carrier. With the explosion of deep web, searching and discovering the knowledge of hidden web documents has become a perpetual challenge. Recently, reliably managing, accurately analyzing and understanding massive deep web become major goals of explorating deep web and providing pervasive and personalized knowledge service also becomes a hotspot research. Facing the features of massive, dynamics and uncertainty of deep web, and challenges caused by the conflict of data "quantity-quality" and searching model changing,this project researches some key mechanism of deep web exploration, such as mechanism on discoverying and classifying of massive deep web data sources, mechanism on deep web data sampling, mechanism on semantic computing and dynamically evoluting, mechanism on knowledge evaluation and retrieval optimization, which is helpful to establish foundation for the fusion of "quantity-quality" and conversion of "information-knowledge". The project aims to improve the usability of deep web and to achieve efficient knowledge retrieval and discovery. The study has advanced and the research has important theoretical and practical value. Our research achievement can be directly used for network resource management, providing new and efficient technology for it and broaden the research field of information retrieval on the Internet.
Deep Web蕴含的信息量丰富、质量高、内容领域性强、增长速度快,已逐步成为互联网承载信息的主体。近年来,搜索和发现海量Deep Web背后隐藏的用户所需要的信息,对其进行可靠管理、准确分析和全面理解,并提供普适化/个性化的知识服务,已成为国内外众多学者研究的热点与焦点。本项目针对Deep Web海量性、动态性、不确定性的特征,围绕搜索模式改变和数据"量-质"矛盾引发的挑战,以提高Deep Web信息的可用性、实现海量Deep Web的高效知识检索和发现为目标,研究海量Deep Web知识探索的数据发现与分类、数据采样、语义推算与动态演化、知识评估与检索优化等关键机制,为海量Deep Web的"量-质"融合和"信息-知识"转化奠定基础。本项选题具有先进性,研究具有重要的理论意义与实用价值,研究成果可直接应用于互联网资源管理,为其提供新的、有效技术手段,并拓宽互联网信息检索的研究领域。
Deep Web蕴含的信息量丰富、质量高、内容领域性强、增长速度快,已逐步成为互联网承载信息的主体。近年来,搜索和发现海量Deep Web背后隐藏的用户所需要的信息,对其进行可靠管理、准确分析和全面理解,并提供普适化/个性化的知识服务,已成为国内外众多学者研究的热点与焦点。本项目针对Deep Web海量性、动态性、不确定性的特征,围绕搜索模式改变和数据“量-质”矛盾引发的挑战,以提高Deep Web信息的可用性、实现海量Deep Web的高效知识检索和发现为目标,研究海量Deep Web知识探索的数据发现与分类、数据采样、语义推算与动态演化、知识评估与检索优化等关键机制,为海量Deep Web的“量-质”融合和“信息-知识”转化奠定基础。经过四年的研究,项目组在Deep Web数据发现与分类问题、Deep Web知识查询和搜索问题、Deep Web知识语义分析问题以及Deep Web知识评价与度量问题上取得了系列进展,系统性地提出了Deep Web知识探索的方法,如:两阶段爬虫系统SmartCrawler、实时搜索的索引结构LS-AMS等,开发了Acrost、Mysearch等系列原型系统,相关成果发表在IEEE Trans. on Servicing Computing, IEEE Trans. on Big Data, IEEE System Journal, FGCS等国际著名期刊上。研究成果可为Deep Web高效知识探索提供了有效的技术途径,也可拓展用于互联网资源管理。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
面向Deep Web的不完备知识处理的逻辑模型研究
面向Deep Web的大规模知识库自动构建方法研究
基于本体的Deep Web搜索技术
基于用户知识情境的Web信息语义获取方法研究