截至2005 年12 月底,全球有9 亿多Web用户,中国有1.11 亿多用户。从原则上讲,读者数和作者数在同一个量级,因为形式和内容的随意性很强,基于信息检索技术的搜索引擎是连接Web和上网用户的纽带。为了推动中文信息检索技术发展,从而改进搜索引擎等系统,需要大规模有代表性测试集。因此研究Web抽样理论和方法指导构建测试集成为必要。我们的研究目标是针对Web 2.0新特点和用户的倾向,研究适合静态和动态网页的抽样技术;以此理论指导,形成一个通用的构造大规模代表性Web测试集的框架,应用此框架构造出大规模有代表性中文Web测试集,从而吸引研究中文信息检索的研究机构参与进来,推动中文信息检索技术发展;进而开发适合于此大规模测试集的工具和原型检索系统,达到吸引更多的研究机构使用此测试集,降低使用者的门槛。
{{i.achievement_title}}
数据更新时间:2023-05-31
Efficient photocatalytic degradation of organic dyes and reaction mechanism with Ag2CO3/Bi2O2CO3 photocatalyst under visible light irradiation
硬件木马:关键问题研究进展及新动向
Empagliflozin, a sodium glucose cotransporter-2 inhibitor, ameliorates peritoneal fibrosis via suppressing TGF-β/Smad signaling
An alternative conformation of human TrpRS suggests a role of zinc in activating non-enzymatic function
Baicalin provides neuroprotection in traumatic brain injury mice model through Akt/Nrf2 pathway
再抽样方法及其应用
中国Web Graph的挖掘与应用研究
系统抽样方法及其应用研究
社会经济统计预测及抽样调查方法与应用