随着Web2.0和Web3.0应用的迅猛发展,社会网络服务(包括微博、RSS和Facebook图片共享等)发展迅速,普遍采用XML作为其数据交换的载体,导致互联网应用中的XML信息内容增长迅速,传统的Web搜索引擎提供了对无结构的页面数据的检索,由于数据处理对象不同、查询语义和查询策略不同,很难支撑XML数据的个性化检索。本课题以分析用户网络浏览数据和社会网络关联为依据,以图模型为理论基础,以XML数据的个性化搜索服务为中心,探索基于图的查询聚类技术,深入研究相关的挖掘、存储、索引、搜索、排序、优化等技术,建立一个全面及综合性的个性化搜索架构。同时,为了提高系统性能,本课题还将深入探讨协作搜索策略。研究内容包括个性化的表示和建模技术、个性化检索技术、协作检索技术、用户概念图的存储和索引技术、查新结果的打分和排序技术等关键技术。通过开发原型系统,建立示范性应用,为现实应用提供技术支撑。
本课题以用户线上行为数据、用户的社会网络关系等为分析依据,以用户兴趣分析与挖掘、个性化搜索为中心,探索面向个性化搜索的查询优化技术和社会化搜索技术,深入研究相关的搜索、排序、优化等技术,建立一个个性化搜索架构,并探索在相关真实应用的实证研究。项目的主要成果包括:.(1)个性化信息的建模和挖掘算法。要进行个性化推荐,首先需要建模用户的兴趣、概念、偏好等个性化信息。我们研究了基于熵的PU学习方法,该方法针对用户点击数据中负例少的特点,传统数据挖掘方法不能直接用于这类PU数据,我们设计的该套方法发表在WWW Journal、APWEB等国际期刊和会议上。在用户行为建模方面,本课题设计对用户线上行为数据(包括评论数据、浏览点击数据等)进行分析与挖掘的一系列的算法,包括主题分析模型、基于知识图谱的用户特征分析、基于多分类器集成的观点分析等,用来获取用户兴趣,构建有效的用户个性化特征。相关研究成果发表在《计算机学报》、WWW、WISE等国内外重要学术期刊和学术会议上。.(2)建立了面向社会网络数据进行分析的框架,结合内容主题分析技术,确定用户概要产生的社会子网络图。基于此用户社会网络开展的查询和搜索,更具有个性化和针对性的特点,提高了查询结果的质量。相关研究成果发表在ICDE workshop、NDBC、DASFAA等数据管理领域的重要学术会议上。.(3)对于搜索排序和优化技术,探索了基于次模理论的排序算法,不仅提高了搜索的效率,而且从理论上保证了我们提出的排序方法的精度。相关研究成果发表在DASFAA、APWEB、《软件学报》等重要学术刊物上。.(4)对于大规模分布式索引、查询优化等关键技术,设计了分布式索引,用分布式树簇代替传统的集中式树型索引;设计了3类优化方法,实现窗口函数的优化。相关研究成果发表在《计算机学报》、ICDE上。.(5)在上述理论和算法的基础之上,实现了自适应的个性化搜索的框架和核心算法,并在个性化酒店推荐、审稿论文分发等实际应用中进行了验证,不仅申请了软件著作权和专利,而且应用系统得到用户的好评,个性化特征明显,搜索质量高。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
黄河流域水资源利用时空演变特征及驱动要素
敏感性水利工程社会稳定风险演化SD模型
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
定性指标偏好感知进化优化及在个性化搜索中的应用
XML数据个性化柔性查询关键技术的研究
基于通用加权XML模型的个性化用户兴趣本体研究
社会网络中个性化隐私保护研究