With the rapid development of Web2.0, user-generated data are increased rapidly. User rating data in e-commerce and social network applications include user behaviors and provide the basis for user behavior modeling. The underlying techniques for analyzing massive user rating data and modeling user behaviors is the critical problem of user behavior analysis and prediction, as well as that of data-intensive based social data analysis. In this project, we start from the massive user rating data, and describe user behaviors by a latent variable. We adopt the BN with latent variables (latent variable model) as the theoretical basis for describing user behaviors, and the basic framework for representing and inferring uncertain knowledge. Adopting MapReduce as the technical means for processing massive data, we focus on the construction, distributed storage and incremental revision of the time-series latent variable model used to describe user behaviors, as well as the inference query processing oriented to the classical applications of user behavior analysis, such as rating prediction and abnormal behavior detection. We further make theoretical analysis and empirical tests on the proposed methods and develop the corresponding software system. The research findings of this project will provide effective techniques for user behavior data analysis, and novel ideas for modeling the evolving user behaviors, which is valuable in both theoretical and practical perspectives.
随着Web2.0技术的迅速发展,用户产生的数据急剧增长,电子商务和社会网应用中的用户评分数据富含了用户的行为信息,为用户行为建模的研究提供了依据。海量的用户评分数据分析和行为建模关键技术,是用户行为分析和预测、也是数据密集型计算在社会数据分析方面亟待解决的问题。本项目从海量的用户评分数据出发,用隐变量刻画用户的行为,以带隐变量的贝叶斯网(隐变量模型)作为描述用户行为的理论基础、不确定性知识表示和推理的基本框架,以MapReduce作为海量数据处理的技术手段,重点研究描述用户行为的时序隐变量模型构建、分布式存储、增量修改,以及面向评分预测和异常行为检测等用户行为分析典型应用的概率推理查询处理方法,对新方法进行理论分析和实验测试,并开发相应的软件系统。研究成果将为用户行为数据分析提供有效的支撑技术,为动态演变的用户行为建模提供新的思路,具有重要的理论意义和应用价值。
通过对项目中关键问题的深入研究,取得了基于隐变量模型的评分数据分析和用户行为建模的阶段性研究结果,对照项目申请书和计划任务书中,已按时完成了预期的目标和任务。在理论方法与支撑技术方面,以概率图模型作为评分数据中相关属性之间相互依赖关系及其不确定性表示和推理的基本知识框架,以隐变量表示用户偏好,针对数据的海量性与分布式、动态性与不确定性等特点,以支持高效准确的用户偏好建模、关联查询和个性化服务为目标,从语义及约束的表示、模型结构构建及参数学习、知识发现及知识融合等方面,扩展现有方法,基于数据密集型和计算密集型计算平台与技术,提出了数据清洗与获取、模型构建与优化、个性化服务与知识融合方法,将模型的构建与概率推理方法用于Web服务数据和社交媒体数据分析。通过理论分析和实验测试,验证了方法的高效性、正确性和可用性,也设计并开发了相应的实验平台和软件系统。.作为这些研究结果的体现,本项目资助在本领域国内外重要期刊及会议上发表了40篇学术论文(其中SCI收录及源刊13篇,EI收录及源刊31篇次;在World Scientific出版社出版专著1部,参编译著1部;申请发明专利12项(其中授权3项,公开或受理9项),申请获得计算机软件著作权登记6项;获得省部级人才计划或奖励3项。依托本项目的研究,培养青年教师5名,博士生毕业3名、在读6名,硕士生毕业39名、在读21名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
拥堵路网交通流均衡分配模型
基于概率图模型和语义描述的人群行为分析
知识与数据混合驱动的概率图模型研究及在行为分析中的应用
基于概率图模型的海量可视媒体协同理解与推荐研究
基于概率图模型的复杂行为识别