面向大规模、带内容复杂网络的精准语义社团发现研究

基本信息
批准号:61772361
项目类别:面上项目
资助金额:60.00
负责人:金弟
学科分类:
依托单位:天津大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:Francoise Soulie,贺瑞芳,何东晓,焦鹏飞,刘晓,曹金鑫,王晓宝,葛檬,刘子扬
关键词:
社交网络挖掘复杂网络分析随机块模型社团发现
结项摘要

Community detection is one of the most important problems for modeling and analyzing complex networks. Recently, besides network topology, the text content in complex networks has increasingly attracted people’s attention. Current methods, which combine topology and content, often ignore how to accurately interpret communities in the process of community detection, leading to serious limitations for their application. In this proposal, we try to solve this problem, i.e. to accurately discover semantic communities in large-scale networks with content. This problem includes three main issues: i) how to combine topology and content robustly, especially when network communities and content semantics do not match well; ii) how to solve the issue coming from the fact that the communities’ description is often difficult to understand; iii) how to efficiently deal with large-scale networks with content. We will study the above problems under the same model framework, including: 1) we study stochastic models, which describe network communities, content topics and their hidden correlation altogether. This way we can, not only combine network topologies and content robustly, and improve the accuracy of community detection even when communities and semantics do not match, but also we can interpret each community using more than one topic, which is often needed. 2) we study the richer explanations of communities, achieved by automatically generating extractive topical summaries and introducing word embedding into the models. Finally, 3) we study the optimization algorithms for these models, combined with the scalable model selections which evaluate model parameters and complexity concurrently, in order to deal with large networks more effectively. Here, our purpose is to present a new type of methods which can find semantic communities more scalable and accurate. We are not only satisfied with detecting communities more precisely, but also will make the detected communities more explainable via interpreting each community using more than one-topic summaries. At last, we hope that this study will improve the current level of community detection, giving it wider applicability.

社团发现是非常重要的复杂网络分析任务。除拓扑结构以外,复杂网络上的文本内容也越来越受到关注。已有结合内容的工作常忽视了需在精确发现社团的同时精准标注社团语义,故限制了其应用范围。拟解决大规模内容网络上精准语义社团发现的问题:i)网络社团与内容语义不一致;ii)社团描述难于理解;iii)大规模内容网络难于有效处理。在同一模型框架下对其进行研究,包括:1)研究同时刻画网络社团、内容主题及其隐关系的随机模型,以实现拓扑与内容的鲁棒融合及精准语义映射:社团与语义匹配不佳时仍可提升社团精度,且可采用多主题解释社团;2)同时,自动抽取主题摘要、并引入词嵌入,实现对社团的拟人描述;3)设计高效的模型优化,与并行评估参数与复杂度的模型选择相结合,以处理大网络。拟提出一类可扩展性精准语义社团发现新方法;不但能精确发现社团结构,还能对社团给出多主题、摘要式的拟人描述;提升社团发现智能水平,以获得更广泛的应用。

项目摘要

社团发现是网络数据挖掘的研究热点。目前随着网络的规模日益庞大、带有内容语义、且网络社团与内容语义难于匹配等复杂情形,给已有社团发现方法带来重要挑战。.课题组针对上述问题开展了一系列深入研究,提出基于概率转移和状态转移等的社团及其语义鲁棒匹配新模型、提出引入词嵌入及抽取式摘要的拟人式社团描述与画像新模型、提出面向大规模带内容网络的高效率社团发现新模型,并在电商搜索推荐中展开应用。通过上述解决了面向大规模带内容复杂网络的鲁棒语义社团发现难题,并拓展了其应用范围及前景。.在本项目资助下,课题组发表相关学术论文53篇,其中:SCI一区或CCF A类(仅统计长文)论文25篇、中文A类期刊《计算机学报》论文2篇,获得CCF A类会议WWW 2021最佳论文奖亚军、CCF B类会议ICDM 2021最佳学生论文奖亚军,并首次在CCF A类期刊TKDE上发表从概率建模到深度学习的社团发现综述,重点总结了基于机器学习的语义社团发现研究现状及发展趋势。相关工作被图灵奖得主美国John Hopcroft院士、匈牙利Boleslaw Szymanski院士、加拿大Jian Pei院士等重点引用和大段正面评价,具有重要国内外影响力。.项目组提出的方法在社交网络、引文网络、Web网络、电商网络等不同类型数据集上与已有方法进行比较,取得了超越SOTA方法的性能。相关实验结果、代码及数据在GitHub上公布,为国内外同行做科学研究及算法对比等使用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015

金弟的其他基金

批准号:61303110
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目

相似国自然基金

1

复杂网络链接预测与社团发现混合方法研究

批准号:61403023
批准年份:2014
负责人:武志昊
学科分类:F0304
资助金额:23.00
项目类别:青年科学基金项目
2

基于聚类的复杂网络社团结构发现

批准号:61202194
批准年份:2012
负责人:李艳灵
学科分类:F0210
资助金额:25.00
项目类别:青年科学基金项目
3

基于马尔可夫随机场的大规模网络社团发现研究

批准号:61876128
批准年份:2018
负责人:何东晓
学科分类:F0605
资助金额:62.00
项目类别:面上项目
4

结点—链接协同划分的复杂网络重叠社团发现方法研究

批准号:61303110
批准年份:2013
负责人:金弟
学科分类:F0607
资助金额:26.00
项目类别:青年科学基金项目