大数据结构与关系的度量与简约计算

基本信息
批准号:61433014
项目类别:重点项目
资助金额:360.00
负责人:孙晓明
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2014
结题年份:2019
起止时间:2015-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:陈卫,陈端兵,尚明生,邵俊明,周涛,沈华伟,刘兴武,张家琳,陈巍
关键词:
关系复杂性数据复杂性时间复杂性空间复杂性
结项摘要

The ability to store and analyze Big Data is a crucial capability of a powerful country in the new century. This project aims at the weakness on common scientific questions, general methodology, and theoretical analysis of real-time algorithm in the current research of big data. We start from three key features about big data: Volume, Variety, and Velocity, and focus on the measurement and simplification of time complexity, space complexity, and relationship complexity for big data in the whole project. We plan to propose new measurement of time complexity which relies on the incremental data size instead of the whole data size, discover novel algorithm design framework based on it, and implement them in real scenario. We then consider the method of the compression for network data, and try to summarize the general relationship between compression ratio and distortion rate. We also plan to construct cause-and-effect diagram based on the analysis of the different relationship among multi-source data. That’s the way to excavate knowledge and then design the prediction model based on the revealed knowledge. Our goal is to obtain breakthrough in the performance of the algorithms with significant impact and implement them in the real scenario with at least ten millions magnitudes. The project is devote to produce original works with international influence, and contribute to the formation of basic theory and methodology in data science.

大数据储备和分析的能力是未来新型国家的核心战略能力。本项目注意到当前大数据研究在共性问题提炼、方法论框架、实时数据算法理论上存在的不足,从大数据“海量、实时、多样”三大特征出发,聚焦网络大数据这一对象,以数据复杂性的度量和约简作为贯穿全项目的主线。项目研究大数据在时间、空间和关联关系上的简约计算,拟提出一种不依赖于数据总体规模的流数据算法复杂性度量方法和指标,探索流数据实时快速算法设计的思想和框架,并在一些经典算法问题中实现;探索网络数据压缩的方法,总结压缩比和失真率的统计规律甚至一般性关系;分析多源数据各特征项之间的关联、因果和互预测关系,建立因果图,挖掘知识,设计基于“显式知识”的预测模型;在一两个具有重大应用价值的预测问题上突破当前算法性能,并在覆盖千万量级以上真实用户的系统中进行实施。项目定位为产出具有相当国际影响力的原创型学术成果,为数据科学基础理论和基本方法论的形成做出贡献。

项目摘要

项目从时间简约、空间简约和关联简约三个角度对网络大数据,特别是社交网络这一重要应用场景进行研究,在模型、算法等基础理论方面取得了一系列有特色的研究成果,得到国内外同行广泛认可和跟进,形成了一定的学术影响力并在相关场景进行了示范落地。项目组在STOC, FOCS, SODA, NIPS, ICML等CCF A类会议和Nature Commun., PNAS, Sci. Reports, IEEE TKDE, JMLR, Science China等顶级期刊发表高质量论文40余篇,发表SCI收录论文100余篇,SCI单篇最高引用超300次。获得北京市科学技术(技术发明类)二等奖一项,项目组成员作为程序委员会主席或本地主席组织了CIKM, AAIM, AAAC, SMP等著名会议,作为秘书组织“数据科学与计算智能”香山科学会议等。.取得的代表性研究成果包括:1)设计了针对未知参数市场模型运行时间多项式量级的在线均衡学习算法,给出了组合多臂老虎机在线学习算法后悔度上界的理论分析,提出了有理论保证的贪心在线学习、在线聚类算法,证明了小世界模型复杂传播的随机路由下界;2)提出了具有良好局部性和低计算代价的图小波神经网络,大幅降低了传统图卷积算子的参数个数和复杂度,在图半监督学习任务上显著超过了图灵奖得主Yann LeCun等人提出的谱图卷积神经网络,被研究同行评价为“期待已久的工作”;3)提出了结构一致性度量指标对网络的“可被预测的程度”进行刻画,通过分析推荐网络的演化结构特征,基于该链接关系构建个性化推荐模型,解决了因系统演化引起的偏好漂移的影响;4)提出了社团结构挖掘的引力模型,设计了基于局部结构特征和传播动力学特征的大规模网络节点影响力排序算法、重要链路及意见领袖挖掘算法,为从微观、介观和宏观层面研究网络结构提供了分析方法,部分研究结果已落地应用;5)大幅拓展了社会网络中影响力传播最大化的研究范围,提出并研究了非次模、在线、具有鲁棒性的影响力最大化等模型,从理论上证明了不同模型求解的计算复杂性,并为多种模型设计了多项式时间近似算法。.项目组成员沈华伟晋升研究员并入选北京智源人工智能研究院青年科学家和中科院青促会优秀会员,陈端兵晋升教授,陈卫当选IEEE会士,项目负责人孙晓明当选CCF理论计算机专委会主任。博士生庞亮获得中文信息学会优秀博士论文奖,何昆获中科院院长特别奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

多空间交互协同过滤推荐

多空间交互协同过滤推荐

DOI:10.11896/jsjkx.201100031
发表时间:2021
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

孙晓明的其他基金

批准号:81801928
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:61170062
批准年份:2011
资助金额:57.00
项目类别:面上项目
批准号:59675077
批准年份:1996
资助金额:12.00
项目类别:面上项目
批准号:40673045
批准年份:2006
资助金额:39.00
项目类别:面上项目
批准号:40473024
批准年份:2004
资助金额:34.00
项目类别:面上项目
批准号:21271018
批准年份:2012
资助金额:85.00
项目类别:面上项目
批准号:91622116
批准年份:2016
资助金额:80.00
项目类别:重大研究计划
批准号:51874311
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:51374214
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:40343019
批准年份:2003
资助金额:10.00
项目类别:专项基金项目
批准号:21902133
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:60603005
批准年份:2006
资助金额:25.00
项目类别:青年科学基金项目
批准号:41876038
批准年份:2018
资助金额:65.00
项目类别:面上项目
批准号:91128101
批准年份:2011
资助金额:110.00
项目类别:重大研究计划
批准号:50544009
批准年份:2005
资助金额:8.00
项目类别:专项基金项目
批准号:61401126
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:40173025
批准年份:2001
资助金额:24.00
项目类别:面上项目
批准号:41672071
批准年份:2016
资助金额:86.00
项目类别:面上项目
批准号:49502029
批准年份:1995
资助金额:10.00
项目类别:青年科学基金项目
批准号:91855213
批准年份:2018
资助金额:311.00
项目类别:重大研究计划
批准号:40830425
批准年份:2008
资助金额:165.00
项目类别:重点项目
批准号:41273054
批准年份:2012
资助金额:100.00
项目类别:面上项目
批准号:49773195
批准年份:1997
资助金额:15.00
项目类别:面上项目
批准号:20871014
批准年份:2008
资助金额:33.00
项目类别:面上项目

相似国自然基金

1

云计算可信服务度量与评估模型研究

批准号:61303234
批准年份:2013
负责人:姜茸
学科分类:F0207
资助金额:23.00
项目类别:青年科学基金项目
2

大尺度量子线路模型的研究

批准号:61303039
批准年份:2013
负责人:罗明星
学科分类:F0214
资助金额:25.00
项目类别:青年科学基金项目
3

公共项目治理绩效度量研究:基于契约治理与关系治理的视角

批准号:71272017
批准年份:2012
负责人:严玲
学科分类:G0115
资助金额:57.00
项目类别:面上项目
4

基于粒计算的不确定性信息度量的理论与方法研究

批准号:61040037
批准年份:2010
负责人:徐久成
学科分类:F06
资助金额:10.00
项目类别:专项基金项目