In the big data era, the research focuses on the frontiers of distributed computing that solves the basic problems in management and decision-making, which are effectively applicable in the analysis and modeling of large-scale data set scenarios. More specifically, we develop the communication-efficient and non-iterative distributed algorithm for non-smooth loss function and complex loss function of U-type statistics, respectively. At the same time, the properties of parameter estimation under communication-efficient distributed computing are given, so that the method has good interpretability in the applications and can carry out effective statistical inference. Finally, we discuss the data security issues that are of great concern in big data analysis based on the distributed algorithm and propose the scientific and reasonable data privacy protection technologies to achieve the balance between the requirements of data privacy and the efficiency of the computing and inference. The above methods will be widely applied in the areas of management, finance, biomedicine, and high-precision industries to provide guidance for management.
本项目聚焦于分布式计算的前沿探索,是一项解决大数据管理决策问题的基础性研究。首先对于非光滑损失函数以及U统计量类型的损失函数设计非迭代且高效通讯的分布式算法,使得提出的方法可以有效地应用于大规模数据集场景的分析与建模。同时给出算法中参数估计的统计性质,以使方法在实际应用中具有良好的解释性,并能进行有效的统计推断。最后基于大数据分布式算法,围绕大数据分析中备受关注的数据安全问题开展讨论,提出科学合理的隐私保护技术与方法,最终达到使以上研究的分布式计算方法既能满足数据安全要求,又不破坏原有的数据通讯以及统计推断效率的目的,并将其应用到管理、金融、生物医学、高精密行业的实际场景,为管理决策提供咨询建议和指导。
本项目聚焦于分布式计算以及数据隐私保护的前沿探索,是一项解决大数据管理决策问题的基础性研究,取得了如下的创新研究成果:(1)在分布式算法中,针对梯度不一定存在的非光滑目标函数,项目组提出用基于等度连续性的次梯度取代梯度信息的方法,以及用局部光滑函数近似的方法,来保证高效通信算法的可行性;(2)为克服不可必免的数据污染,以及对抗潜在数据攻击的威胁,项目组认为提出在分布式算法中针对传输整合梯度信息的关键步骤,运用MOM估计克服不良数据对梯度信息造成的影响;(3)为了有效利用外部总结性辅助信息,项目组提出加强的经验似然方法、增广广义估计方程方法、相乘似然函数与置信密度方法等框架来有效整合部分个体数据与外部总结性辅助信息结果,并在大数据情形下进一步考虑各辅助信息整合框架的通讯有效的迭代算法等分布式统计推断方法;(4)针对分布式算法数据传递过程中可能存在的隐私泄露问题,项目组提出基于扰动的梯度信息以及扰动的初始值构造的通讯有效算法,达到既能进行有效的统计推断,又能保证数据安全的目的。
{{i.achievement_title}}
数据更新时间:2023-05-31
奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展
基于MCPF算法的列车组合定位应用研究
智能煤矿建设路线与工程实践
长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移
非牛顿流体剪切稀化特性的分子动力学模拟
网络数据隐私保护的统计方法研究
面向隐私保护的数据挖掘方法研究
面向隐私保护的云数据访问模型与方法研究
面向隐私保护的分布式数据挖掘关键问题研究