In the era of big data, people discover and learn new knowledge from massive data mainly by frequent pattern mining. However, the mining process inevitably reveals privacy information of individual users. Recently, local differential privacy (LDP) as a new paradigm can provide strong privacy guarantees against adversaries with arbitrary background knowledge and the untrusted third-party data collectors. This proposal plans to solve the problem of frequent pattern mining of sensitive information under LDP. Under LDP, every user should locally perturb her own data before sending data to the collector, that poses great challenges for traditional techniques, such as too much information required during mining process, limited number of users and poor computational efficiency. In order to tackle these challenges, this proposal studies effective privacy protection strategies from three aspects: the construction of mining structure, design of data collection strategy and optimization of user response. Specifically, we put forward solutions from the pruning and compression of mining structure, the resuse of user information and the design of low sensitivity response mechanism. The research achievements can provide effective technical support for analyzing users’ private information in the big data era and prompting big data research and application.
大数据时代下,频繁模式挖掘是人们从海量数据中学习新知识的重要手段之一,然而挖掘过程不可避免地会泄露用户隐私信息。近年来,本地化差分隐私模型(LDP),在面对强背景知识攻击者以及不可信第三方数据收集者的隐私攻击时,仍能可靠地保护敏感信息。本课题拟基于LDP模型完成面向敏感数据频繁模式挖掘的隐私保护研究问题。由于LDP模型要求用户在本地对其数据进行扰动处理,使传统的挖掘问题面临挖掘过程所需信息多、可利用用户数量有限、计算效率低等诸多挑战。为了应对挑战,本课题拟从挖掘模型构建、数据收集策略制定以及用户应答机制优化三个部分设计高效用的隐私保护策略。重点从挖掘空间信息的剪枝压缩、用户数据复用、低敏感应答机制设计等角度提出优化方案。该研究成果可对开发和应用大数据环境下基于用户隐私信息的挖掘分析,促进大数据下相关应用的落地提供有效的技术支持。
大数据时代下,频繁模式挖掘技术广泛的应用于从海量数据中学习新知识。然而,在挖掘过程中会造成数据隐私泄露。因此,本课题基于新兴的差分隐私模型,面向不同类别的数据,设计满足差分隐私约束的频繁模式挖掘算法。首先,针对字符串序列数据,利用频繁序列与非频繁序列的频数分布特征,设计高效用的两阶段挖掘模式以及以块为中心的选择策略,提升挖掘结果的精度;然后,针对带权重的频繁项集挖掘问题,通过在模型架构中增加洗牌者的方式,设计满足混洗差分隐私约束的挖掘框架;最后,针对频繁属性分组挖掘问题,分别从数值属性与分类属性出发,设计满足差分隐私约束的数据收集策略,以支持属性分组的挖掘。具体地,针对数值属性单维数据,利用分段函数对扰动空间上的概率密度函数进行建模,设计了PM-SUB数值属性收集机制,降低扰动值的误差,并通过离散化输出值的方式,提高通信效率。针对以GPS数据为代表的二维空间数值属性数据,将两个维度的数据统计进行考虑,设计维间关联的分段机制DCPM。该机制可有效地支持LDP约束的k-means聚类以及范围查询等应用。此外,针对多维的数值属性收集问题,结合数据的稀疏性特征,采用截断技术限制每条记录的影响,降低敏感度,提升发布结果精度。针对多维分类属性的数据,基于多维特征以及不同属性上取值域大小不等的异构特点,通过填补技术消除属性间异构问题,提出满足混洗差分隐私模型约束的数据发布方案PSRR-SS。本课题的成功实施为大数据相关应用的落地,提供有效的安全支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验
"IL-25/IL25R-MAPK-Foxp3"轴调控Treg细胞分化及引发脓毒症免疫抑制的机制研究
满足差分隐私的频繁模式挖掘研究
差分隐私保护关键技术研究
基于差分隐私的流式直方图发布关键技术研究
差分隐私约束下的图数据发布机制与挖掘算法研究