Privacy preserving data publishing is a hot research topic in the crossover field between databases and information security, because of the urgent requirement for information sharing and the public fear for privacy leakage. Data streams are massive, real-time and volatile, and the privacy protection models, measure of data utility and privacy preserving techniques for static data publishing cannot be applied on streaming data. The project researches on the privacy preserving problem for publishing relational data streams and high-dimensional set-valued data streams. Firstly, we model the background knowledge of attacks by using stream reasoning language, and present privacy protection models in relational data streams and set-valued data streams, respectively. Also, we analyze data information loss and time delay by using set theory, fuzzy number, etc., to give the method to measure the data utility. Furthermore, we utilize well-developed theories such as entropy theory, evolutionary computation, fuzzy set theory, soft set theory, to design privacy preserving techniques for publishing relational data streams and set-valued data streams, respectively. The project will offer systematic theories and methods for privacy preserving data streams publishing, and promote economic developments, social stability and the efficient use of internet technology.
由于数据共享的紧迫需求以及公众对隐私问题的担忧,数据发布中的隐私保护问题已成为数据库与信息安全领域交叉的研究热点。数据流具有海量性、实时性和动态变化性,这对传统的针对静态数据集发布的隐私保护模型、数据可用性度量方法和隐私保护方法提出了严重的挑战。本项目针对关系型数据流和高维集值型数据流发布中的隐私保护问题展开研究。首先利用流推理语言等分别针对关系型数据流和集值型数据流对攻击者的背景知识进行建模,提出相应的隐私保护模型,同时利用集合论、模糊数等综合考虑数据的信息损失和时延提出数据可用性度量方法。在此基础上,利用熵理论、进化算法、模糊集理论、软集理论等针对关系型数据流和集值型数据流的发布分别提出相应的隐私保护方法。项目的研究将为数据流发布提供系统的隐私保护理论和方法,对经济发展、社会稳定以及互联网技术的有效利用具有重要的推动作用。
为了满足商业决策和科学研究等需求,大量含有个人隐私信息的数据被商业机构等存储发布。由于数据应用的紧迫需求和用户对隐私问题的担忧,数据发布中的隐私保护问题已成为数据库和信息安全领域交叉的研究热点。随着大数据时代的到来,网络点击数据和交易数据等通常呈现为动态变化的数据流,本项目针对数据流发布中的隐私保护理论和方法展开研究,主要研究内容和结果如下:(1)在关系型数据流方面,提出强型身份保持的l-多样性和增强型身份保持的(α,β)-匿名、身份保持的信息损失度量方法和基于聚类的数据匿名方法;对于关系型的层次数据,利用模糊集理论,提出分级隐私保护模型、相应的度量方法和匿名算法;针对关系型的多维敏感数据,提出基于概率图的隐私保护方法;(2)在集值型数据流方面,提出基于滑动窗口的集值型数据流发布的ρ-不确定性隐私保护模型和动态匿名方法,并给出敏感度自适应的ρ-不确定性模型和匿名方法;对于数据流下关键模式的挖掘,分别提出两阶段和三阶段两种机制使得每个滑动窗口发布满足差分隐私的关键模式;提出多条流中top-k共生模式挖掘的差分隐私保护方法;(3)对于关系集值型数据,提出(k,ρ)-匿名的隐私模型和匿名的隐私保护方法;针对集值属性的高维和稀疏性,利用二分图对数据进行表示,并将匿名问题转化为多目标优化问题来解决;针对移动电子商务推荐,提出基于P2P的隐私保护策略;(4)在社会网络方面,提出有效保护社区结构的局部扰动匿名方法;设计了随机扰动矩阵,提出了固定和可变参数两种随机化隐私保护方法;将k-匿名和随机化方法进行结合,提出了社会网络数据发布的混合隐私保护方法;针对社交网络的动态发布,提出了防止标签邻居攻击的匿名方法。上述提出的隐私保护方法均在标准数据集上进行了测试,并验证了其有效性。项目成果对经济发展、社会稳定以及互联网技术的有效利用具有重要的促进作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
面向高维数据发布的差分隐私保护方法研究
面向数据发布隐私保护的分级多样性匿名方法研究
差分隐私高维数据发布理论与方法研究
大数据发布隐私保护中的不确定性问题及其方法研究