技术动态 > 正文
大数据隐私保护的主要方法
2019/5/13 10:48   中国安防行业网      关键字:大数据,隐私保护,方法      浏览量:
从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视。我们在讨论隐私保护的时候包括两种情况。第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。
  在大数据时代,数据带来了巨大价值的同时,也带来了用户隐私保护方面的难题,如何在大数据开发应用的过程中保护用户隐私和防止敏感信息泄露成为新的挑战。
  一、隐私及隐私保护概念
  隐私这个词,科学研究上普遍接受的定义是"单个用户的某一些属性",只要符合这一定义都可以被看做是隐私。我们在提"隐私"的时候,更加强调的是"单个用户"。那么,一群用户的某一些属性,可以认为不是隐私。我们拿刚才的例子来看,针对小明这个单个用户,"购买偏好"和"居住地址"就是隐私。如果公开的数据说住在五道口的小明爱买电子产品,那么这显然就是隐私泄漏了。但是如果数据中只包含一个区域的人的购买偏好,就没有泄露用户隐私。如果进一步讲,大家都知道小明住在海淀区五道口,那么是不是小明就爱买点此产品了呢?这种情况算不算事隐私泄漏呢?答案是不算,因为大家只是通过这个趋势推测,数据并不显示小明一定爱买电子产品。
  所以,从隐私保护的角度来说,隐私是针对单个用户的概念,公开群体用户的信息不算是隐私泄漏,但是如果能从数据中能准确推测出个体的信息,那么就算是隐私泄漏。
(版权图片,请勿转载)

  二、隐私保护的主要方法
  从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视。我们在讨论隐私保护的时候包括两种情况。
  第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
  第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。
  学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness、ε-differentialprivacy(差分隐私)、同态加密(homomorphicencryption)、零知识证明(zero-knowledgeproof)等等,另外还有k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness和ε-differentialprivacy(差分隐私)。这些方法先从直观的角度去衡量一个公开数据的隐私性,再到使用密码学、统计学等工具保证数据的隐私性。
  学术界在大数据隐私上近期提出的新方法和论文的比较:

论文题目

优点

局限性

Toward Efficient and Privacy Preserving Computing in Big Data Era

使用了保密余弦相似性计算协议,更高效

对特定数据隐私问题不足

Hiding a needle in a Haystack: privacy preserving Apriori algorithm in map reduce framework

Hadoop隐私挖掘技术,解决隐私问题的同时保证数据有效性

噪声大小影响了速度

Making big data, privacy, and anonymization work together in the enterprise: experiences and issues

结合匿名化,隐私保护和大数据技术分析使用数据并同时保护用户身份时遇到的经验和问题

使用易受相关攻击影响的K匿名方法

Microsoft Differential Privacy for Everyone

讨论并建议现有的差分隐私方法如何适用于大数据

取决于计算管理员的噪音量,如果计算管理员受到影响,整个系统就会失败

A scalable two-phase top-down specialization approach for data anonymization using MapReduce on cloud

提出了一种可扩展的两阶段自顶向下专门化(TDS)方法,利用云上的Map Reduce框架匿名化大规模数据集

使用易受相关攻击影响的匿名技术

HireSome-II: towards privacy-aware cross-cloud service composition for big data applications

基于以前的基本版本HireSome-I提出了一种隐私感知的跨云服务组合方法,名为HireSome-II(也就是基于历史记录的服务优化方法)

Protection of big data privacy

提出了处理大数据应用程序的各种隐私问题

客户细分分析很容易导致基于年龄性别,种族背景,健康状况,社会背景等的歧视

Fast anonymization of big data stream

提出了一种匿名算法(FAST)来加速大数据流的匿名化

设计和实施不完善。必须基于云的框架中实现,需要高计算能力和高可扩展性

Privacy preserving Ciphertext multi-sharing control for big data storage

提出了密文多共享机制

代理人攻击

Privacy-preserving machine learning algorithms for big data systems

隐私保护机器学习,其中训练数据是分布式的,每个共享数据部分都是大容量的

无法实现分布式功能选择

Privacy-preserving big data publishing

使用MapReduce进行隐私保护的数据挖掘方法

泛化不能处理高维数据,会降低数据效用。扰动也会降低数据的效用。

Proximity-aware local-recoding anonymization with map reduce for scalable big data privacy preservation in cloud

大数据局部编码建模为近距离感知聚类问题,并提出一种可伸缩的两阶段聚类方法

还未能和Apache集成

Deduplication on encrypted big data in cloud

通过基于所有权挑战和代理重新加密(PRE)的重复数据删除功能管理云中的加密大数据

融合加密(CE)受限于有安全限制,即离线易感性 蛮力字典攻击

Security and privacy for storage and computation in cloud computing

不需要重新加密的安全数据共享,恶意内部人员的访问控制以及前向和后向访问控制

限制加密服务器中的信任级别


  三、隐私保护存在的问题
  大数据时代的隐私保护进展不顺,原因之一是网络隐私权的范围和界定标准不明,国内外有很多不同的理论和学说。原因之二是网络服务提供者的免责标准过宽,导致众多网络用户因匿名侵权而难以担责。许多APP平台注册必须勾选"我同意",而代价往往是读取位置信息、获取通讯录信息、读取短信记录、打开录音、摄像权限等。原因之三是云计算和大数据技术蓬勃发展的同时,手机APP滥用权限也越来越容易。比如打开网购平台,发现首页主推跑步装备,原来是读取了我的运动数据。更让人担心的是,这些滥用权限越界得来的数据,还拿去做了什么……尽管国家相关法律法规已经出台,但是许多APP仍然存在滥用权限,收集用户敏感隐私数据的行为。

微信扫描二维码,关注公众号。