在大数据场景下,采用角色挖掘技术可根据用户的访问记录自动生成角色,高效地为海量用户提供个性化数据服务,同时也可用于及时发现用户偏离日常行为所隐藏的潜在危险。但当前角色挖掘技术大都基于精确、封闭的数据集,在应用于大数据场景时,还需要解决数据集动态变更以及质量不高等特殊问题。
访问控制指对用户进行身份认证后,需要按用户身份及用户所归属的某预定义组来限制用户对某些信息项的访问,或限制用户对某些控制功能的使用。访问控制技术可以可靠地支持对多用户的不同级别或类别的信息进行有效隔离和完整性保护。包含在授权数据库中的访问控制策略用来指出什么类型的访问在什么情况下被谁允许,访问控制策略一般分为自主访问控制(DAC)、强制访问控制(MAC)和基于角色的访问控制(RBAC)这3种。以上3种策略并不是相互排斥的,一种访问控制机制可以使用2种甚至3种策略来处理不同类别的系统资源。
在大数据场景下,采用角色挖掘技术可根据用户的访问记录自动生成角色,高效地为海量用户提供个性化数据服务,同时也可用于及时发现用户偏离日常行为所隐藏的潜在危险。但当前角色挖掘技术大都基于精确、封闭的数据集,在应用于大数据场景时,还需要解决数据集动态变更以及质量不高等特殊问题。
一、访问控制需求
针对数据使用的不同方面,需要完成对数据使用的原则和控制策略,一般包括如下方面:数据访问的账号和权限管理,相关的原则和控制内容包括:专人账号管理;账号独立原则;账号授权审批;最小授权原则;账号回收管理;管理行为审计记录;定期账号稽核;
数据使用过程管理中,相关的原则和控制内容包括:业务需要访问原则;批量操作审批原则;高敏感访问审批原则;批量操作和高敏感访问指定设备、地点原则;访问过程审计记录;开发测试访问模糊化原则;访问行为定期稽核;
数据共享(提取)管理,相关的原则和控制内容包括:最小共享和模糊化原则;共享(提取)审批原则;最小使用范围原则;责任传递原则;定期稽核;
数据存储管理,相关的原则和控制内容包括:不同敏感级别数据存储的网络区域;敏感数据存储加密;备份访问管理;存储设备的移动管理;存储设备的销毁管理;
二.数据访问管控技术挑战
在敏感数据访问和管控技术方面,细分至五个方面的挑战:
如何将敏感数据访问的审批在执行环节有效落地对于敏感数据的访问、对于批量数据的下载要进行审批制度,这是数据治理的关键;但工单的审批若是在执行环节无法有效控制,访问审批制度仅仅是空中楼阁。
如何对突破权控管理的黑客技术进行防御基于数据库的权限控制技术,在基于漏洞攻击的基础上将很容易被突破。
(如何在保持高效的同时实现存储层的加密基于文件层和硬盘层的加密将无法与数据库的权控体系结合,对运维人员无效;如何实现存储加密、权限控制和快速检索的整体解决,是这一问题的关键,只有这样的存储加密才能保证安全的同时数据可用。
如何实现保持业务逻辑后的数据脱敏对于测试环境、开发环境和BI分析环境中的数据需要对敏感数据模糊化,但模糊化的数据保持与生产数据的高度仿真,是实现安全又可用的基础。
如何实现数据提取分发后的管控
数据的共享是数据的基本使用属性,但数据的复制是没有痕迹的;数据分发后如何保证数据不会被流转到失控的环境,或者被复制后可溯源,这是数据提取分发管理的关键。
三.数据访问控制的技术支撑
(一)数据资产的管理系统支撑
基于静态梳理、动态梳理和可视化展现技术,建立数据资产的登记、准入、准出和定期核查。
(三)数据运维审批技术
1.堡垒机技术
堡垒机是当前最常用的进行运维管控的工具,包括对数据库的运维管控;堡垒机通过将运维工具集中到指定设备上,所有对数据库的运维操作都将在这个设备上完成。但堡垒机对
数据库的运维大多仅能控制到库这个级别,无法控制到更细粒度的对象如表或列;同时对于图形化的运维工具无法作到控制,仅能作到录屏。
2.数据库专业运维管控技术
数据库的专业运维管控工具可以控制到表和列级,可以控制到各种数据库操作;同时可以精确控制到具体的语句,控制语句执行的时间,控制执行的阈值;同时满足事前审批,事中控制的模式;满足金融或运营商行业所需要的金库模式,这将极大提高数据库运维管控的准确性:
运维管控系统是对内部人员对敏感数据访问行为的管理;但敏感数据除了内部人员外,也要面临黑客的攻击和入侵,或者第三方外包人员利用黑客技术突破常规的权限控制;因此需要通过数据库防火墙技术实现对于漏洞攻击的防御,包括SQL注入类的外部攻击,以及提权漏洞、缓冲区溢出漏洞和TNS漏洞等。
4.数据库存储加密技术
数据库的存储加密是保证数据在物理层得到安全保障的关键,加密技术的关键是要解决几个核心问题:
加密与权控技术的整合;
加密后的数据可快速检索:可考虑通过密文索引技术(但需要操作系统的兼容)或保序加密技术。
应用透明技术:数据加密后原有应用系统不需要改造,可选择的技术包括三层视图技术,或者保留格式加密技术。
5.数据库脱敏技术
数据库脱敏技术,是解决数据模糊化的关键技术;通过脱敏技术来解决生产数据中的敏感信息在测试环境、开发环境和BI分析环境的安全。
在脱敏技术中的关键技术包括:
数据含义的保持:脱敏后的数据仍然具有原始数据类型所要求的格式、内置关系,如身份证、地址、人名脱敏后依然需要是身份证、地址、人名;
数据间关系的保持:需要不同表间相同数据、不同库间相同数据,在脱敏后依然是相同数据,保证数据间的映射关系;
增量数据脱敏:对于大规模数据的增量,能在原有数据的基础上持续性地快速脱敏,从而保障在某些测试或分析环境中数据相对的及时性;
可逆脱敏:在BI分析环境下,用户信息等关键性信息需要被脱敏;但在BI分析的结果,重点关注的用户,需要回到生产环境下时,可以还原为真实的用户信息,以进行行销;
动态脱敏:在一些环境下,需要保持数据共享的及时性,但又要避免数据的泄露;因此需要对在不将数据重新生成一份脱敏副本的情况下提供给第三方。需要针对不同的用户,根据数据的共享和安全需要,对不同的数据集进行脱敏;
大数据脱敏:随着MongoDB、Hadoop、Redis等大数据技术的使用,脱敏技术更多地被需要。
6.数据水印技术
数据水印技术是为了保持对分发后的数据的追踪,在数据泄露行为发生后,对造成数据泄露的源头可进行回溯。数据水印技术的关键点包括:
建立具备水印能力的数据抽取和分发系统;
在分发数据中掺杂,不影响运算结果的数据,使泄密源可追溯;
掺杂的方式:增加伪行、增加伪列、在现有的数据中作修正,如某些字符串信息,掺加不显示字符;
建立数据分发项目清单,记录数据集、数据去向、水印特点;E、拿到泄密数据的样本,可追溯数据泄露源。