“每购买一个面包就会有一只柯基失去它的屁股。”
在这个段子背后,是面包与柯基屁股的相似性引发的视觉混淆。
相似的事物尚且容易引发人眼的视觉混淆,具有相似特征的数据则会引发人工智能的误解,使AI程序抓取的数据出现偏差,从而使AI程序作出错误的判断。
利用机器学习的这一特征,攻击者直接将伪装的数据和信息“注入”人工智能程序,从而污染机器学习模型,误导AI做出错误判断,这一威胁网络安全的行为就被称为“数据投毒”。
一直以来,人工智能都依赖大量的数据进行模型训练,但这带来了过度收集个人数据、脏数据清洗难度大、数据匮乏领域依然存在“数据孤岛”等问题。近日,美国网络安全和新兴技术局(以下简称“CSET”)发布研究报告《小数据人工智能的巨大潜力》,指出长期被忽略的小数据人工智能潜力不可估量。
在当下人工智能产业迅速发展的情况下,大数据行业正在发生哪些变化?人工智能行业的数据合规又将走向何方?
从大数据回归小数据
自2006年,“AI教父”杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫提出深度学习理念后,基于深度学习技术的人工智能浪潮席卷全球。机器通过学习样本数据的内在规律与层次,从而获得预测能力。
随着深度学习算法从学术界走向工业应用,大数据资源的使用也越来越普遍。无论是早期如语音识别、人脸识别等应用数据生产,还是互联网电商体系下的行为数据生产,都是基于大规模数据分析结果,以此推动了整个数据产业的发展。
在人工智能领域,小数据方法并不是新鲜词。与依托于海量数据总结规律的学习方法不同,小数据方法是基于人类的先验知识,在仅有少量数据的情况下利用小样本数据集进行训练的人工智能方法,大致分为迁移学习、主动学习、强化学习、贝叶斯方法、数据生成等。
一方面,在数据量较少或没有标记数据可用的情况下,不得不基于小样本数据加以人工的先验知识或者预训练模型来训练新模型。
对于学术界而言,早期的模型训练运用数据量都不多,基于人类先验知识的迁移学习和强化学习就是小数据方法的初始应用。同盾科技合伙人兼人工智能研究院院长李晓林给记者举了一个例子:“我曾经参加过一个实验,对美国周边某种濒危海象的图片特征进行深度学习,以此来为动物保护协会识别、去重、入库和统计这种海象的数量。全球这种海象的数量一共2000多头,个体表面差别很小,在这种情况下只能采用小数据方法训练模型。”
另一方面,随着深度学习算法的发展,数据价值不断被挖掘,同时,像开头所述的“数据投毒”等网络攻击使得数据治理的工作量加大,对机器处理复杂数据的能力也提出了更高的要求。
“随着人工智能从感知走向认知,逐渐进入到商业本质,信息处理的维度使得人工智能进入到深水区。”天云数据CEO雷涛告诉记者,“我们开始接触到信息化系统因为流程处理所沉淀的小数据,这些交易、流程中的数据价值密度更高,比图像视觉等传统信号体系复杂得多,因此需要认知层的人工智能基础设施来挖掘其中的含义。”
雷涛认为,在真正拥有推理和解决问题的强人工智能到来之前,在问题泛化表达能力出现之前,小数据可以用于进行数据本身的优化。在机器模型建立的环节,需要大量的人借助先验知识的小数据和材料数据做交互,比如数据衍生、数据升维、数据降维,都是一些基于答案的数据或是基于业务的显性特征,利用算力和数据之间做交互,来完成模型更有效的学习。
基于小样本数据的分析偏差也是显而易见的,李晓林告诉记者,避免小数据方法出现失误,势必需要丰富的人类先验知识作为支撑,进行迁移学习。
“当下对小数据方法的重视并不意味着就摒弃了基于大数据的模型训练。”洞见科技CEO姚明表示,目前小数据模型主要用于和大数据模型的交叉核验,在二者相结合的情况下完善模型。
数据合规背景下的可信AI探索
随着数据要素流通市场建设,在激活数据价值的同时,如何保护数据安全成为大众关注的焦点。
11月1日,《个人信息保护法》(下称“个保法”)正式生效,对个人信息处理者收集、加工、使用、传输个人信息都提出了进一步要求。
个保法要求,任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;个人信息处理者利用个人信息进行自动化决策,不得对个人在交易价格等交易条件上实行不合理的差别待遇;在公共场所安装图像采集、个人身份识别设备,应当设置显着提示标识。
个人数据收集的受限使得小数据方法发挥出特有的优势。
CSET报告指出,小数据方法能够减少收集个人数据的行为,通过人工生成新数据或使用模拟训练算法,第一不依赖于个体生成的数据,第二,经由模拟训练合成的数据也可以实现个人信息的脱敏。
对于数据匮乏的领域或因共享意愿不足导致的“数据孤岛”而言,可以通过小数据方法来处理数据缺失,用少量的数据点创建更多数据点,凭借关联领域的先验知识迁移学习,或者通过构建模拟或编码结构的假设,来开拓新领域的探索与预测。
“首先我们不能回避的是,人工智能的优势就是面向个体的计算。”雷涛认为,人工智能运用于个体数据的计算无可避免,问题在于合规、适度的使用。
由此,全球产学研界展开了对可信人工智能的研究与探讨。
据中国信通院统计,2020年可信人工智能研究论文的数量相比2017年增加近5倍,各国人工智能产业巨头也通过研发可信工具、制定可信的人工智能原则探索可信AI实践。
在2021年世界人工智能大会上,蚂蚁集团首席AI科学家漆远总结了可信人工智能领域的四个关键词:鲁棒性、隐私保护、可解释性、公平性。
其中,可解释性就包括模型可解释、样本可解释、结果可解释,将深度学习和人类知识结合起来,引进专家机制弥补传统纯深度学习的风险。漆远指出,“因果分析可以使机器学习更稳定,小数据下不用见多识广,因为基于人类经验的因果关系非常稳定。”
在产业界探索可信AI的过程中,使数据“可用不可见”、“可用并可控”、“可控可计量”的隐私计算技术迎来风口。
“在获得个人信息使用的授权后,数据在加工过程中存在被复制、泄露,甚至被转售的风险,隐私计算从技术上保护了数据的安全。金融行业作为数据聚集地,是隐私计算技术最早的应用领域,目前政务、医疗、工业互联网等领域在数据协同过程中,都已经开始使用隐私计算技术。”姚明告诉记者。
雷涛指出,隐私计算的核心是解决数据的确权问题,将数据的所有权和使用权做到剥离,使得我们不用去搬移数据、访问数据的前提下也可以获取到数据价值的转移。
在数据要素流转的过程中,据李晓林介绍,隐私计算也被运用于政务数据开放与数据交易的场景之下。“在各地的政务数据流通过程中,不愿、不敢、不能共享的问题造成了数据孤岛的出现,打造基于隐私计算的共享智能平台可以帮助打通数据壁垒,实现数据的深度挖掘与价值释放。”
但中国工商银行发布的金融业首份隐私计算白皮书指出,现阶段我国并未出台匿名化技术标准或相关指引性文件,金融业可探讨专门出台隐私计算技术使用指引,以指导各方合规应用相关技术。
人工智能立法正在进行时
目前海内外对于人工智能的立法工作正在进行中。
就在12月5日,联合国成员国大会刚刚通过首个关于人工智能伦理的全球标准《人工智能伦理问题建议书》(下称“《建议书》”),旨在实现人工智能给社会带来的积极效果,同时也预防潜在风险。
具体来说,《建议书》呼吁个体应该有权访问甚至删除其个人数据记录。它还包括改善数据保护和个体对自身数据的了解和控制权的行动,并将提高世界各地的监管机构的执行能力。《建议书》明确禁止使用人工智能系统进行社会评分和大规模
监控,并鼓励联合国各会员国考虑增设独立的人工智能伦理官员或其他相关机制,以监督审计和持续监测。
今年6月,欧盟数据保护委员会和欧盟数据保护监督局针对欧盟今年4月发布的人工智能法规草案发表联合意见,进一步呼吁在公共场所禁止使用人工智能自动识别个人特征,包括人脸识别、步态、指纹、DNA、声音等生物或行为信号。
我国“个保法”第二十六条要求在公共场所安装图像采集、个人身份识别设备,应当为维护公共安全所必需,遵守国家有关规定,并设置显着的提示标识。所收集的个人图像、身份识别信息只能用于维护公共安全的目的,不得用于其他目的;取得个人单独同意的除外。
在上海人大刚刚通过的上海市数据条例中,更进一步地细化了人工智能技术的使用。
上海将限制个人信息采集的区域拓展至居住小区、商务楼宇等非公共场所,并要求不得以图像采集、个人身份识别技术作为出入上述场所或区域的唯一验证方式。另外,通过自动化决策方式向个人进行信息推送、商业营销的,应当同时提供不针对其个人特征的选项,或向个人提供便捷的拒绝方式。通过自动化决策方式作出对个人权益有重大影响的决定,个人有权要求处理者予以说明,并有权拒绝处理者仅通过自动化决策的方式作出决定。
记者多方了解到,目前我国多地对于人工智能的地方立法正在探索中,目前天津、南京、杭州、深圳等地已相继出台管理条例规范人脸识别,未来人工智能相关管理条例将主要聚焦人工智能体规范和算法规范两大方面。