如何以较低的通信开销、较好的收敛性更安全的隐私保护来进行AI模型的分布式训练就显得尤为重要。目前,面向边缘智能的模型训练优化技术主要分为联邦学习、参数聚合优化、梯度压缩、模型分割和迁移学习等五种。
在边缘AI模型被部署之前,A应用首先需要基于大量的特征数据(即训练样本)来训练AI模型(如深度神经网络)。由于物联网场景下的训练数据通常以分布式的形式产生和存储在不同的用户设备中,因此,如何以较低的通信开销、较好的收敛性更安全的隐私保护来进行AI模型的分布式训练就显得尤为重要。目前,面向边缘智能的模型训练优化技术主要分为联邦学习、参数聚合优化、梯度压缩、模型分割和迁移学习等五种。
边缘智能计算的五大模型训练优化技术概览
联邦学习:联邦学习技术的出发点是用户隐私保护。与传统的以云数据中心为核心的训练方法不同,联邦学习并不直接收集用户终端的数据,而是收集各用户终端上最新的模型训练更新,从而避免用户隐私泄露的问题。具体而言,联邦学习在用户终端上部署深度学习模型并利用用户数据本地化训练模型,在边缘
服务器或云数据中心进行模型梯度聚合,并反馈给用户进行选代更新。另外,利用端边云多层次计算、边缘节点之间分布式协同计算进行高效联邦学习,也是一个重要的方向。
参数聚合优化:边缘智能分布式模型训练的更新依赖于分布在各用户端的本地模型,如何选择参与参数聚合的用户,如何设定聚合的频率以及如何确定聚合的内容,都对深度学习模型训练的通信成本、收敛性和模型精确度等性能指标具有直接的影响。目前,学术界和行业界关于上述参数聚合优化问题的研究也正在不断涌现。
梯度压缩:在边缘智能分布式学习中,参与模型训练的边缘节点之间需要进行频繁的梯度参数交换,从而造成了巨大的通信开销。为了降低开销,还可以采用一种以梯度稀疏化和梯度量化为代表的梯度压缩技术。其中,梯度稀疏化的基本思想是选择对模型训练结果较大的部分梯度参数进行传输;梯度量化的基本思想则是降低用于表示梯度参数的数值的精度,例如从32比特降低到8比特。
模型分割:模型分割的思路是将深度神经网络模型切分成若干部分,其中某些部分部署在边缘侧,剩余部分则部署在云端,从而实现云边协同模型训练。由于切分前后没有丢弃任何数据,因此不会造成训练精度的损失。深度神经网络模型分割的关键问题是如何选择合适的模型分割位置,从而优化模型训练的计算和通信开销。
迁移学习:迁移学习的思路是首先在基础数据集上训练一个基础模型,随后将学习到的特征迁移到目标模型,并以目标数据集进行训练。因此,为了降低深度学习模型在网络边缘侧训练的资源消耗,我们可以在云端预先训练一个大规模的基础模型,然后通过迁移学习方式(例如,知识蒸馏),在边缘侧结合本地数据集与计算资源进行个性化,轻量级目标模型的训练和部署。
另外,随着边缘计算与云计算、高性能计算的进一步融合,边缘智能和云端智能将是支撑泛在人工智能应用的重要基石。展望未来,边云智能协同架构、算力感知高速互联、边云A模型自动设计、分布式A共享激励机制等也将是重要的研究方向。