本文面向无线接入网(Radio Access Network,RAN)推理场景提出一种无需传输原始数据的分布式学习算法:在网学习(In-Network Learning,INL)。

文/华为无线技术实验室:Abdellatif Zaidi,Romain Chor,Piotr Krasnowski,Milad Sefidgaran,Rong Li,Jean-Claude Belfiore,Fei Wang,Chenghui Peng,Shaoyun Wu
1 无线网络分布式推理
传统工作普遍把机器学习算法视作黑盒而直接取代通信模块。实际上,无线接入网(Radio Access Network,RAN)具有独特的内在属性,如果利用得当,将有望实现机器学习和网络通信的共存与协作。不同于计算机视觉和神经科学等数据集中的领域,无线网络的数据往往分散于各个站点。无线网络通常基于信道状态信息(Channel State Information,CSI)或无线信号强度指示(Radio-Signal Strength Indicator,RSSI)来评估信道质量,这些信息可以进一步用于定位、预编码及波束对齐等操作。
在无线网络上实现机器学习的一个常规做法是,通过某一站点(如云服务器或宏基站)采集所有相关数据,然后基于全部可用数据和算力训练出一个完整的机器学习模型。但由于数据量庞大、网络资源(包括算力和带宽)稀缺,这套做法在很多情况并不适用。有些应用(如自动驾驶)对时延的要求极为严苛,数据共享程度受限。对用户隐私有要求的场景,也不适合共享原始数据。而且,小型基站、车载传感器和智能手机等边缘设备的内存和算力也非常有限。再加上无线网络环境瞬息万变,连接波动时有发生,随时有设备接入或退出网络。另外,从数据形态来说,无线网络数据往往是多模态的异构数据,可能同时跨设备和跨用户。RAN推理的主要特点总结如下表。
1.1 无线网络边缘AI
以上种种挑战需要一种全新的范式应对:“边缘学习”,或称“分布式学习”,将AI从网络中心推广到网络边缘。该范式的通信设计至关重要,因为在无线网络上,作为机器学习算法核心组件的数据和算力都是高度分散的。RAN分布式推理,就是利用数据的分散分布,在一个或多个站点上做出一个或多个任务决策。整体框架见图1,基站(Base Station,BS)和用户设备(User Equipment,UE)等都有各自的神经网络,有的设备负责对通信/感知采集得到的数据进行处理,还有的设备则负责提供算力。

图1 无线网络分布式推理
1.2 业界算法综述
按分布式阶段对无线网络AI方案分类,则有仅支持分布式训练的水平联邦学习(Horizontal Federated Learning,HFL) 和水平拆分学习(Horizontal Split Learning,HSL),以及既支持分布式训练也支持分布式推理的垂直联邦学习(Vertical Federated Learning,VFL)。
HFL算法:提出的HFL当属目前最流行的分布式学习架构。这种架构最适用于分布式训练+集中式推理的场景。在训练阶段,神经网络(Neural Network,NN)的多个副本在不同的客户端上基于本地数据集进行训练。训练完成后,云服务器或参数服务器(Parameter Server,PS)对各客户端最新学习到的权重参数进行聚合(如求平均)。这个过程可以多次迭代,每次都应用最新的聚合后模型重新初始化,直到收敛。这种架构的核心就是对模型做渐进调整,不仅关注本地数据集,同时兼顾数据的全局变化。
VFL算法:VFL是联邦学习架构的一个变体。VFL将数据进行垂直切分,既支持分布式训练也支持分布式推理。HFL和VFL架构区别见图2。该架构下,每个客户端有不同特性的数据。对于跨客户端或多模态的异构数据,各客户端采用不同的NN模型以适配不同的模态。模型完成联合训练后,提取共同特征,支撑融合中心完成最终决策。VFL的架构示例见图3a。有关VFL及在无线网络的应用,见及其参考文献。

图2 HFL(左)和VFL(右)
拆分学习算法: 拆分学习(Split Learning,SL)最早 出自,也有两大变体:水平拆分学习(HSL)和垂直拆分学习(VSL)。尽管VSL 的出现早于VFL,但目前VSL 被视为VFL的一种特例,本文不再赘述。HSL算法将NN模型拆分为编码器和解码器两大部分。每个边缘设备都拥有一个编码器副本,编码器和解码器按顺序学习。解码器没有自己的数据,而每一轮训练会给NN编码器输入一个设备的数据,并基于上一轮的学习结构进行参数初始化。最后,将学习到两部分模型应用于集中推理。
表1 无线网络的推理特点

2 在网学习算法
在网学习(In-Network Learning,INL)的起源可以追溯到,后来由进一步发扬光大。
2.1 概述
INL算法擅长对异构和多模态数据进行分布式推理。该架构下,每个设备都拥有一个完整的NN模型。推理过程中,每个设备独立地从输入数据中基于推理任务提取特征。特征经网络传输至融合中心进行融合,最终用于推理决策。也就是说,每个设备都相当于一台编码器,对各自拥有的数据进行特征提取,互不干涉。训练过程中,INL确保编码器只提取互补特征,设备间的冗余特征则被丢弃,从而大幅节省带宽。因此,INL的关键组件包括:
网络特征融合:基于分布式方式提取出的特征通过网 络传输到融合中心进行融合,支撑融合中心输出可靠的决策。
冗余功能去除:INL的一大特点在于,编码器经过训练 后,能够在推理过程中只提取非冗余特征。具体来说,在推理阶段,每个编码器仅从输入数据中提取对当前推理任务有用的特征,不重复提取由其他编码器提取的特征。

图3 INL去除冗余特征
网络信道质量决定特征提取:编码器的特征提取受融 合中心的信道质量影响。特征提取的前提是,该特征能够被可靠传输给决策中心。
卫星解码器:融合中心配有一个主解码器和多个卫星 解码器,经过训练可以根据编码器传输的具体特征输出软决策。系统架构见图3b。
2.2 形式描述
给定一个由N个节点组成的网络,表示为一个有向无环图 G=(N,E,C) ,其中 N = [1 : N] 为节点集合,E⊂N×N 为边集合,而 \(C = {C_{jk} : (j, k) ∈ E }\) 为各边权重的集合。每个节点代表一个设备,每条边代表一个容量为 \(C_{jk}\) 的信道。集合J的每个节点给每条边 \( ( j, l) ∈ E \) 分配一条索引或消息 \( m_{jl} ∈ [1,M_{jl}](x_{j} ∈ X-{j})\),接收的索引元组为 \((m_{i j} : (i, j) ∈ E)\)。对于 \(j ∈ J\)和 l,满足 \(( j, l ) ∈ E\),则 \((M_{jl} = [1 : M-{jl}] \)。节点j处的编码函数为:
\( \phi_{j} : X_{j}\times \left \{ {\LARGE \times } _{i:(i, j) \in \mathcal{E}} \mathcal{M}_{i j} \right \} \longrightarrow {\LARGE \times }_{l:(j, l) \in \mathcal{E}} \mathcal{M}_{j l}\) (1)
其中\({\LARGE \times }\)表示集合的笛卡尔积。同理,对于 \(k \in[1:N-1]/J\),节点k给每条边 \((k, l) \in E\) 分配一条索引 \(m_{kl} ∈ [1,M_{kl}]\),索引元组为 \((m_{ik} : (i, k) ∈ E)\)。即:
\( \phi_{k} : {\LARGE \times }_{i:(i, k) \in \mathcal{E}} \mathcal{M}_{i k} \longrightarrow {\LARGE \times }_{l:(k, l) \in \mathcal{E}} \mathcal{M}_{k l}\) (2)
编码函数 \(ϕ_{i}\) 的范围有如下大小限制:
\( \log \left|\mathcal{M}_{i j}\right| \leq C_{i j} \quad \forall i \in[1, N-1] \quad \text { and } \quad \forall j:(i, j) \in \mathcal{E} \) (3)
节点N基于传入消息,对随机变量 \(Y ∈y\) 进行推理:
\( \psi: {\LARGE \times }_{i:(i, N) \in \mathcal{E}} \mathcal{M}_{i N} \longrightarrow \hat{y} \) (4)
基于分布集\(y\) 构造重建集 \(\hat{y} \),且 \(\hat{y}= P(y)\) 。然后,计算 \(Y \in {y}\) 的真值与其关于平均对数损失的拟合差异,满足 \((y, \hat{P} )\in y\times p(y)\):
\(d(y ,\hat{P})=log\frac{1}{\hat{P}(y)}\) (5)
给定网络拓扑和带宽预算 \(C_{ij}\),INL算法的性能优劣由推理结果的相关性给出:
\(\Delta =H(Y)-E\left [ d(Y,\hat{Y}) \right ] \) (6)
分类的相关性(6) 取决于分类误差。
实际上,在有监督学习场景下,(1)、(2) 和(4) 这三个映射通过学习训练样本 \(\{(x_{1,i},...,x_{J,i},y_i)\}_{i=1}^n\) 得到。训练样本的分布满足:节点 \(j( j \in J)\) 有样本 \(x_{j} := (x_{j},1,..., x_{j},n)\),而末端决策节点N有预测结果\( y := (y_{1},..., y_{n})\)。接下来,利用NN模型对映射(1)、(2) 和(4)进行参数化。用到的NN模型可以任取且互无联系,因为INL架构不要求使用完全一样的NN模型,这点与FL架构相反。为便于反向传播,须满足以下条件:对于 \(j \in J \) 和 \(x_{j}\in \mathcal {X_j}\)(设\(X_{j}\))各元素的维度相同),
NN(j)首层的大小=维度 \((x_{j})+\sum_{i:i,j{\scriptsize \in} { \varepsilon } }\) (NN(j) 末层的大小) (7)
同理,对于 \(k∈[1 : N ]/J\):
NN(k)首层的大小=\(\sum_{i:i,k{\scriptsize \in} { \varepsilon } }\) (NN(j) 末层的大小) (8)

图4 所示网络的训练和推理过程概述如下
训练阶段:前传过程中,各节点 \( j \in {1, 2, 3}\) 对训练数据集 \(x_{j}\) 进行小批次处理,小批次大小为 \(b_{j}\)。节点2 和3 分别将各自NN末层激活值向量发送给节点4,在节点4的NN输入层完成垂直拼接,见(7)。激活值向量在节点4的NN上继续前传,抵达NN末层。然后,节点1和4分别把各自NN的末层激活值发送给节点5。节点1和4的NN末层大小满足(8),因此同样在节点5的NN输入层进行垂直拼接。同理,前传继续,直至节点5的NN末层。各节点基于标准反传算法更新参数:对于节点 \(t \in N\),令\(L_{t}\) 表示节点t的NN末层索引,设 \(\mathbf{w} _{t}^{[l]} \) 、\(\mathbf{b} _{t}^{[l]} \) 和 \(\mathbf{a} _{t}^{[l]} \) 分别表示权重、偏置以及节点 t 的NN第 \(l ∈ [2 : L_{t}]\) 层的激活值,\(\sigma\) 是激活函数,\(\mathbf{a} _{t}^{[l]} \) 表示NN的输入,则节点t按下式计算误差向量:
\(\boldsymbol{\delta}_{t}^{\left[L_{t}\right]}=\nabla_{\mathbf{a}_{t}^{\left[L_{t}\right]}} \mathcal{L}_{s}^{N N}(b) \odot \sigma^{\prime}\left(\mathbf{w}_{t}^{\left[L_{t}\right]} \mathbf{a}_{t}^{\left[L_{t}-1\right]}+\mathbf{b}_{t}^{\left[L_{t}\right]}\right)\) (9a)
\(\boldsymbol{\delta}_{t}^{[l]}=\left[\left(\mathbf{w}_{t}^{[l+1]}\right)^{T} \boldsymbol{\delta}_{t}^{[l+1]}\right] \odot \sigma^{\prime}\left(\mathbf{w}_{t}^{[l]} \mathbf{a}_{t}^{[l-1]}+\mathbf{b}_{t}^{[l]}\right) \forall l \in\left[2, L_{t}-1\right]\) (9b)
\(\boldsymbol{\delta}_{t}^{[1]}=\left[\left(\mathbf{w}_{t}^{[2]}\right)^{T} \boldsymbol{\delta}_{t}^{[2]}\right] \) (9c)
并按下式更新其权重和偏置参数:
\(\begin{aligned} \mathbf{w}_{t}^{[l]} & \rightarrow \mathbf{w}_{t}^{[l]}-\eta \delta_{t}^{[l]}\left(\mathbf{a}_{t}^{[l-1]}\right)^{T}, \end{aligned}\) (10a)
\(\begin{aligned} \mathbf{b}_{t}^{[l]} & \rightarrow \mathbf{b}_{t}^{[l]}-\eta \boldsymbol{\delta}_{t}^{[l]} \end{aligned} \) (10b))
其中 \(\eta \) 为学习率(为简化运算,我们对所有NN 模型采用同一套 \(\eta \) 和 \(\sigma\))。
在反传阶段,各NN按式(9)和(10)进行参数更新。反传过程从节点5开始更新该节点NN的参数,即从该节点的NN末层开始依次应用式(9)和(10)。
误差最终反传至节点5的NN首层。然后,节点5将其输入层的误差向量(9c)水平切分为两个子误差向量,上方的子误差向量的大小即节点1的NN末层大小,而下方的子误差向量大小即节点4的NN末层大小,详见图5。然后,节点1和节点4同时继续类似的反传操作。节点4将其输入层的误差向量(9c)水平切分为两个子误差向量。上方的子误差向量的大小即节点2的NN末层大小,而下方的子误差向量大小即节点3的NN末层大小。最后,节点2和节点3的NN反传继续,整个过程重复迭代,直至收敛。

图5 网络拓扑4 的正传和反传过程
推理阶段:推理过程中,节点1、2 和3 负责观测不同的数据,设为 \(x_{1}\)、\(x_{2}\) 和 \(x_{3}\)。节点1用其NN处理数据\(x_{1}\),并将编码值 \(u_{1}\) 发送给节点5;同理,节点2和3将其编码值发送给节点4。节点4接收到来自节点2和3的 \(u_{2}\) 和 \(u_{3}\) 后,垂直拼接为一个向量并用其NN进行处理,最后输出 \(u_{4}\) 给节点5。节点5对激活值 \(u_{1}\) 和 \(u_{4}\) 执行类似处理,然后,该节点以软输出的形式给出标签y的预测结果 \(Q_{\phi _{5}}(y|u_{1},u_{4})\)。
3 性能收益
本节基于数据分类任务,在精度和带宽维度上对比INL算法与联邦学习和拆分学习算法。
3.1 INL vs. HFL和HSL
实验1:基于CIFAR-10 数据集构造五组加噪图像。具体过程是,先对图像做归一化,然后进行加性高斯噪声处理,标准差分别设置为0.4, 1, 2, 3, 4。INL框架对五个输入NN分别在同一图像的不同加噪版本上训练。NN网络均采用VGG 架构,以分类交叉熵作为损失函数,网络架构如图6。CIFAR-10 图像的五个加噪版本由不同节点的不同NN同时处理,经过拼接后在节点 (J + 1) 上再经过一系列全连接(Fully Connected,FC)层处理。而在HFL方案下,每个客户端节都拥有一张完整的网络(图6),数据集等分成五份,同一张CIFAR-10 图像的五个加噪版本会送入同一个客户端的NN网络,不同的客户端观测不同的图像。
HSL方案中,除 (J + 1) 外的其他节点都配备的是卷积层,而节点 (J + 1) 用到的是全连接层,整体架构如图6 所示。训练过程中,各NN网络对卷积层的输出做垂直拼接,然后传给节点 (J + 1) ,最后该节点将误差向量回传。每个NN完成一个轮训(Epoch)后,将更新后的权重向下一客户端传递,下一客户端再对本地数据集执行相同操作。

图6 网络架构(Conv 代表卷积层,FC 代表全连接层)
对于不同的分类精度要求,各节点数据交换所需带宽资源见图7。由图可知,相比HFL和HSL方案,INL能以更低的传输带宽成本满足同等的分类精度要求。

图7 实验1的精度vs.带宽成本关系
实验2:上一个实验因考虑到INL和HFL的架构差异对训练数据集做了差异化的切分。而接下来这个实验是在相同的数据上完成的。各客户端的NN在完整的CIFAR-10 图像样本上进行训练。对同一个客户端来说,其本地数据集与其他客户端数据集唯一的区别在于添加的高斯噪声多少(标准差分别为0.4, 1, 2, 3, 4)。而且各节点在不同方案下采用的NN模型没有差异,以确保INL和HFL、HSL三种方案比较的公平性,NN架构见图8。

图8 实验2采用的NN架构
本实验中三种方案的推理表现见图9。HFL的推理输入图像取的是INL五个加噪图像的平均质量图像。结果显示,相较HFL和HSL方案,INL方案的分类精度和带宽要求都更具优势。

图9 实验2的精度vs. 带宽成本关系
3.2 INL vs. VFL
实验3:本实验基于CIFAR-10 数据集的变体比较INL和VFL两个方案(因VSL 是VFL的一种特例,不再赘述)。实验用到两个编码器和一个解码器,三者通过无线网络通信。编码器A 到解码器的单信道容量为 \( R_{1}\) 比特,编码器B到解码器的单信道容量为 \( R_{2}\) 比特,如图3b。设本征向量 \( U_{1}\) 和 \( U_{2}\) 的维数为64。在推理阶段的每个时刻,编码器A采用CNN(含少量卷积层)或ResNet-18网络,输入给它的是给定CIFAR-10 图像的半遮挡副本,而编码器B由全连接层组成,输入给它的是同一给定CIFAR-10 图像的加噪版本。
如图10(CNN编码器)和图11(ResNet-18 编码器) 所示,在同样的精度要求下,VFL所需带宽比INL多将近3倍。某些特定精度下,INL的通信成本优势更为突出。同样对于每样本 \( R_{1} = R_{2} = 20\) 比特的带宽要求,INL方案可实现45% 的精度,而VFL的精度仅为28%。
4 大语言模型
大语言模型(Large Language Model,LLM)功能强大,正在颠覆AI开发方式,重塑我们的未来。然而,LLM的多模态数据处理要求也给云端部署带来了诸多挑战,包括(1)响应时间长,(2)通信带宽成本高,(3)数据隐私风险。实际上,可以利用移动边缘计算(Mobile Edge Computing,MEC)技术,在数据源上或靠近数据源的地

图10 实验3:INL和VFL性能比较(基于CNN编码器)

图11 实验3:INL和VFL性能比较(基于ResNet-18 编码器)
方微调和部署LLM,也能有效保障最终用户的数据隐私。面向6G时代,无线网络正在向“网络使能AI”(Network for AI,NET4AI)演进。基于本文提出的INL架构,可以利用6G MEC技术将LLM部署在网络边缘。我们的方案具有以下关键优势:
目标分解:移动网络系统的各网络层协同执行推理。 融合中心将推理目标分解为一个个子目标,并根据下层BS的能力特点进行子目标分配。BS收到子目标后为下层设备做进一步分解,直到最终边缘设备都接收到目标的一小部分。完整过程示意见图12a。
跨视图注意力:Transformer的自注意力机制只计算本地传感器数据。如果在同一个推理任务上采用多个传感器获取多视图数据,就需要相应计算跨视图注意力。跨视图注意力定义某一传感器采集的数据的令牌需要在多大程度上关注其他传感器采集或观测的数据的令牌。我们可以把特征投影到特征空间中的超平面,然后在融合中心处计算跨视图注意力。参见图12b、12c和12d。
潜在结构知识蒸馏:迈向6G时代,移动网络有望在 边缘侧实现在网分布式AI计算。但是,如何能在6G边缘设备上运行LLM这样对内存和算力要求极高的大模型?此外,网络带宽是否足够支持不同的代理/ 设备进行LLM交换以实现模型聚合和协作?针对这些挑战,给出了一个可行方案:设备之间利用INL算法仅互相交换各自提取的特征结构,而不交换特征本身。这样,各设备可以利用彼此交换的特征结构对本地提取的特征做进一步微调。

图12 LLM INL架构的关键组件