前沿探索
AI原生6G网络的数据面设计
本文提出了数据即服务(Data as a Service,DaaS)的概念,并提出在6G网络架构中包含一个专用数据面的设计,旨在高效处理分布式感知和AI应用中的数据流。

文/华为无线技术实验室:严学强、俊凡

文/北京邮电大学:张馨然

文/浙江大学:张翼
1 引言
数据在6G网络的人工智能(Artificial Intelligence,AI)部署中发挥至关重要的作用。AI部署需要大量的高质量训练数据和测试数据。基于不完整或不正确的低质量数据训练出来的模型可靠性较差,而此类模型生成的结果质量也较差。然而,海量数据的采集过程往往耗时且费力,这严重阻碍了AI应用大规模获取高质量数据。
得益于其固有的射频感知能力,6G网络将催生大量的数据驱动型应用。这些应用生成、传输、处理和存储的数据量将达到前所未有的规模。充分利用射频感知能力,6G网络可以将自身转化为一个“传感器”,从物理世界读取数据。因此,6G感知数据可以成为AI模型训练的一个重要数据源,推动生成式和交互式AI服务的发展。若将6G网络1%的能力用于感知,端侧AI模型的6G感知数据量将达到每天1030字节量级,基站上云侧AI模型的6G感知数据量将达到每天1021字节量级。若能有效将这些数据用于AI模型训练,模型可以更好地与现实世界对齐,提供定制化的AI服务。网络原生AI是6G的基本特性之一,其将采用深度边缘架构,助力实现分布式、协作式、广泛的机器学习(Machine Learning,ML)。
网络原生AI的首要目标是将大量的分布式智能代理进行智能连接,以实现AI的规模化部署。智能代理是数据即服务(Data as a Service,DaaS)生态系统中的重要组成,在智能代理之间,模型参数等海量数据需要以高效率、高吞吐量且低时延的方式传输。从DaaS的角度,网络必须为机器学习运维(Machine Learning Operations,MLOps)提供灵活支持,具体而言,网络需要自动化并简化ML的工作流以及相关部署。
1.1 当前的连接服务网络架构
当前典型的移动网络架构广泛采用控制面和用户面设计为移动用户提供无线接入服务。控制面处理连接建立和用户面数据转发控制等任务。在5G核心网领域,此类任务统称为会话管理。用户面的主要作用是将网络数据包高效转发至对应的目标节点。
1.1.1 控制面:基于服务的接口
图1展示了3GPP基于服务的架构(Service-based Architecture,SBA)。在此架构中,5G网络的控制面功能和公共数据存储库分布在相互连接的网络功能(Network Function,NF)中间。每个NF都有权限访问其他NF提供的服务。在SBA架构中,5G核心网控制面的NF之间有一个基于服务的接口(Service-based Interface,SBI)。该接口作为通信总线,使用HTTP/2协议在控制面所有NF之间进行通信。

图1 5G 核心网的SBA架构
5G网络中的HTTP/2连接是点对点的,即消息在NF之间双向流动。一个NF向另一NF发送请求消息前,会先与其建立连接,而对端NF也通过该连接返回响应消息。若对端NF需要向源端NF发送消息,其需要另行建立一条反向的连接。这些信令消息由预先设定规模的小数据包组成,因此,整体数据流量与活动用户设备(User Equipment,UE)数量成正比。
1.1.2 用户面:GTP-U隧道
如图2所示,用户面上的数据流量由横跨UE、无线接入网(Radio Access Network,RAN)和核心网用户面功能(User Plane Function,UPF)的协议数据单元(Protocol Data Unit,PDU)会话承载。为保证数据传输质量,数据包首先会匹配对应的服务质量(Quality of Service,QoS)业务流,然后通过UE和RAN节点之间的数据无线承载(Data Radio Bearer,DRB)通道传输,再通过RAN节点和核心网UPF之间的N3GTP-U隧道传输。此范式中,数据在专用的隧道中传输,因此,此范式是基于会话的。

图2 5G 网络中的PDU 会话
总而言之,当前的控制面和用户面均运行在基于通信会话的架构之中。信令流程和用户数据包与对应的UE之间存在内在关联。控制面为每个会话建立用户面数据通道,实现UE、基站、核心网功能等网络节点之间的信令消息交互,以保持状态同步。
1.2 挑战
6G网络的主要功能是为UE提供连接服务。此外,6G网络还将扩展提供AI和感知类服务,统称为“超越连接的服务”。“超越连接的服务”与传统的连接服务有明显差异,这也迫切需要网络架构从“以连接为中心”向“以数据为中心”转变。而控制面和用户面的架构无法满足新的服务需求,具体原因如下:
- 海量数据:6G网络处理的数据量将达到前所未有的规模,其中的很大部分数据量将由“超越连接的服务”产生。6G网络的实际数据量将远超ITU-R当前的预测,因为该预测仅考虑了移动用户的数据流量。6G网络的泛在感知能力将催生海量数据,这些数据也将被用于构建物理世界数字孪生的算法。同时,具备分布式智能能力的UE、基站、核心网和云等将产生AI数据,如梯度、参数、模型、词元(Token)等,此类数据是另一类大规模的非连接数据。如此大规模的数据量是无法由控制面(如SBI接口)处理的,因为控制面的特点是小数据包的可靠传输和短时连接。
- 复杂的数据拓扑:在新兴的6G服务中,数据生产者和数据消费者之间的数据拓扑可能相当复杂,其中的RAN节点、UE和NF之间并非以线性的、点对点方式连接。与面向UE提供的连接服务不同,“超越连接的服务”可以触达任何通过身份验证和授权的网络接入用户。而当前的用户面(如PDU会话)仅在UE和UPF之间建立一对一通信通道,这种面向连接的范式无法处理6G“超越连接的服务”中的复杂数据拓扑。
- 数据编排需求:与无线接入模式不同,AI/感知服务是按需运行的,即不同的AI/感知服务需要不同的UE、基站和NF组合协作才能实现。因此,具备感知能力/算力的各类UE、基站和NF需要进行统筹编排以提供服务,比如分布式学习服务。这就需要网络能够自动解读服务需求并将其转化为网络配置。而这是当前网络架构无法满足的。
自5G时代起,智能连接设备生态系统不断扩大,需要实时处理的数据量激增。而传统的、以会话为中心的模式高度依赖集中式代理,无法满足大规模的分布式AI系统和协作感知网络中的通信流量管理需求。此外,传统模式在满足扩展性要求、以及端边云统一计算中的低时延和隐私性要求方面也面临巨大挑战。因此,迫切需要定制化设计一个创新的网络架构,以满足AI原生6G网络中的数据管理和处理需求。
2 DaaS数据面
受核心网控制面解耦和用户面设计的启发,我们提出在6G网络架构中设计一个专用的数据面,以提高网络的灵活性和运行效率。数据面能够助力各类拓扑中的数据流动,从而灵活提供数据服务,实现高效的随路数据处理。具体而言,数据面将服务需求分解为数据处理功能,如数据收集、预处理和分析,并统筹相关网络组件协作以满足服务需求。数据面传输非连接数据,其主要目标是简化管理和控制。非连接数据将被注入AI算法中,助力算法迭代优化。数据面是为内外部应用和服务提供数据服务的基础。数据面主要由两类组件组成:数据编排网元(Data Orchestration,DO)和数据代理(Data Agent,DA)。
2.1 DO
在连接服务中,网络只需在UE和UPF之间建立通道,而非连接服务的发放和交付需要多个网元协同。这些网元必须进行恰当的编排。如图3所示,DO是数据面中的“指挥官”,监管网元间的数据流动。DO解读服务需求并将其转换为网络配置,以此确保数据在数据面的精确流动——在正确的时间到达正确的处理单元/应用。

图3 6G数据面架构图
DO包括四个基本组件:数据代理注册、数据流引擎、数据流管理和策略控制。数据代理注册组件负责记录DO管理的各DA具备的能力,基于此信息,数据代理注册组件可以保障资源的有效利用率。数据流引擎组件负责基于服务需求确定需要执行的操作和数据转换(如过滤、聚合和转发)的顺序,确保数据在系统中有效流动。数据流管理组件负责监管数据包在编排好的数据拓扑中的实际路由情况,其会综合考虑网络拥塞、时延要求和资源可用性等因素。策略控制组件负责数据安全、访问控制和隐私相关的策略决策,确保敏感数据的妥善处理。
2.2 DA
DA在整个数据服务生命周期中充当“智能中介”的角色,可以提供数据预处理、数据转换、本地决策、数据缓存和安全实施等多种功能。具体而言,DA可以对原始数据——如通信感知一体化(Integrated Sensing and Communication,ISAC)数据的同相正交(In-Phase and Quadrature,I/Q)信号——进行过滤、聚合和压缩,以降低网络流量和数据处理开销。DA可以将感知数据转换为适合网络原生AI算法/应用的格式,方便数据传输。在分布式数据处理场景中,DA可以根据本地收集的数据进行基本分析和决策,无需与中心实体持续通信。此外,DA可以对频繁的数据访问和过程处理结果实施数据缓存,从而加快检索速度,提高处理效率。DA还可以执行访问控制机制和加密协议,强化数据安全。
DA可以部署在多类网络节点上,如UE、基站、网络边缘节点、核心网节点等。部署在UE或基站时,DA可以在数据传输前执行初步的数据获取和本地处理,如数据过滤、压缩等。部署在边缘计算节点时,DA可以对数据进行进一步处理和分析,并可能触发实时操作,或将处理/分析结果返回支持AI算法的下游DA等。此外,部署在核心网的集中式DA还可能处理更复杂的任务,如聚合多个数据源的数据或将数据馈送至集中式AI算法等。
基于不同的实现方式,DA可以分为两类:嵌入式部署DA和独立部署DA。嵌入式部署DA作为网络实体的一部分,一般负责数据采集和预处理。独立部署DA依照DO的指令承担相应角色。数据处理功能(Data Processing Function,DPF)和数据存储功能(Data Storage Function,DSF)是可以部署在RAN或核心网中的两种独立部署DA。DPF负责ISAC和AI等数据的处理,而DSF是数据长期存储的仓库。
2.3 DCP
DO和DA的设计带来了另一个挑战,即,传统的数据流模式不再能满足新型数据拓扑的需求。一般情况下,在具备网络原生AI或无线感知能力的“超越连接的服务”中,数据拓扑会涉及多个数据源、数据处理功能和数据宿。也就是说,由于AI和感知能力,移动网络将变成一个数据密集的计算和大数据分析平台。以会话为中心的数据传输模式无法满足该平台“多进多出”的数据传输需求。鉴于此,我们提出一个面向6G网络的全新逻辑功能网元,称为数据通信代理(Data Communication Proxy,DCP)。该网元处理6G网络中拓扑复杂、且需随路处理的海量感知和AI数据。如图4所示,DCP克服了传统的“先连接再通信”模式的缺点,可以高效进行数据分发。
在当前网络架构中,数据经由UPF流至对应的NF。而在我们提出的架构中,由DCP担当数据收集中介。DCP接收数据,并将数据高效分发至对应的NF。通过数据生产者和数据消费者之间的解耦,DCP实现了异步数据交换,即数据生产者可以独立进行数据处理,而不必依赖消费者响应。DCP可以部署为一个分布式系统,由一个消息代理和多个消息队列组成。消息代理作为数据发送者和接收者之间的中介,基于消息主题,实施从数据发布者到订阅者的消息路由。消息队列是一种数据结构(或容器),通过参与消息发送、接收和存储,协助应用间的通信。同时,采用发布/订阅(Publish/Subscribe,Pub/Sub)通信模式作为异步消息传输架构。在此架构中,消息发送者和接收者无需了解彼此的身份便可进行消息传输。数据生产者向消息代理发布特定主题(即数据类别)的消息,而订阅者向消息代理订阅自己感兴趣的消息主题。
DCP有两种实现方式:有状态DCP和无状态DCP。有状态DCP将订阅信息和主题信息存储在一张表格中,消息路由基于查表进行。无状态DCP在本地不存储订阅信息和主题信息,消息路由基于消息内携带的信息进行。该信息是由DO编排和配置的数据拓扑的一种数字表征。在我们的方案中(详见第3节),数据转发通过模除操作实现,其中数据拓扑的数字表征是模除操作中的输入。与有状态DCP相比,无状态DCP具有超低时延的数据转发、高扩展性等优势。超低时延是通过基于模除的数据转发实现的,此数据转发方式的效率远超有状态DCP中的查表方式。高扩展性是通过免除了数据业务发放过程中DO和NF之间大量的配置交互而实现的。在无状态DCP中,DO在配置消息内携带的数据拓扑的数字表征时,只需与源数据节点通信。

图4 DCP 实现方案
DCP可以部署为独立的NF,也可以部署在已有NF上。图5为一个计算机视觉任务的示例,该任务涉及基于人脸检测的年龄和性别分类AI模型,也涉及基于犬类检测的品种预测AI模型。在此例中,DO接收服务请求,并根据注册DA/DPF的能力构建数据处理拓扑。与DPF一样,数据源也作为DA,被分配一个唯一的主题ID。在此例中,摄像机即为数据源DA,其将主题ID为“Video”的视频帧数据发布至DCP。其后,DCP将视频帧数据推送至消息队列,再推送至订阅了“Video”主题的数据消费者。在此例中,数据消费者是两个DA/DPF,其一配备了人脸检测模型,另一个配备了犬类检测模型。两个DA/DPF进行推理后,向DCP发布主题ID分别为“Human face”和“Dog”的新主题。DCP再将年龄和性别检测结果推送至DA/DPF。在此过程中,数据收集与模型推理是异步进行的,这样,模型推理期间便可以收集到更多的感知数据。
这种基于DCP的ML模型编排的优势在于DCP允许任意数量的消息队列与消息代理绑定。数据可以跨ML应用重用,一个模型/训练周期的输出也可以作为下一模型/训练周期的输入。具体而言,DCP方案具备以下优势:
- DCP在数据生产者和数据消费者之间引入了缓冲,这可以确保无缝、高效的数据流动,从而避免潜在的数据传输瓶颈。这一优势在处理海量数据时尤为重要,因为数据流的任何延迟或中断都会极大影响ML模型的性能。
- DCP可以适应不同的处理速度,在允许所有DPF以各自速度运行的同时,又能确保数据不丢失。
- 与DO配合,DCP可以使任务执行更有序,这也是ML模型成功完成推理的一个基本要素。
3 基于无状态Pub/Sub范式的分布式消息代理
3.1 Pub/Sub范式
随着AI应用(尤其是采用高级神经网络架构的AI应用)的出现,迫切需要一种在6G网络内计算中实现AI流程编排和调度的新方法。因此我们提出了一个无状态Pub/Sub范式,旨在有效管理大规模分布式AI系统上从数据源到订阅者的信息流动。此Pub/Sub范式将通信端点相互解耦,并支持分布式学习、推理和协同无线感知等场景中的多对多数据分发。此范式的独特性在于其高效的数据流管理,这使其支持涉及多个数据生产者和消费者的应用,甚至可能可以满足ML工作流的管理需求,从而大幅增强网络原生AI和MLOps能力。此外,Pub/Sub范式可以使ML工作流配置更为灵活,尤其是在响应实时数据或动态变化方面。在传统的消息控制流中,业务流是确定性的、预先定义的。而Pub/Sub范式是一种更加积极的事件驱动过程,其中数据管道上的各个节点均可作为订阅者,接收其他节点或数据发布者发布的特定主题消息。Pub/Sub范式中数据生产者和消费者的解耦提升了系统的扩展性和容错性,因为某个组件的故障不会直接影响其他组件。

图5 基于DCP 的ML 模型编排
3.2 基于CRT的无状态消息代理
“超越连接的服务”以数据驱动,其中数据的隐藏价值需要采用基于统计或ML的方法进行挖掘。鉴于数据拓扑中的所有节点均需处理数据并向下游节点发送数据,我们提出了一种用于非连接数据的随路数据处理方法。此方法有助于减少网络带宽,并保障数据的私密性。
传统的有状态消息代理会维护一个数据转发表,其中包含每个主题所有订阅者的目标地址。此类消息代理在每个消息到达时都需要查找数据转发表,这会额外增加数据传输的时延。另外,此模式的可扩展性非常有限,因为消息代理的所有节点都必须维护数据转发表。
为克服上述缺点,我们提出将消息代理“去状态化”,即采用无状态消息代理的模式。其中一种方案是在消息数据中携带一个编码的“状态”作为带内信息。这样,无状态消息代理的设计目标则是找到一个能将数据拓扑打包或转换为适合封装于数据包中的数字表征的函数,同时,其逆函数的计算必须足够简单。综合以上考虑,我们基于余数系统(Residue Number System,RNS)和中国剩余定理(Chinese Remainder Theorem,CRT)设计了一个函数f及其逆函数 \(f^{-1} \) 称为正向转换器。根据RNS文献的惯例,我们将f称为反向转换器,将 \(f^{-1} \) 称为正向转换器。
- RNS
RNS是一种表征数值以执行快速运算的方法。它将一个整数表征为使用模除而得到的余数。RNS运算以数字为单元进行,其中无进位操作,这样,一个较大数字则可以分解为多个较小数字做并行运算,从而提高运算效率。如图6右侧所示,正向转换器基于一个模数组 \(M = (m_{1},m_{2},m_{3})\) 将一个较大整数转换为一组较小的整数余数(\(x_{1},x_{2},x_{3}\))。其中,这个模数组中的数字两两互质。将数字X转换为RNS表征的过程非常简单——只需用每个模数对X进行模除,得到的余数集就是X的RNS表征。公式如下:
\( x_i=Xmodm_{i} \) (1)
例如,若X=11,模数组为(3,4,5),则11的RNS表征为(2,3,1),i.e.,
\(11≡(2,3,1)_{RNS(3,4,5) }\) (2)
- CRT
CRT可以用作反向转换器。利用CRT,如果我们知道一个整数n被若干互质整数除后的余数,那么我们就可以唯一确定n(如图6左侧所示)。公式如下:
\(P={\textstyle \Pi _{i=1}^{3}} m_{i} =m_{1}m_{2}m_{3}=3*4*5=60\) (3)
\( M_i=\frac{P}{m_i},i=1,2,3,\) (4)
\(CRTX=\left | \sum_{i=1}^{3}x_{i}M_{i} \left | M_{i}^{-1} \right |_{m_{i} } \right | _{P}\) (5)
在以上公式中,\( \left | M_{i}^{-1} \right |_{m_{i} } \) 是 \(M_{i}\) 的逆元。

图6 RNS 和CRT
在DCP中,数据拓扑由包含模数组和余数组的数组 \((\vec{m},\vec{n} )\) 表示,而数据拓扑的数字表征X由消息数据包携带。正向转换耗时较多,且可以提前进行,因此,可将其作为数据编排过程的一部分,用于数据转发,其中,余数组表示数据拓扑中的下游数据处理节点。
3.3 性能评估
基于无状态Pub/Sub范式的分布式消息代理的主要设计目标是最小化消息转发时延,这对于协作感知和基于AI/ML的自动驾驶等“超越连接的服务”至关重要。这里,我们将消息转发时延定义为输入消息的第一个比特进入队列到其最后一个比特退出队列之间的时间间隔。端到端时延受多种因素影响,包括消息大小、消息到达率、DCP的处理能力等。
我们将DCP方案与RocketMQ进行了性能对比实验。RocketMQ是一种广泛用于IT领域的分布式消息队列系统,具有大容量、实时性和零错交互的特点。RocketMQ以单副本模式运行,即系统中只有一个消息代理,没有副本节点。我们对DCP也进行了相同的设置,并在相同的硬件和软件环境下(详见表1)进行了对比实验。
图7展示了消息大小为101~105个字节区间时DCP和RocketMQ系统的消息转发时延。在测试中,每个系统转发5条大小不等的消息,每条消息重复转发5次,并计算这5次的平均转发时延。如图所示,随着消息大小的增加,RocketMQ系统的消息转发时延也增加了。当消息大小达到105字节时,消息转发时延大幅增加。而DCP系统的消息转发时延一直稳定在2ms左右。总体上,综合所有消息大小,DCP系统的平均转发时延较RocketMQ系统低65%以上,而对于较大消息(如105字节),DCP系统的转发时延较RocketMQ系统的优势更加明显。

图7 DCP 和RocketMQ 系统的数据转发时延
DCP较RocketMQ系统的优势主要源于以下两个因素:
- 无状态设计:DCP采用无状态设计,无需为每个消息转发操作维护和管理复杂的状态信息。这种设计减少了处理每个消息的计算开销,可以显著降低消息转发时延。
- 无需消息持久存储:DCP应用场景不要求支持消息持久存储,因此我们从系统中移除了消息持久存储相关的组件。这进一步简化了I/O操作,降低了数据写入磁盘的开销,提高数据转发效率。相比之下,RocketMQ系统要求支持消息持久存储,这也导致其处理较大消息的时延显著增加。
我们还测试了DCP系统在不同消息发送间隔(2ms、3ms、4ms、5ms、10ms、50ms、100ms、300ms、500ms和1,000ms)情况下不同规模消息的发送成功率。如图8所示,当消息大小在103~105字节之间时,在不同消息发送间隔的情况下,消息发送成功率都接近100%。这说明DCP系统能够有效处理并成功发送较小规模的消息。但是,当消息规模增加到105字节及以上时,消息发送成功率在所有消息发送间隔的情况下都有所下降。

图8 DCP 系统的消息发送成功率
以上结果表明,对于较小规模的消息,消息发送间隔对发送成功率影响不大;而对于较大规模的消息,消息发送间隔越短,发送成功率越低。此结果主要是由于网络拥塞或系统处理能力不足导致的。因此,在设计消息传输策略时,平衡消息大小和发送间隔是至关重要的,而这对于重载场景下的发送成功率保障尤为重要。
此外,我们测试了分别配置1个、2个、5个和10个消息代理情况下DCP系统处理不同规模消息(1KB、10KB、64KB和128KB)的吞吐量。如图9所示,DCP系统的吞吐量随着消息代理数量的增加而提升。当消息规模为1KB时,配置1个消息代理的情况下,DCP系统的吞吐量为228.0MB/s,而配置10个消息代理的情况下,吞吐量达到了1,061.3MB/s。另外,当消息规模为128KB时,配置1个消息代理的情况下,DCP系统的吞吐量为714.6MB/s,而配置10个消息代理的情况下,吞吐量为2,394.6MB/s。

图9 DCP 系统的吞吐量
以上结果显示,DCP系统的吞吐量随着消息规模的增加而提升。这说明,只要妥善管理消息发送间隔以避免消息发送成功率下降,DCP系统处理较大消息时更为高效。此外,增加消息代理的数量对较大消息的吞吐量提升效果更为明显。
表1 DCP 系统的吞吐量

4 结语
网络原生AI、无线感知等“超越连接的服务”产生和消费的数据量巨大,因此,需要一个高效的数据传输机制,以支持复杂的数据拓扑以及数据的随路处理。然而,当前网络架构采用的基于会话控制和管理UE通信数据的模式与非连接业务采用的基于业务的模式有很大不同。为克服这一限制,本文提出一个专用的数据面设计方案,用来传输非连接数据。此方案引入了DO和DA组件,用于管理各类数据拓扑中的数据链,通过随路处理分布式数据并利用泛在计算能力,实现DaaS,并助力网络原生AI和无线感知业务的部署。本文还提出了一种异步数据交换机制DCP,以实现数据生产者和消费者之间的高效数据交换。该DCP是一个无状态、分布式消息代理,其效果得到了实验结果证明,尤其在需要多个AI模型协作或利用ISAC进行环境重建的场景下,其优势尤为明显。