前沿探索
利用语义数字孪生增强无线通信与大语言模型推理的性能
本文提出一种新的技术,结合通信感知一体化与大语言模型两方面的能力,从传感器数据中提取特征来创建语义数字孪生(Semantic Digital Twin,SDT)。

文/华为渥太华无线先进系统能力中心:陈佩瑶,葛屹群,张其蕃,史无限,魏哲远
1 引言
以大语言模型(Large Language Model,LLM)为代表的人工智能(Artificial Intelligence,AI)不断发展,在制造、医疗保健、交通等诸多行业展现令人振奋的前景。从生产线的智能管理,到交通系统的自动化控制,再到医疗诊断的精准预测,大语言模型的应用正逐步重塑我们的工作与生活,为社会创造一个更高效、更安全、更健康的未来。大语言模型能够理解和处理上下文信息,产生连贯、有意义的响应,更好地模仿人类沟通。
随着无线通信技术的进步,6G无线系统在向更高的频率(包括毫米波乃至太赫兹)、更大的带宽和更大规模的天线阵列等方向演进。一方面,通信系统已逐步具备类似于感知系统的能力,通过广泛覆盖的移动通信网络,以及对直接信号、反射信号和散射信号的分析,可以从无线电波中提取距离、角度和材质等信息,实现对目标对象或环境属性与状态的感知。另一方面,感知技术借助高精度定位、环境重构等手段,可以实时复刻物理世界,构建一个平行的数字世界,即“数字孪生”。数字孪生提供精确的波束赋形和高效的信道状态信息检测等功能,有助于增强通信性能。这意味着通信感知一体化(Integrated Sensing and Communication, ISAC)将成为大势所趋。同时,大语言模型与感知技术的结合,也为传感器和摄像头等设备赋予了智能感知能力。具备了智能感知能力以后,这些设备不仅可以识别、检测和采集多样化的海量数据,还能够分析并优化数据,进而感知和理解外部环境。未来通信感知一体化与大语言模型将不断融合,共同推进6G“人工智能物联网(Artificial Intelligence of Things,AIoT)” 时代的到来。
基于这样的愿景,在未来的通信系统尤其是6G系统中,传感器和机器人等各类智能设备之间的通信会占据很大比重。大语言模型的出现,让人与机器间、机器与机器间的通信变得更为直观和高效,将大大促进语义通信在6G研究中的发展。语义通信减少了数据传输量,不仅传输原始数据,还传递信息内涵,因而可以提高通信效率。利用大语言模型,可以从图像、音频和点云等各种模态中提取信息,并将信息转换为常见的令牌化表示。这些从大语言模型词表中提取的离散令牌,封装了底层数据的语义,无需考虑数据的原始模态。这一机制创造了振奋人心的可能性,让不同设备和系统间得以进行无缝通信与信息交换。借助这种基于令牌的语义通信方法,还可以更方便地把信息集成到知识图谱和其他语义表示框架中,从而促进对环境的全面理解及相关决策。通过上下文感知通信,设备可以根据周边环境和系统整体目标来动态调整行为。
高效通信及人工智能物联网要走进现实,就需要把大语言模型扩展到人类用户之外,去覆盖一张巨大的物联网设备网络。然而,由于这类设备的计算能力有限,直接在设备上执行大语言模型的推理通常不具备现实的可操作性。如果采用传统的云端解决方案,用户与远程数据中心之间来回通信会引入显著时延,难以满足实时应用的即时响应要求。这个问题在自动驾驶或工业控制等时间敏感型任务中尤为突出,此类任务中的时间以毫秒计,微小的时延都会产生重大影响。为了应对这样的挑战,需要有先进无线系统来支持大语言模型的在线推理,特别是在行将到来的6G时代,基站层面的支持至关重要。
如此一来,未来的无线通信系统不仅要管理控制无线通信、向用户设备提供连接与通信服务,它的基站还要充当连接AI模型的中心枢纽,而当中的每个模型都是为特定的功能和应用而设计。这些模型经过预训练和验证后,策略性地部署到核心网络的各个基站,让AI能力更贴近终端用户。图1 展示了这样一个未来的6G系统。
本文提出通信感知一体化和大语言模型相结合的思路,通过建立语义数字孪生(Semantic Digital Twin,SDT)来提升无线通信与AI推理的效率。后续章节的内容如下。第2节介绍无线通信系统中SDT的具体框架,重点说明通信感知一体化和大语言模型的融合。第3 节探讨SDT在无线通信和AI推理增强方面的应用。第4 节给出本文小结。

图1 通信感知一体化和大语言模型在6G系统中的融合
2 语义数字孪生
数字孪生的概念正在颠覆我们对复杂系统的认知与管理。通过数字孪生,网络运营商能够识别未覆盖区域、降低信号干扰、高效分配资源,以达到网络性能优化的目的。当网络向6G及更远的未来演进,数字孪生将愈发变得不可或缺,因为它作为创建虚拟副本的关键所在,复刻了物理无线环境中从基站、用户设备到周边地形等林林总总的一切对象。这些数字化的表示还会随实时数据不断更新,实现对系统行为的持续监控、分析与预测。
在迈向高效通信愿景的进程中,语义通信和数字孪生技术的结合为未来6G智能系统的发展开辟了广阔前景。具体而言,两种技术的结合可以实现实时物理蜂窝网络的令牌化表示。传感器的运用,以及令牌化无线相关特征——比如信道状态信息(Channel State Information,CSI)和信道质量指示(Channel Quality Indicator,CQI)——的信息辅助,对构建准确有效的SDT将发挥关键作用。
2.1 语义传感器数据
大语言模型的应用使传感器在处理原始数据时能够理解特定的任务或目标,提高处理效率。换言之,传感器可以将注意力与处理能力聚焦到具体场景和任务的相关方面,针对性地提取更有意义的信息。提取的信息包含两方面,一是与任务相关的语义概念,二是目标的附加属性,这两项信息都通过语义令牌 \(T^{s}\) 来表示。譬如,相机的功能远不止显示基本的图像像素。它还可以检测特定场景中执行具体动作的人,并对人的位置和运动等附加属性进行编码。与此类似,环境传感器除了上报温度值,还可以根据预定义的阈值和环境模型传达“舒适”、“潮湿”或“污染”等语义概念,并在环境异常时发出警报。
2.2 令牌化的无线信道测量
由于整个通信网络充当了一个巨型传感器,利用无线相关特征可以显著增强对物理世界的感知和理解。具体而言,从无线信号中提取的距离、速度和角度等信息可以增强感知。例如,分析信道状态信息可以揭示障碍物的存在,识别不同类型的干扰(如同频干扰或外部干扰源),并检测目标对象在覆盖区域内的运动。这些感知与理解的结果会编码为令牌Tc,令牌值包括“障碍物”、“干扰”或“运动”等。同时,位置、损耗或方向等相关参数也会一并编码。此外,如果基站拥有相关环境的综合射频地图和充足的算力,那么基于令牌化的表示来重建粗略但完整的信道状态信息,也具备潜在的可行性。这种重建能力使信道状态信息的表示变得更加高效、紧凑,从而在保留无线环境基本信息的同时,减少了需要传输的数据量。
2.3 语义数字孪生表示
如图2 所示范式,语义数字孪生是包含语义令牌的一个动态集合,令牌会基于传感器和无线信道测量所获得的信息持续更新。每个令牌序列表示环境的特定方面或环境中发生的特定事件,不仅承载了自身固有的语义内涵,还包含了时间和空间维度的上下文信息。这意味着,数字孪生中的每条信息都被打上时间戳和位置戳,进而构建出时间、空间和语义(用于事件描述)环境的三维表示。这样构建出来的数字孪生提供了更为丰富的信息,它的角色不再是被动地收集数据,而是主动地参与到理解和解释环境的活动中来。

图2 语义数字孪生
上述语义数字孪生是由基站建立的。在建立数字孪生的过程中,每个时间戳的令牌融合是我们面临的主要挑战。设令牌 \(T^{s}\) 和 \(T^{c}\) 的长度相等,或使用额外的神经网络投影来对齐两者的长度。我们根据令牌特征将令牌 \(T = \left \{ T^{s},T^{c} \right \} \) 分成若干聚类,再融合同一特征聚类中的令牌,如图3所示。需要注意,同一特征聚类中的令牌对应多个相同的事件或对象,各个特征聚类中融合的令牌数量也不尽相同。本文采用的聚类方法是一种使用了语义令牌的混合特征聚类法。该方法主要包括两部分:一是令牌的最近邻聚类(KNN),也就是先基于特征的空间相似度将令牌聚类; 二是令牌融合,即利用大模型再来考察令牌的语义相似度。在模型训练过程中,会使用语义图将属于同一目标或事件的多个语义令牌属性聚合到同一个聚类中。

图3 令牌融合过程
特征聚类:创建特征聚类采用的是DPC-KNN(Density Peaks Clustering based on k-Nearest Neighbors) 的一个变种算法。由于聚类中心的密度比邻居令牌更大,与较高密度令牌之间的距离也相对更远,因此应同时考虑密度 \(\rho\) 和相对距离 \(\delta\) 。给定一组令牌T ,设 \(NN_{k} (t_{i})\) 为在语义相似度上与 \(t_{i}\) 最邻近的第 k 个令牌。那么,\(t_{i}\) 的 k- 最近邻 \(KNN (t_{i})\) 定义如下:
\(\operatorname{KNN}\left(t_{i}\right)=\left\{j \in T \left\lvert\, \frac{t_{i} \cdot t_{j}}{\left\|t_{i}\right\|\left\|t_{j}\right\|} \leq \frac{t_{i} \cdot \mathrm{NN}_{k}\left(t_{i}\right)}{\left\|t_{i}\right\|\left\|\mathrm{NN}_{k}\left(t_{i}\right)\right\|}\right.\right\}\) (1)
然后,通过计算 \(t_{i}\) 到 k 个最近邻的平均距离,可以得到令牌\(t_{i}\)的局部密度 \(\rho_{i}\):
\(\rho _{i}=exp(-\frac{1}{k} \sum_{t_{j}\in KNN(t_{i})}^{} \frac{t_{i}\cdot t_{j}}{\left \| t_{i} \right \| \left \| t_{j} \right \| } )\) (2)
相对距离的计算公式如下:
\(\delta_{i}=\left\{\begin{array}{l} \min _{j: \rho_{j}>\rho_{i}} \frac{t_{i} \cdot t_{j}}{\left\|t_{i}\right\|\left\|t_{j}\right\|}, \text { if } \exists j \text { s.t. } \rho_{j}>\rho_{i} \\ \max _{j} \frac{t_{i} \cdot t_{j}}{\left\|t_{i}\right\|\left\|t_{j}\right\|}, \text { otherwise } \end{array}\right.\) (3)
式中,\(\rho_{i}\) 是令牌 \(t_{i}\) 的局部密度。
令 \(s_{i}=\rho_{i}\times \delta _{i}, i\in \left \{ 1,...,|T| \right \} \)表示每个令牌 \(t_{i}\) 的得分。通过选取具有最高得分 \(s_{i}\) 的令牌,可以确定一系列聚类中心,然后根据语义距离将其他令牌分配到最近的聚类中心。
令牌融合:每个特征聚类使用一个 Transformer 块,用于捕捉同一特征聚类中不同令牌间的语义关系和信息交互,以生成融合的令牌聚类 \(\tilde{T}_{n}\)。
对于不同时间戳的特征聚类,会基于相似度距离进行配对,也就是说,只有当各聚类的中心之间相似度距离小于给定的阈值 \(d_{c}\) 时,这些聚类才能互相匹配。在执行决策或类似任务时,会考虑跨越不同时间和空间的所有对应特征聚类,这一做法能提高准确度,为物理世界与数字世界之间更和谐的交互开辟了新的可能性。
3 语义数字孪生的应用
时空SDT在无线通信和大语言模型推理中起着至关重要的作用。
3.1 无线通信中的作用
通过对历史与实时数据的分析整合,SDT可以优化资源分配和信号处理。具体来说,在波束赋形等技术中,SDT可以精确定位信号传输方向,从而最大化信号接收效率。
在传统的波束赋形方法中,定向传输通常依赖设备或特定信号源的地理位置。而借助SDT,系统可以识别和理解特定的用户活动或状态,比如识别用户读书时的姿态或行为。这种个性化定位超越了严格的地理界限和信号源限制,关注点转移到了用户行为与需求。基于识别到的信息,系统可以调整天线阵列的波束赋形方向,精确定位到特定的用户设备。此外,系统还可以快速响应用户姿态或环境条件的变化,动态调整波束方向以维持通信的连续性和效率。这些能力增强了通信系统的灵活性与适应性,显著提升了用户体验和业务质量。

图4 人手持书本的SDT演示
图4 是SDT检测到人手持书本的实时演示。演示使用了摄像头和激光器等多种类型的传感设备。为了对齐各类传感设备所采集的数据,我们利用第2.3节提出的令牌融合方法来提取特征并匹配多设备间的目标与对象。检测分为环境检测和语义检测。前者检测静态对象,这可以由当前的大语言模型来轻松处理。后者理解并检测人的动作,需要分析并整合目标个人和周围物体的相对位置与状态。演示中维护两个队列:一个语义状态队列 S(p);一个相对位置队列 L(p, o),指示对应语义状态的人和物体所处的相对位置,其中 p 表示被检测人的索引,o 表示被检测物体的索引。之后,利用语义状态和相对位置间的对比学习来提高人体姿态检测与理解的精度。整个过程如图5 所示。

图5 SDT构建过程
3.2 对AI推理的增强
在以下几个关键方面,SDT可以显著增强AI推理能力。
- 精确视觉裁剪:使用多模态大语言模型处理视觉问答任务时,有效的处理性能对医疗诊断和智能交通应用极为重要。如1介绍,问题中视觉主体的大小显著影响模型灵敏度。较大的视觉主体往往会提高相关问题回答的准确度。相反,较小或模糊的细节常常增加模型处理难度,削弱模型有效处理细微视觉线索的能力。因此,精确的图像裁剪可以让模型聚焦关键视觉区域,从而显著提高视觉问答任务的准确度和效率。传统方法(如1)专注于单图像裁剪,而SDT与之不同,通过令牌表示来提供环境的全局视图,实现更准确的裁剪。
- 上下文感知预测:当前的视觉大语言模型是面向单图 像任务做的优化,缺乏时间记忆。由于视频数据的海量性质,如果直接训练视频大语言模型,资源消耗会非常大。涉及“拿起”和“放下”等动作的任务,需要上下文信息才能做到准确判读,而仅做单帧分析可能无法提供这类信息。要增强推理任务——尤其是对规律性动作或场景进行预测的任务,可以在大语言模型中有效利用SDT的时空知识。例如,在机器人疏导拥挤区域的场景中,SDT可以洞察障碍物和行人移动,并提供社交距离指引,显著提高机器人动作的准确度和有效性。
- 有效提示工程:SDT可以分析理解过往的语言数据,借此来改进大语言模型并优化提示工程。经过精调,推理引擎做出的决策能够更充分地考虑上下文与相关信息。以机器人取食物的任务场景为例。如果机器人仅依赖自身的机载传感器,它的能力就受到天然的限制,只能基于当前所处的周边环境开展任务,无法获取历史环境信息。这种情况下,如果附近没有可见的食物,机器人可能无法完成任务。而一旦将SDT的时空感知能力融合到推理过程中,就可以将机器人的感知范围扩展到它所处的直接环境之外。SDT的集体记忆功能可以洞察过往事件和历史环境,填补机器人的知识空白。比如,即使机器人无法直接观察到食物,SDT也可以提示具体位置信息,告知机器人食物在某个特定抽屉中。基于这种背景知识,推理引擎可以有效地引导机器人成功取到食物。这个例子展示了SDT技术与机器人推理相结合所带来的变革性影响,表明SDT能够增强机器人在复杂环境中的智能程度和适应性。
结语
本文介绍了一种新方法,将通信感知一体化与大语言模型相结合来建立SDT。在SDT中,传感器数据由传感设备和无线信道测量功能来采集,并使用语义令牌来表示。语义令牌又按照特征聚类进行融合。由于整合了历史数据,SDT可以增强无线通信性能,尤其是能够提供精确的波束赋形和个性化的用户定位。同时,通过精确视觉裁剪、上下文感知预测和有效提示工程,SDT还能提升AI推理任务的精度和效率。这种融合方法为通信感知一体化和大语言模型两个领域的智能系统发展都带来广阔前景。未来的研究还可以进一步探索SDT在自动驾驶、智能制造和环境监测等多种应用中的潜力,从而实现物联网技术的全面部署与推广。
- Jiarui Zhang, Mahyar Khayatkhoe, Prateek Chhikara, and Filip Ilievski, "Visual cropping improves zero-shot question answering of multimodal large language models," arXiv preprint arXiv:2310.16033, 2023.