趋势洞察
AI大模型应用中交互体验的艺术:250毫秒大揭秘
文章围绕如何提升AIGC交互式体验,通过分析人类语言交互规律,提出在设计云网基础设施、训练大模型能力时,应该需要注意的三点,并给出业界一些优秀实践。
文/华为运营商Marketing部 张明博士
人工智能产业经过多年发展,技术实现从感知智能升级成认知智能,从而引发了机器理解、分析和决策事物的深层次需求。AIGC就是实现认知智能产品化的重要方式。未来几年内,AIGC技术将在多个领域落地。而推理成本、交互体验、推理精确性、复杂任务能力是AIGC“关键应用”产生的4个关键要素。
推理成本:量子隧穿效应限制了芯片制程的持续提升,社会单位算力成本下降总体趋势持续放缓。当前AIGC平均成本仍高出传统搜索成本一个数量级,需持续推动AIGC成本下降到搜索成本的同等量级,才能支撑AIGC的规模商用。
交互体验:当前主流大模型在语言理解和文本生成上普遍表现优异,但在交互节奏和情景识别上则表现不佳:交互往往需人为干预手动确认;大模型回复等待时间过长;大模型往往不允许被打断、插话,也不会选择合适时机主动终止对话;无法识别对方的情绪并做出同理反应。人机交互需达到人类之间交互的体验,才能获得用户的真正认可和广泛应用,这需要对运营商网络进行改造,构建AI Ready的接入和传送网,并提升大模型的交互能力。
推理精确性:RAG等数据喂投技术在一定程度上减少了大模型的幻觉。当前业界最好的大模型推理一致性在97%左右,幻觉度约3%,距离ToB/ToH领域的规模应用,如网络规划、仪表和电器精准控制尚有差距。需在可信信源、更长上下文、多模态感知和推理上对大模型能力做进一步改进。
复杂任务:早期的CoT和现在的AI-Agent都在着力解决大模型如何感知环境、进行连续决策和执行复杂任务的能力,这是人类通过AI解放生产力的关键步骤。短期内需要可应对数字世界复杂任务的大模型和应用,如个人AI助理和数字员工;长期来看,需要能解决物理世界复杂任务的具身智能,如家庭/企业机器人员工和L5自动驾驶。
图1 4个关键要素及其产业完成度
以上4个关键要素中,当前只有交互体验能被较为完美地解决。
良好的交互体验从何而来?
AIGC良好的交互体验源于高度模仿人类交流机制,也就是语言交互,尤其是非正式语言交互,是人类社会的一项核心活动。
人类依靠无仲裁的轮流机制(Turning System)来协调人之间的语言互动,依靠对话双方对交流内容的理解、眼神、形体姿态,默契地交换发言权,以及决策何时发言。轮流机制的产生甚至早于语言的诞生,因此具有超越语种的共性规律。
这里先定义两个概念,便于后面的论述:
间隔:一方交出话语权到另一方开始讲话的时间间隔;
重叠:一方在讲话时另一方抢先发言,双方语言重叠的时长。
研究发现,语言交互有以下两个普适的规律:
1. 人类在语言交互中普遍的间隔时间是250毫秒。大部分语言的间隔在7~470毫秒间波动(如日语间隔7毫秒、丹麦语间隔469毫秒、英语间隔236毫秒),各语种平均间隔约250毫秒。且所有语言的响应时间都呈“正向单峰”分布:“单峰”意味着语言只有一个间隔“爽点”,即250毫秒,偏离这个间隔越久,交互就越“不自然”,人的体验也就越“不爽”;“正向”意味着人倾向于不去打断对话,总是避免产生重叠(但面对喋喋不休的大模型,打断大模型可以单向提升人这一侧的体验,这属于另外的研究范畴)。
2. 有4个因素会影响间隔。当进行非问答式答复时,答复间隔慢132毫秒;当答复“Yes”“agree”“you are correct”等正向答复时,答复快207毫秒;视频通话比非视频通话,答复快87毫秒;交流一方被凝视时,答复快69毫秒(如表1)。
影响因素 | 非问答式答复 | 确定性答复 | 交互可视 | 被凝视 |
---|---|---|---|---|
对间隔的影响(毫秒) | 132 | -207 | -87 | -69 |
表1 影响间隔的4个因素
基于以上认知,在设计云网基础设施、训练大模型能力,或提供AIGC应用时,尽量做到以下三点,可以提供良好的交互体验。
第一,端到端500毫秒是上限。避免让交互出现间隔大于500ms的过长等待时间(间隔>500ms),避免让大模型频繁打断对话(出现重叠)。较好的延时是300毫秒=50毫秒双向网络延时+250毫秒大模型生成时延。
第二,可视和数字人。AI应用应该尽量提供可视交互业务,应为对话设计丰富的视频背景,而不是单纯语言或文本交互;增加人眼交互功能,尽量用虚拟数字人进行拟人化交流。
第三,正向问答交互。对大模型进行问答式交流和正向提问的fine tuning或强化训练,让大模型习惯性输出正向提问。
业界AIGC交互式体验的优秀实践
1. 体验优化的目标网
未来AI应用普遍由大模型使能,大模型需在云端训练,在云/边/端多地进行推理。华为公司AI-Ready推训目标网,通过如下云网边端深度协同的设计,满足端到端延时和大模型训推数据的快速传递,为AI应用交互式推理提供良好体验服务:
第一,全光锚点从骨干下沉到城域,提供确定性时延。构建骨干20ms,省内5ms,城域1ms的三级时延圈。其中OTN入算锚点ODU/fgOTN硬管道一跳入云,实现双向1ms时延;算间OTN互连,省干MESH设计,OXC全光交换,实现省内算力间5ms互连。
第二,在三级延时圈上构建弹性IP网络,实现带宽动态均衡,带宽资源池化,带宽弹性伸缩(M级到百G级)。
第三,构建确定性的泛在网络接入。星闪/5.5G/F5.5G无线边缘提供确定性的接入,满足AI多种业务体验需求。
2. 体验优化的大模型
如今,业界的领先大模型在交互等待时间、情绪和背景信息捕捉交互两个方面做了大幅优化,带来等同于手指滑动触摸屏的交互体验改进。
改善从三个维度入手。其一,将交互响应时间同人类行为拉齐。把交互响应时间从秒级(2.8秒~5.4秒)降到亚秒级:对话平均响应时间320毫秒;最短响应时间232毫秒,已经同人类普通交互行为相似。其二,配备多模态感知能力。大模型能通过环境声音和摄像头实时感知背景语境和环境;结合语言、呼吸和面部信息实时感知用户情绪。其三,提升多维度表达能力。大模型能通过多个维度语音语调哭笑感叹进行表达;多个大模型能进行分工协作,完成复杂任务。
体验提升带来的新机会
网络和大模型的优化将赋能更多AI应用场景,为ToC、ToH、ToB领域创造更多新机会。
在ToC领域,AIGC彻底引爆AI助理应用。无需额外硬件,使用现有智能手机(摄像头+MBB网络)即可实现体验良好的互动功能。AI助理类产品2024年已经具备规模商用能力(比预计提前一年),且主要形态从专用硬件+大模型变为手机+大模型,带来新的连接和上行流量显著增长。
在ToH领域,以智能音箱、智能电视为载体的陪伴/教育机器人应用会首先爆发,并逐步延展到家电统一控制、安防监控,并形成统一家庭应用生态。
在ToB领域,手机/PC+超级应用(welink)形态的交互式应用在生产和办公领域开始产生真正生产力;以一体机为载体的数字员工开始在客户服务(交互式公共服务、售前售后服务)、赋能培训领域开始发挥作用。
- 标签:
- AI