创新技术
网络分析智能引擎,构建体验优良的企业网络
随着云计算、人工智能等技术的不断发展和商用普及,企业的数字化转型越来越深入,传统网络运维跟不上网络演进的步伐,企业网络智能运维转型已成为大势所趋。

文/华为NCE数通高级架构师 李宗标
随着企业业务数字化转型加速,伴随而来的是用户规模、业务数据量激增,以及更快的业务上线速度要求。这些变化,使得网络运维面临全新的挑战。
首先,传统人工主导的运维方式,缺少系统性的分析评估,无法主动预防隐患。需要全面高精度的网络健康监控,识别潜在隐患。
其次,应用和网络运维数据隔离,网络呈现黑盒。需要实现应用网络联动分析,完成分钟级故障分析和闭环。
同时,随着软件SDN网络发展演进,多云异构下的应用故障诊断、故障定界往往是多个部门协同排查,需要提高效率。
这些运维挑战构成了我们对于网络智能引擎的整体诉求:高精度的网络健康风险评估、分钟级的故障发现及诊断定界、应用网络互视及联动分析、多云/混合云异构统一分析。
一、智能分析引擎整体架构
智能分析引擎颠覆传统聚焦资源状态的监控方式,结合网络数字化建模、大数据分析、知识推理、AI引擎等技术,可以解决运维挑战,保障应用持续稳定运行。目前,智能网络分析具有看得全、看得准、可预测、可验证四大特征:
看得全:除了监控设备/链路等网络实体资源外,还可监控业务流、分析转发路径、终端位置、协议状态等,同时覆盖多云/混合云、异构等多种组网场景,支撑全场景的网络健康评估、应用网络一体化分析。
看得准:主动感知网络故障,对于故障能准确的给出溯源分析结论;对于应用报障也能准确分析出诊断结论。
可预测:通过大数据分析及AI算法,对网络进行预测性分析,识别网络中潜在的隐患,并给出证据链分析支撑用户快速决策,防患于未然。
可验证:对于用户定义的网络和业务意图,能结合网络配置和转发面数据,验证意图校验结果是否符合预期,提升网络变更效率,降低误操作风险。
针对上述四大特点,华为企业网络智能引擎融合知识图谱建模、专家知识推理、AI算法、意图验证等技术,提供系统性的智能分析解决方案。

图1:网络智能分析引擎整体架构图
1. 知识图谱
知识图谱是一种包含了实体和实体间关系的语义网络,可以进行知识的推理和表达。智能分析引擎对网络的Underlay和Overlay平面进行抽象建模,梳理出50+本体模型以及200+本体间关系的知识图谱模型,从而有效支撑故障溯源、风险识别、智能搜索等上层智能分析应用的构建与发布。

图2:智能分析引擎知识图谱模型示意图
在此基础上,智能分析引擎将采集器收到的设备Syslog日志、KPI指标、业务流数据,经数据清洗、分析计算后等封装成事件,并将其挂接到知识图谱上对应的本体实例上,如此完成知识图谱的完整实例化构建。基于此图谱实例可以进一步进行故障感知与推理、风险识别等。
2. 故障推理算法
智能分析引擎下的故障溯源推理,创新性的基于网络知识图谱,以及预训练好的事件间传播关系知识,结合基于图论的模糊推理、AP聚类优化等算法,对故障时刻点的上下文事件进行聚合、溯源,达到压缩告警数量并溯源根因告警的目的。


图3:智能分析引擎基于知识图谱的事件聚合推理流程图
以OSPF Router ID冲突问题为例,网络中将同时产生OSPF Router ID冲突、OSPF邻居状态发生变化、以及大量VXLAN隧道中断的事件。基于知识图谱的故障聚合及根因溯源算法,可以推理出OSPF Router ID冲突为故障根因事件,同时计算出相关的衍生事件。用户只需关注和处理该根因事件即可,极大地缩减故障处理时长。
3. AI引擎
AI引擎提供了一套集AI学件、推理训练、计算任务调度的管理框架,同时可以支持用户扩展注入预训练好的AI模型,以应对特定场景下的自定义AI异常检测、预测任务。
以异常检测为例,智能分析引擎基于线性回归、时间序列分解等算法对相关指标进行了动态阈值基线的计算,避免了传统静态阈值的局限和漏报。动态基线每天自动更新,主动感知网络行为的变化,实现网络异常的智能化监测。这样KPI指标在劣化阶段就能及时感知出其行为变化,提前介入和修复,避免故障的发生。
二、 智能引擎运维服务
1. DPV意图验证
意图网络是近年来SDN网络领域中较热门的话题之一,网络验证是其中关键的环节。智能分析引擎提出一种基于网络知识图谱、数据面的形式化意图验证算法Data-plane verification,简称DPV。DPV基于网络数据面信息形式化建模,验证网络实际转发行为是否与用户的业务意图一致以及网络中是否存在路由环路、黑洞这些问题的验证。尤其针对网络变更场景,可以验证变更前后的意图一致性,极大提升网络运维效率。

图4:智能分析引擎DPV建模示意图1
DPV对网络对象抽象模型囊括了网络拓扑信息、网络配置面信息、网络数据面信息。按照网络对象粒度(Node/Interface/Link/Forward)创建建模任务并提交到分布式消息队列,供不同节点上的DPV微服务进行消费建模,实现建模的Scale-out能力。建模结果数据按类型使用Redis或HDFS存储,各网络对象快照的存储方式和路径统一以元数据形式存储在RDB中,方便意图求解、界面呈现等场景加载、消费模型数据。之后用特定的报文头空间算法模型,进行意图求解。
2. 智能网络调优
随着企业办公的全无线趋势,对Wi-Fi网络提出大容量、广覆盖、连续性漫游、少干扰等关键诉求。例如,办公场景下的4K视频会议,要求单用户700Mbps以上的带宽;远程教学、AR/VR等业务要求网络时延小于10ms。
华为iMaster NCE自动驾驶网络管控析系统包含的智能分析器(以下简称iMaster NCE智能分析器)应用智能分析引擎,基于系统持续采集的真实用户海量数据信息,运算AI算法智能预测与识别系统中“负载”“边缘”“稀疏”等特征,通过容量调优、覆盖调优、漫游调优、干扰调优等手段,实现“网随人动”,提供决策数据进行差异化的系统调优,保障终端带宽、覆盖优,降低终端粘滞率,提升终端漫游体验以及漫游成功率,实现整体干扰影响低,降低干扰率,为终端提供优良的网络接入体验。

图5:智能分析引擎容量调优与漫游调优示意图
3. 极速体验提升
无线网络体验往往受覆盖、容量、干扰、漫游等多个维度的影响,如何准确评估网络的运行质量,做到网络体验可视、可衡量是网络建设完成后的迫切诉求。
iMaster NCE智能分析器以用户体验为中心,构建六大维度评估体系:接入成功率,接入耗时、漫游达标率、信号与干扰、容量健康度、吞吐达标率,识别影响用户体验的网络短板,支撑网络主动运维与改进。采用故障规则引擎,融入专家经验和AI算法构建故障规则库,精确匹配故障场景,智能识别接入类、性能类、漫游类等问题,自动识别故障根因,并给出可操作的修复建议。基于场景化(宿舍、食堂、办公、教室等)识别,建立同行对比分析与基线,明确行业业务优秀实践,指导快速网络优化。

图6:智能分析引擎场景化识别技术示意图
iMaster NCE智能分析器基于华为几十年积累的故障特征库在秒级采集的大数据仓库中自动关联分析、挖掘异常,识别出复杂的业务模式、构建动态基线预测数据趋势、挖掘未知的关联关系,及时发现潜在的故障和快速根因定位。同时基于云上行业基准建立,通过同行同场景(办公、食堂、宿舍等)对比,参照优秀网络实践经验,快速网优,极大提升网优效率。
4. 重要会议保障
智慧化园区中的办公、生产等重要应用都需要园区网络提供高品质服务。
网络包守恒算法iPCA(Packet Conservation Algorithm for Internet)是一种IP网络性能统计技术,它通过直接对业务报文进行标记的方法,实现对网络丢包情况进行统计。这种技术能够保障即使是短暂的网络丢包导致的音视频体验问题也可以被捕捉到。基于这些监控信息可以指导后续的网络优化以及用户投诉后的问题定界。

图7:智能分析引擎IPCA技术示意图
通过在网络中各节点启用iPCA能力,iMaster NCE智能分析器能够计算应用流的逐跳/逐段丢包、时延,感知真实的业务流经路径,从而实现随流实时的应用故障定界。可以做到用户投诉前提前感知应用体验劣化,支撑网络管理人员提前进行排障或者进行网络优化、用户投诉后可以第一时间进行故障定界定位或者自证清白,大大提升网络管理人员的运维效率,同时也提升了用户的网络使用体验。
三、 成功案例:应用故障诊断
Union Bank是菲律宾国内领先的数字银行,在推出UB Online手机银行应用后,受到客户广泛好评。但随着用户数量的持续增加,银行陆续收到不少用户的体验报障。2019年,网上银行等业务出现中断或连接不稳定,运维人员人工通过表格查找VM接入的网络位置,根据经验还原可能的转发路径,逐个命令行排查10+设备是否存在告警、丢包错包等问题,最后通过逐跳抓包发现了原因。此次问题出现时由于应用负载过高,导致响应慢,总计定位耗时近7小时。
现网部署iMaster NCE智能分析器后,2022年6月29日,Union Bank行内持续收到大量客户报障,反馈应用登录时出现验证码刷不出、刷出慢等问题。银行网络运维团队随即使用iMaster NCE智能分析器,一键查看业务访问的网络路径及路径中设备质量,发现该路径中设备、接口和链路等指标均无异常,排除网络存在拥塞丢包等故障,3分钟证明非网络问题;之后基于ERSpan的TCP业务流建连分析,发现其中一台主机访问存在大量的TCP拒绝服务异常事件,告知业务部门,最终确认是数据库主机服务故障,导致send OTP服务访问出现约1/3失败,最终客户紧急关闭故障主机,线上访问业务恢复正常,后重新部署服务,问题得到彻底解决,总计定位耗时15分钟。
引用资料:
- 图4中公式引用自 P. Kazemian, G. Varghese, N. McKeown, Header Space Analysis: Static Checking For Networks, USENIX,2012.