搜索历史 清空

华为正式发布智算运维解决方案,保障AI集群高可用和业务高长稳

[西班牙,巴塞罗那,2026年3月1日] 当前AI算力建设进入快车道,各类AI应用加速进入各行业核心生产环节。这就需要算力基础设施的运行要像网络基础设施一样高效稳健可靠,为达到这一目标,华为在2026年MWC 2026期间正式发布全新的MindOps智算运维解决方案。

使能算存网协同运维、全系统可视可管

构建AIDC 7层全系统数字孪生,协同智算运维领域专业大模型(EDNS2.0),发布全新一代网络与智算基础设施融合的智算运维解决方案MindOps,通过算存网协同的智能、高效运维,保障训练与推理业务的高效长稳运行;通过7层全系统可视、风险预测感知和故障实时主动修复,实现算力平台的高效、长稳运行,将算力集群可用率从业界平均90%提升到99.9%。

260301-20

智算运维平台全系统可视可管

三大核心关键能力:

设备健康自检:从被动响应转向主动消除风险

基于风险感知算法,对液冷、CDU、光模块等关键部件进行周期性健康检测。在故障发生前系统即可实现风险自动预警,支撑运维人员快速完成风险消除,确保智算中心长稳运行。

智算全系统可观测:构建“秒级”运行状态感知能力
基于数字孪生技术实现从 L1 数据中心基础设施、L2 算力集群基础设施、RoCE 网络、集合通信到AI平台、模型及应用7层全系统可观测,做到系统全系统运行状态“秒级”感知。

自动故障诊断和倒换:预置AI专业大模型,打造99.9%的高可用率
针对典型场景的慢卡、慢网络及模型性能劣化等常见问题和挑战,MindOps 通过加持智算运维领域专业大模型(EDNS2.0),实现风险感知及预测,将系统故障精准定界定位缩短到分钟级,通过及时自动倒换实现99.9%的算力高可用率。

智算运维解决方案MindOps通过加持数字孪生与领域专业大模型EDNS2.0,实现全系统可观测和自动排障,全新定义智算运维范式,保障算力平台的长稳运行与极致性能,让AI释放新质生产力。

相关新闻