创新技术
构筑新型基础设施,释放数智生产力
数据的互联和存储是基础,数字化的深度,决定智能化的高度,数据沉淀是智能化的基础,模型训练是智能化的核心。
文/华为董事、ICT 产品与解决方案总裁 杨超斌
AI进入大模型时代,模型规模、序列长度、多模态等快速发展,同时AI Agent、RAG、SFT、COT等技术大幅改善AI幻觉、逻辑错误等问题,LLM的准确度已达91%以上,基本达到企业使用标准。今年,大模型推理应用爆发增长,全球用户数已达到2.3亿,AI的使用费用也在快速下降,逐步满足企业落地的经济性。技术和经济性的满足,推动了AI加速走向行业,中国已有53%的中大型企业启动了生成式AI的探索,并在营销、研发、IT流程等数字化成熟的场景初见成效。
然而,企业的数智化升级是一个系统工程,面临基础设施、数据、场景、业务集成、生态协同等诸多挑战,任何瓶颈都会导致生产力无法充分释放。当前,企业仍面临着50%设备未联网,50%数字设备5年未升级。已联网的业务也存在数据分散保存、无统一视图,即数据孤岛。企业智能化,需要灵活的解决方案来满足碎片化的场景SLA需求,同时还需基于业务数据不断的迭代演进和生态协同。
面向上述挑战,我们围绕企业的数据流,从数据的联接存储、到模型的开发训练、再到应用的推理部署,通过打造新型数智基础设施,全流程使能行业数智化升级。
图1:华为董事、ICT产品与解决方案总裁 杨超斌
数据沉淀:数字化的深度,决定智能化的高度
数据的互联和存储是基础,数字化的深度,决定智能化的高度。
随着生产数智化的发展,带来大量的“人”“物”和“机”的互联,园区内联接数量将10倍增长,差异化联接需求日益凸显。企业沟通协作更加频繁,视频会议每年增长30%以上,华为每天就有8万场次,保障会议质量成为CIO的重要任务。最后,业务上云和混合办公带来更多的企业网络暴露风险,企业遭受的勒索攻击次数每年增长40%。
为此,我们融合IP、POL、IOT等多种联接技术,基于极简架构,为企业快速打造高品质园区网络,通过端到端切片为不同应用提供差异化服务,保障关键业务质量。
我们通过自身的长期实践,打造了IP网络和IdeaHub视网联动的能力,将高并发情况下的会议时延从200ms降低到50ms、帧率从12fps提升到30fps,解决视频会议常卡顿、体验差的问题。
面对日益严峻的安全威胁,我们打造了跨域安全态势感知解决方案,通过网络、安全、存储和终端的立体联动,可快速发现网络威胁并实时处置,确保关键数据不丢失。
新一代OceanStor Dorado全闪存产品,打破数据孤岛,让数据存得下、流得动、用得好
随着联接数量的增长,企业的业务数据也千百倍的增加,数据规模从PB增长到EB级。但是,不同业务的数字化进程不同,数据分散在不同地域、不同设备上,缺乏统一视图,无法高效利用,数据孤岛制约着企业数智化发展。为此,华为推出“一湖三池”的存储解决方案,让海量数据资产存得下、流得动、用得好。
首先,通过Omni-Dataverse全局文件系统,完成跨地域、跨设备的数据资产全局可视、可管,数据访问入口也实现统一。
其次,利用数控分离等创新架构设计,实现TB级聚合带宽,4倍提升数据吞吐速度,支持RAG向量新数据范式,提升AI训练和推理的数据供给。
最后,结合8倍高密硬件设计和算法创新,支持EB级容量平滑扩容,以满足未来多模态、万亿参数大模型对容量的需求,并通过6层数据保护技术和3倍的备份性能,为数据安全保驾护航。相信新一代Dorado一定能够更好的激活企业数据价值。
华为iMasterCloud云管平台,打造企业极致运维体验
运维管理是企业数智系统的中枢,随着园区ICT设备的倍增,设备种类型号繁杂,老旧混杂,导致业务开通及维护更为复杂,跨产品、跨系统的高效运维已成为企业难点。同时,当前75%的中小企业无专业运维人员,54%的客户呼唤一站式的运维服务,并期望灵活部署。为此,我们推出了iMasterCloud云管平台,支持云上和本地两种部署模式,提供极致的运维体验。
首先,为了让企业能统一管理网络、安全、存储、会议终端等产品,提升运维效率,打通不同产品的跨域运维数据,实现一站式管理。
其次,为了进一步帮助企业降低对ICT专业技术人才的依赖,让大量的ICT问题不再依赖于人、不再依赖于工程师的经验和时间,我们为企业提供了专家式AI辅助能力,把问题交给AI来快速闭环和处理。
同时,为了让ICT系统更方便地与业务系统对接集成,我们的平台可以面向具体业务提供场景化能力开放。平台将于明年H1正式对外开放,欢迎大家使用和反馈。
智能觉醒:训练系统的可用性,决定智能化的速度
数据沉淀是智能化的基础,模型训练是智能化的核心,训练系统的可用性,决定智能化的速度。
无论是模型预训练还是增量训练,都需要基于业务数据快速迭代,Time to Accuracy是最关心的指标之一,也代表着企业投入训练的成本。然而,在预训练阶段,集群的资源利用率普遍不高,稳定运行时长仅为几小时,随着集群规模的扩大,问题还在进一步恶化。面向场景的增量训练,所需的模型、微调算法、工具能力也相对零散,缺乏体系化的能力,难以实现AI模型的快速迭代。
我们基于华为在计算、网络、存储等ICT硬件领域的工程经验,全新打造了新一代的AI计算集群。结合上层的通信算法、并行加速算法、开发工具链以及系统运维上的积累,打造了更高效、可靠和易用的训练平台,从预训练到增量训练,使能客户敏捷高效开发最合适自己的大模型。
新一代AI集群Atlas 900 A3 SuperCluster,从节点创新到系统创新,重塑AI集群标准
由服务器、存储、网络等设备堆叠而成的传统集群,在大规模训练时,资源利用率低,故障频发,严重阻碍着AI发展和创新。
Atlas 900 A3 SuperCluster基于超节点设计,突破Scale Up物理节点计算瓶颈,让成百上千个NPU以TB级带宽超高速互联、内存统一编址,就像一个节点一样高效工作。
在超节点基础之上,我们针对大模型训练的负载特征,自上而下设计AI原生的智算集群,通过算、网、存等跨域技术协同,进一步提升Scale Out的集群计算效率和可靠性。
Atlas 900 A3 SuperCluster的平均无故障运行时长从几小时提升到几天,训练效率也提升了2.7倍,让大模型训练变的更快、更简单。
华为CCAE集群自智引擎,定义集群管理平台标准
集群能否长稳运行,不仅依赖高质量硬件和先进的架构,也与设备运维管理关系密切。当前业界运维管理现状是多套运维软件并行,协议不互通,跨域故障无法快速定位,大规模集群的高效运行得不到保障。
依托三十多年的ICT设备管理运维经验,我们打造了集群级的运管平台:自智引擎CCAE,并定义大规模集群运维管理的标准。
第一,集群系统从传统的单域分管,走向计算、网络、存储的全域统管,实现跨域故障快速定位,并在业界首次实现超大规模集群级别的“0”隐患启动,故障“1”分钟感知和“3”分钟定位。
第二,可管理的集群器件数从百万级提升至亿级。CCAE首个实现亿级器件的全量纳管,并提供数字化地图,支持精细的故障排忧和资源优化。同时我们也开放管理能力的接口,支持客户快速对接自有运维系统。
第三个新标准是故障主动预防。CCAE集成多种故障机理模型和预测算法,及时感知亚健康模块,提前预防核心器件失效,让集群告别慢节点慢网络,可长时间稳定运行。欢迎大家多使用CCAE,我们也会持续夯实能力,支撑稳定生产、保护投资收益。
行业赋智:推理系统的灵活易用,决定智能化的广度
人工智能要释放价值,千行万业的推理应用是关键。推理系统的灵活易用性,决定着智能化的广度。
为了支撑客户多样化的推理开发需求,满足在不同场景SLA。我们提供从模组、标卡、小站、到服务器的全系列推理产品,支撑客户多种部署形态需求。软件上提供昇腾推理引擎MindIE,兼容业界或客户的推理生态, 提升开箱性能,降低开发门槛。
同时,MindIE集成了业界最先进的推理加速技术,比如通信-计算融合算法、多级KV-Cache、PD分离等,大幅提升企业AI落地的经济性。
联合伙伴打造企业级AI解决方案,为企业提供开箱即用的智能化引擎
对于企业来说,一个模型最终集成到业务系统中,其实存在很多断点。开箱即用的解决方案是企业落地AI最便捷的方式之一。
为此,我们联合伙伴共同打造了企业级AI解决方案,华为提供硬件以及AI框架、微调套件、工具链、推理引擎等所需的软件,伙伴结合他们的各种参数大模型,整合集成到解决方案中,为客户提供 从增量训练到应用部署 的全流程能力。
目前,昇腾支持50多个开源或私有的基础大模型,使能20多家原生伙伴开发出了100多个场景化企业级AI解决方案。
比如,科大讯飞的代码开发一体机,已在多个行业得到规模应用。在交通银行,已覆盖了全行3600多名软件开发人员,AI生成的代码采纳率达30%,整体开发效率提升15%。
使能伙伴打造多样化产品,共筑产业生态,加速走深向实
行业场景的碎片化一直是制约AI规模落地的核心挑战,为了覆盖更多场景的智能化升级需求,我们也持续开放昇腾、鲲鹏硬件,并通过研发、生态、销售等支持,使能硬件伙伴打造更加多样化的产品,完善产品组合,进一步满足客户差异化需求。
经过这一年的蓬勃发展,我们的硬件伙伴数量已经突破100家。各伙伴深耕细分场景,开发出200多款满足场景化产品和解决方案。
未来,我们相信在与伙伴的共同努力下,必将打造更繁荣的产业生态,不让任何企业在智能化时代掉队。
构筑新型数智基础设施,全流程使能行业数智化
华为将聚焦ICT产品和技术,持续深耕,使能千行万业的客户,构筑新型数智基础设施。协同伙伴,使能企业高品质联接,打破数据孤岛,加速行业AI走深向实。
技术在演变、产业在转变、时代在蜕变,应对变化最好的办法就是迎接变化,拥抱变化。
让我们携手奋进,共筑坚实数智根基,共赴行业数智未来!
图2:构筑新型数智基础设施,全流程使能行业数智化