合作生态
加速原生创新,共赢数智未来
华为坚持聚焦鲲鹏、昇腾、欧拉、CANN和昇思五大根技术,坚定执行生态战略,能力开源开放,携手伙伴及开发者共建计算生态,激发前沿创新。
文/华为计算产品线总裁 张熙伟
非常高兴和大家分享,华为计算产业的生态进展与未来规划。过去的五年时间里:
- 我们坚持聚焦鲲鹏、昇腾、欧拉、CANN、和昇思五大根技术,围绕硬件架构、系统架构、和集群架构持续投入、突破创新,为计算产业铸牢坚实根基。
- 我们坚定执行生态战略,携手伙伴共建计算生态,能力开源开放使能开发者,赋能伙伴的业务发展,实现商业共赢。
- 我们一直把人才培养作为产业发展的重中之重,培养高校原生人才,使能科研孵化,激发前沿创新。
再次感谢鲲鹏、昇腾全体伙伴、开发者五年来的不离不弃,五年来的共同奋进,五年来我们共同为世界构建了新的选择!数智化的未来充满机遇与挑战,让我们积极学习,携手创新,在计算的黄金时代,成为更好的我们!
人工智能的高速发展重塑计算技术,推动计算架构从处理器、节点到集群,全面创新。算力走向异构融合,支持多种新型数值结构的计算与灵活调度;节点从服务器走向超节点,统一计算语义、统一内存编址,实现CPU、NPU、xPU的异构协同;集群层面,Scale up + Scale out并举是主要创新方向,基于业务负载感知,实现集群资源的灵活调度,一个数据中心就是一台计算机。
当前,AI的投资逐步转向模型训练与AI应用并重,预计2026年中国的AI应用投资将超过模型训练投资。逻辑推理让AI从“文科生”走向“理科生”,而KV-Cache压缩、多级缓存与PD分离等技术,则提升着AI落地的经济性,让AI加速进入更多行业场景,带动行业数智化变革。
鲲鹏展翅,无处不在
算力是行业数智化的基础,鲲鹏、欧拉、昇腾,坚持根技术和系统架构创新,持续为数智化注入澎湃算力。接下来,我将为大家分别介绍鲲鹏、欧拉、昇腾的最新进展。
鲲鹏原生,一次开发构建多平台版本,效率更高,性能更优
过去几年,我们持续强化基础软硬件工具链能力,鲲鹏从“迁移适配”走向“原生开发”。通过鲲鹏原生开发,解决客户与伙伴多技术路线开发成本高、效率低的难题。
- 在企业原有CI/CD流水线中,集成鲲鹏场景化SDK、毕昇编译器、调优诊断工具等能力,实现“一次编码,多路线适配”,版本迭代效率提升30%。
- 鲲鹏 WAAS可动态感知业务负载,自动调参,自动调用最优加速库,典型场景业务性能提升 10%-30%。
- 鲲鹏原生开发实现开发态与运行态两次加速,充分释放算力,提升应用性能。
首批200+TOP伙伴实现鲲鹏原生应用开发,2025年将超过1000家,加速数智基础设施应用创新
2023年底,华为启动了鲲鹏原生开发计划,目前已有200多家头部伙伴实现鲲鹏原生开发,覆盖了金融、运营商、政府、电力等行业核心系统。鲲鹏原生开发为客户和伙伴创造新价值,计划到2025年,鲲鹏原生开发伙伴将超越1000家,覆盖行业主流应用。欢迎大家积极加入鲲鹏Native原生开发计划,共同加速数智基础设施的应用创新。
![张熙伟](http://www-file.huawei.com/-/media/corp2020/technologies/publications/202402/2/3-1-2.jpg?la=zh)
图:华为计算产品线总裁张熙伟
欧拉焕智,无远弗届
算力的充分释放,离不开操作系统的有力加持。openEuler立足智能时代,持续创新引领,为千行万业数智化注入核心动力,无远弗届。
持续贡献openEuler,释放澎湃数智算力
在开放原子开源基金会指导下,经过社区与全体开发者的五年努力,openEuler实现了跨越式发展。2023年,openEuler系在中国新增服务器操作系统市场占比达到了36.8%,份额第一。全球累计下载超过350万,服务150多个国家的用户,openEuler立足中国,正逐步走向世界。
华为作为openEuler社区的发起者和核心贡献者,始终以行践言,持续创新,加强投入,贡献欧拉社区。面向智能加速、数智融合的趋势,我们将继续操作系统创新,致力于将openEuler打造成为数智基础设施最佳开源操作系统。南向使能异构算力融合,提升算力使用效率;北向助力更稳定的模型训练和更高的推理性能。
使能异构算力融合,赋能AI高效运行
伴随超节点和集群架构的兴起,操作系统在资源管理和调度上的能力变得尤为重要。openEuler协同互联总线,实现内核统一抽象、统一编址和语义直接访问,通过低时延调度器实现跨节点资源的微秒级访问,结合异构资源池化能力,实现业务负载与资源的动态配比,使能计算系统从局部最优到全局实时最优。
面向AI训练,openEuler通过镜像数据块级别的按需加载,大幅度缩短任务冷启动时间;通过升级的设备健康监测算法,可提前发现亚健康节点。
面向AI推理,利用openEuler异构融合内存能力,按需分配KV Cache,提高片上内存利用率,缓解容量瓶颈,提升推理性能。
未来这些创新,都将陆续贡献到openEuler开源社区。
昇腾万里,无所不及
AI技术日新月异,昇腾AI紧跟时代潮流,以更加开放,易用的生态,让智能无所不及。
AI模型创新,驱动计算范式快速演进
AI技术演进催生了全新的计算范式。长序列、多模态显著提升训练算力需求,然而,随着集群规模不断扩展,通信开销从原来的20%增长至50%以上,成为性能瓶颈,使得算力无法充分利用。在此情况下,基于高速总线互联的超节点技术逐渐成为解决问题的方案,同时,对于通信优化算法以及分布式并行算法也提出更高要求。
OpenAI o1的复杂逻辑推理能力大幅提升,强化学习再次崛起的同时,也带来了推理资源需求的大幅提升。由于大模型推理的 Prefill和Decode阶段 分别存在计算和内存受限问题,资源分配不均,导致成本居高不下。这些趋势和挑战,都驱动着推理系统的重构,以更高效地资源调度与并行解码,满足推理商业落地的经济性要求。
CANN 8.0独创的通信算法、算子与丰富的API,充分释放硬件价值
CANN是昇腾生态的根基和锚点,这几年我们不断增强能力,逐步缩小与业界领先的差距。去年CANN 7.0软件重构后,我们开放了图引擎、算子库、编程接口、编译器、运行时等能力,使能主流AI框架和加速库,更高效调用算力资源,支撑了互联网、运营商、金融等行业的大模型原生创新和场景化落地。
汪涛总发布了CANN 8.0,新增NB 2.0等十几类通算融合算子,通过自适应通信域优化,充分利用超节点通信全链路,实现更细粒度的通信计算并行,将模型训练性能提升20%以上。新增的通信、矩阵运算、数据搬运等API,大幅降低算子开发工作量,Matmul等典型融合算子开发代码量缩减30%以上。
MindSpore原生亲和超节点架构,大幅缩短模型开发训练时间
今年上半年,面向超大参数量的MoE模型的训练,我们发布了MindSpore 2.4版本。随着超节点带来的TP域和SP域扩展,我们全新打造了高维Tensor并行与长序列并行,自适应最优参数切分,最大化计算通信掩盖能力,万亿参数模型训练性能可提高20%。我们将动静统一能力重新封装为高阶API,一键实现权重格式转换,屏蔽动静态图开发差异,小时级完成主流模型开发。
推理引擎MindIE关键特性升级,提升AI落地经济性
为了更好的满足企业AI落地经济性,昇腾推理引擎MindIE升级了关键特性,率先支持自适应PD分离部署,根据负载自动调整计算、访存比例,实现推理资源按需分配,吞吐提升50%以上。提供单轮多Token的启发式并行解码能力,输出时延降低50%,支持外挂知识库、小参数模型和自回归模型,提高推理准确率。最后,MindIE还支持将长序列自动拆分为多个短序列进行推理,以有限的资源实现更高效的推理。
赋能原生人才,激发科技创新
鲲鹏昇腾的原生应用创新离不开人才,我们计划未来每年投入10亿元来发展鲲鹏昇腾的原生生态与人才,并结合技术赋能、开发支持与激励等一系列原生开发使能计划来激发创新。未来三年,我们计划赋能百万原生人才、孵化千个原生项目,赋能千家企业原生创新。
以最新的技术培养人才,以创新的人才引领产业
2020年,我们联合教育部打造智能基座1.0项目,将产业前沿技术引入高校,搭建起产业和高校的桥梁。2023年底,我们与教育部续签智能基座2.0项目。今年,我们深化合作,打造鲲鹏昇腾科教创新孵化中心,构筑连接高校、企业与科研机构的重要枢纽,为人才培养提供最前沿的平台,助力高校更便捷开展科研实践,加速科研成果的孵化。
今天,我们联合复旦大学、哈尔滨工业大学、华中科技大学、西安交通大学、南京大学、北京航空航天大学、北京理工大学、电子科技大学、东南大学、北京邮电大学,成立鲲鹏昇腾科教创新孵化中心。
鲲鹏展翅,昇腾万里,共赢数智美好未来
鲲鹏展翅,昇腾万里。在计算产业未来的黄金十年,在充满机遇与挑战的数智时代,让我们携手奋进,共赢美好未来。