- 集团网站
- 公司介绍、新闻动态、展会活动等信息
- 消费者业务网站
- 手机,PC和平板等智慧生活产品
- 企业业务网站
- 企业商用产品、解决方案和服务
- 运营商业务网站
- 运营商网络解决方案、产品及服务
- 华为云网站
- 华为云服务及解决方案
选择区域/语言
- Australia - English
- Brazil - Português
- Canada - English
- China - 简体中文
- Europe - English
- France - Français
- Germany - Deutsch
- Ireland - English
- Italy - Italiano
- Japan - 日本語
- Kazakhstan - Қазақ тілі
- Kazakhstan - Pусский
- Kenya - English
- Korea - 한국어
- Malaysia - English
- Mexico - Español
- Mongolia - Mонгол
- New Zealand - English
- Netherlands - Nederlands
- Poland - Polski
- Romania - Română
- Russia - Pусский
- Singapore - English
- South Africa - English
- Spain - Español
- Switzerland - Deutsch
- Switzerland - Français
- Switzerland - Italiano
- Switzerland - English
- Thailand - ภาษาไทย
- Turkiye - Türkçe
- Ukraine - Українська
- United Kingdom - English
- Uzbekistan - Pусский
- Uzbekistan - O’zbek
- Vietnam - Tiếng Việt
- Global - English
AI技术正以跨越式创新重塑时代认知边界:从2012年机器视觉突破应用壁垒,到2025年大模型应用元年爆发,技术迭代呈现指数级加速。昇腾AI作为华为全流程AI解决方案,凭借开放的基础软硬件技术栈,聚焦根技术创新,结合业界反馈迭代和演进能力组件,满足开发者创新需求。
异构计算架构CANN:溯源昇腾创新底座
在人工智能技术快速发展的背景下,昇腾AI基础软硬件平台作为华为推出的全栈AI解决方案,正在为行业智能化转型提供强大算力支持。而CANN(Compute Architecture for Neural Networks),作为昇腾AI生态的核心技术架构,扮演着承上启下的关键角色。它不仅向下释放昇腾硬件的并行加速能力,更向上为开发者提供灵活高效的编程接口,成为昇腾AI生态的创新底座(如图1)。

图1:CANN架构图
CANN:昇腾AI生态的技术根基
自2019年首次发布以来,CANN始终聚焦基础能力的构建与完善。针对主流AI开发场景,CANN构建了算子开发、图开发、应用开发三大核心能力,并通过丰富的算子库为AI开发提供坚实的技术支撑。
- 算子开发:CANN推出Ascend C编程语言,通过开放全量基础API和高阶API,大幅降低算子开发门槛;并提供CATLASS模板库,供开发者高效开发昇腾亲和的高性能算子。同时,CANN正在探索基于Tile块的Ascend C++编程新范式,并开放AscendNPU IR,可快速接入Triton、TileLang、FlagTree等多种算子开发语言,支持开发者用Triton开发算子并快速验证其算法;
- 图开发:CANN支持与PyTorch、TensorFlow、MindSpore、PaddlePaddle等主流AI框架无缝对接,并开放GE图开发接口,允许开发者自定义图结构,满足多样化开发需求;
- 应用开发:CANN提供资源管理、媒体数据处理、模型推理等细粒度接口,帮助开发者灵活控制计算调度和内存管理。
目前,CANN已预置1500+基础算子、100+融合算子以及集合通信库,为大模型开发提供了“开箱即用”的能力。这些算子经过深度优化,能够充分发挥昇腾硬件的性能潜力。
全面开源开放,激发AI创新潜能
随着CANN基础能力的广泛应用和AI技术的快速演进,客户对基础软件的开放性、开发体系的效率以及算力利用的极致化提出更高要求。为此,CANN将基于客户实际应用场景,对架构进行全新升级,提供分层解耦、开源开放的昇腾软硬件,助力客户共建繁荣的AI生态系统。
- 全新软件架构,分层解耦,灵活扩展:采用分层解耦设计,实现组件独立演进,为用户提供更多选择;通过插件化机制,开放更完备的细粒度原子化能力,支持用户灵活扩展和深度定制;同时提供稳定的接口,兼容硬件迭代演进,保护客户核心资产;
- 全量代码开源,构建开放生态:将对驱动、运行时、编程语言、基础算子库、集合通信库和图引擎等全量代码进行开源,为开发者拓展更大创新空间。同时将开放编译器和昇腾虚拟指令集,支持开发者更直接地进行硬件编程。
与开发者共建繁荣生态
CANN的快速发展离不开开发者社区的积极参与。近年来,CANN认证开发者数量已突破8000人,在运行时、算子算法、整图优化、加速库等各层级实现了技术创新;累计发展互联网、运营商、金融等行业伙伴50余家,完成330+算子开发,显著提升客户实际业务性能。随着CANN全面开源开放,开发者将能更深入地参与技术共建,孵化更多创新成果。
CANN的持续演进,不仅体现了昇腾AI平台的技术领先性,更展现了华为构建开放AI生态的决心。通过技术创新与开源开放的双轮驱动,CANN正在为AI开发者提供更强大的工具和平台,助力行业智能化转型。在昇腾AI生态的持续发展中,CANN也将继续发挥创新底座的核心作用,携手全球开发者和合作伙伴,共同拓展人工智能技术边界,为千行万业的智能化升级注入新动能。
昇思MindSpore:打造全场景AI框架,共建开发者生态
MindSpore技术架构概览
2020年3月28日,昇思MindSpore框架正式开源。历经5年成长,昇思不仅实现版本持续演进,其技术能力与社区生态也取得蓬勃发展,已然成为中国发展最快的开源AI框架(如图2)。昇思MindSpore旨在弥合AI算法研究与生产部署之间的鸿沟,天然亲和昇腾硬件,具有易开发、高性能、全场景三大特性,突破动静结合、多维混合自动并行、AI+科学计算融合等创新技术,已在大模型、AI for Science、端边云部署等场景取得规模应用。

图2:MindSpore技术架构图
MindSpore南向亲和昇腾,北向生态兼容持续提升易用性
昇思MindSpore依托昇腾亲和设计、图优化与异构加速技术,通过图算融合优化、图下沉执行、多执行流并行等减少内存搬移开销,提升计算并发;结合超节点高带宽优势,以高维张量并行、专家张量并行和异构内存Swap机制,加速MoE大模型、超长序列等场景。
昇思MindSpore内置完善的分布式并行策略,实现大模型训推垂直优化。一方面,通过多维混合并行,创新多流水与多副本等并行策略,减少通信依赖,隐藏通信开销,支持超大集群高性能训练。另一方面,通过训推一体化架构实现训推任务统一优化和调度,全流程加速强化学习。此外,通过DryRun模拟大集群执行,通过自动并行、自动搜索并行策略,1天内可将集群性能调优到专家水平,实现低成本高效率集群调优。
为满足不同开发者在各开发阶段对开发效率和性能的诉求,MindSpore创新动静结合模式,支持动态图和静态图灵活切换、混合执行:在开发阶段用动态图开发和调试,实现快速迭代;在大规模生产阶段通过关键代码编译(JIT)实现昇腾亲和的编译优化,完成高性能执行。昇思MindSpore同时支持AI与科学计算融合编程,实现深度学习和科学计算算法的端到端微分,助力AI for Science领域快速创新。
昇思MindSpore与业界主流开源社区协同共建,积极融入主流AI生态,助力用户实现模型算法平滑迁移以降低开发成本。同时,通过对齐业界大模型API接口,MindSpore已全面支持Megatron、HuggingFace、vLLM、SGLang、OpenCompass等业界开源组件,确保SOTA模型实现0day同步首发与一键部署。
在全场景部署上,昇思MindSpore支持一次开发训练、端边云全场景一致部署:通过统一中间表达层(MindIR)实现模型结构表达与硬件解耦,保障硬件无关优化可复用,且模型可在端、边、云不同设备上无缝部署;支持端侧和云侧大模型协同、端云联邦学习等,已覆盖端侧手机与IoT设备、边缘侧基站与路由设备、云侧服务器等多系列硬件场景。
昇思与开发者共成长
自2020年3月28日开源以来,昇思MindSpore已孵化并支持50多个国内外主流大模型;开源版本累计下载1200万次,覆盖全球130多个国家和地区的2400多个城市;发展超过4万社区核心贡献者,收获11万多行代码合入请求,支撑1700多篇学术论文研究。据Gitee指数2.0度量,其在开源中国AI全领域项目中位居第一,成为国内最具创新活力的AI开源社区。
昇腾加速库MindSpeed:兼容三方生态,场景卓越性能
MindSpeed是昇腾AI为大模型分布式训练量身打造的加速套件,由MindSpeed LLM、MindSpeed MM、MindSpeed RL和MindSpeed Core四大核心组件构成(如图3)。其中,MindSpeed LLM、MindSpeed MM和MindSpeed RL三大套件分别针对大语言模型、多模态模型和强化学习,构建了完备的训练流程,为不同类型的模型训练提供了坚实基础。MindSpeed Core则凭借其丰富的大模型分布式加速算法,不仅支持开源分布式框架的无缝接入,还开放算法二次开发接口,极大地提升了昇腾分布式加速技术的灵活性和易用性,助力开发者快速实现高效训练。

图3:MindSpeed架构图
MindSpeed模型套件
MindSpeed LLM是昇腾AI专为大语言模型(LLM)分布式训练打造的高效加速套件,覆盖业内100多个主流语言大模型。它提供从数据预处理到模型训练、微调以及推理的全流程支持,助力开发者快速构建和优化高性能的语言模型。MindSpeed LLM深度优化了分布式训练架构,通过高效的并行策略和加速算法显著提升了大规模语言模型的训练效率。它支持多种主流的大语言模型架构,并提供灵活的配置选项,满足不同场景的训练需求。此外,MindSpeed LLM还集成了先进的优化技术,确保模型在大规模数据集上的稳定性和收敛速度,帮助用户在短时间内实现高质量的语言模型训练。
MindSpeed MM不仅支持多模态生成与多模态理解任务,更为昇腾硬件量身定制了一站式多模态训练解决方案,覆盖30多个业内主流多模态大模型。它集成业界主流的预置模型、高效的数据工程能力及强大的分布式训练与加速功能,涵盖预训练、微调和在线推理任务的丰富特性,全方位助力用户高效完成多模态模型的开发与部署。
MindSpeed RL是基于昇腾生态的强化学习加速框架,为昇腾硬件合作伙伴提供端到端的强化学习解决方案。它支持超大昇腾集群的训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力,通过优化通信、并行策略、RL训推加速特性,在大规模MoE模型强化学习训练中实现训推共卡、MoE通算掩盖和图模式加速、长序列并行和负载均衡,显著提升资源利用率和吞吐性能。此外,它还支持多种强化学习算法和任务调度策略,助力用户高效开发和部署强化学习模型。
MindSpeed Core亲和加速
MindSpeed是昇腾AI面向大模型分布式训练的加速套件,专为昇腾硬件平台设计。它通过多维度优化技术,大幅提升大模型训练的效率和性能。其核心功能包括:
- 多维并行优化:支持模型并行、专家并行、序列并行等多种并行策略,并针对昇腾软硬件架构进行深度优化,显著提升集群训练性能和效率,为长序列、MoE、多模态、强化学习等应用场景提供并行加速能力;
- 内存优化:提供内存压缩、Gelu重计算、参数副本压缩、内存复用等内存优化技术,最大限度地利用内存资源,有效缓解内存瓶颈;
- 通信优化:采用通算融合、P2P分流并发等策略,减少通信延迟,提高算力利用率;
- 计算优化:集成高性能融合算子库,结合昇腾硬件的计算特性,充分释放算力。
推理软件栈MindIE:兼容三方生态,打造卓越推理性能
昇腾推理场景架构概览
MindIE(Mind Inference Engine,昇腾推理引擎)是昇腾打造的高性能、高易用、高可用、开放兼容的推理引擎(如图4)。它通过分层开放AI能力,支撑用户多样化AI业务需求,使能百模千态,释放昇腾硬件设备算力。该引擎支持多种主流AI框架,提供多层次编程接口,可帮助用户快速构建基于昇腾平台的推理业务。

图4:昇腾推理场景架构概览
从2024年1月起,MindIE LLM、MindIE SD、MindIE Turbo、MindIE Motor等多个套件陆续发布,覆盖大模型推理主流场景,包括文本生成和多模态生成。其中,文本生成场景由MindIE Motor(推理服务)和MindIE LLM(文本生成)两个组件提供;MindIE Turbo组件则承载多个文本生成加速算法,可叠加到MindIE和三方推理框架(如vLLM)上进行文本生成推理加速。多模态生成场景由MindIE SD软件承载,主要包括视图生成、语音生成(构建中)和全模态调度(构建中)。昇腾推理引擎支持请求并发调度、模型多实例并发调度、AutoPD、大EP并行和推理RAS等关键特性,提供基于昇腾架构的亲和加速技术,兼容多种推理服务框架和接口。
文本生成场景
MindIE Motor是面向大模型推理的服务化框架,通过开放、可扩展的推理服务化平台架构提供推理服务化能力,支持对接业界主流推理框架接口,满足大语言模型的高性能推理需求。MindIE Motor提供通用服务化调度加速能力和领先的集群故障容灾调度能力,使能集群化推理,它的关键特性包括:PD分离,即Prefill和Decode分别部署在不同的实例上,以此减少互相干扰,降低时延并提升吞吐;请求路由,即通过负载均衡等核心策略将用户请求路由到不同硬件资源,实现全局负载均衡;提供弹性调度的AutoPD技术,相比静态PD分离性能提升40%;提供集群级RAS自动PD容灾降级、恢复,保障推理集群长稳运行。
MindIE LLM是MindIE下的大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,通过组图和算子优化、多维混合并行,支持128K长序列。主要包括以下特性:
- Multi-Lora特性:使用Multi-Lora执行基础模型和不同LoRA权重的推理;
- Prefix Cache特性:可复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间;
- 大规模专家并行,共享专家外置,负载均衡冗余专家灵活配置;
- 动态EPLB,预测性算法+框架动态调整使能MoE推理场景在线保持均衡;
- Decode异步调度:完全掩盖除去开头结尾+算子下发+Sampling之外的CPU耗时。
多模态生成场景
MindIE SD是MindIE的视图生成推理模型套件,旨在为多模态生成系列大模型推理任务提供在昇腾硬件及其软件栈上的端到端解决方案。该套件软件系统内部集成各功能模块,对外呈现统一编程接口。MindIE SD主要提供多模态生成大模型推理Python API,主要包括以下特性:
- 以存代算:基于相邻采样Step间的激活相似性,提供Cache优化方案,通过减少冗余计算加速推理;
- 并行推理:提供基于VAE、Encoder模块的并行化处理方案,涵盖多种并行策略和方案,如数据并行(Data Parallelism,DP)、流水线并行(Pipeline Parallelism,PP)、张量并行(Tensor Parallelism,TP)、序列并行(Sequence Parallelism,SP)、CFG并行(模型使用“classifier free guidance”时开启,并行度恒为2)等,通过多维混合并行优化多卡通信;
- 低比特量化:提供导出量化权重的接口,支持W8A8、FA等量化方案;
- 可视化:对接WebUI/ComfyUI等主流前端框架,用户可通过调节不同参数快速生成不同效果的图片。
时代在发展,产业在巨变,而创新始终是驱动进步的核心动力。昇腾AI通过开放基础软件栈构建的技术底座,已为自主AI生态打下坚实根基——从CANN的全栈开放能力,到昇思MindSpore的全场景部署支持,再到MindSpeed与MindIE在训练推理环节的优化,每一项技术突破都在降低创新门槛、释放算力潜能。
在这个构建自主AI生态的黄金时期,随着越来越多的企业、高校、科研机构及开发者的加入,人工智能产业将迸发出更加旺盛的创新活力,未来将充满想象与机遇!
- 标签: