趋势洞察
数据觉醒,构建 AI-Ready领先数据基础设施
华为全新 AI 存储,是企业在数智时代的强劲引擎,释放先进数据存力,铸就数智时代根基。
文/华为数据存储产品线总裁 周跃峰
身处数据智能时代,我们目睹三个至关重要的技术正引领行业的变革。它们分别是AI大模型,具身智能,以及科技人工智能。这三项技术都高度依赖数据,并由数据驱动。大型AI模型利用数据深入洞察物理世界,并将其转化为庞大的数据宇宙,而具身智能则利用数据的能力,对物理世界进行改造和升级,推动其向更高层次发展。
图1:华为数据存储产品线总裁 周跃峰
数智时代是数据的黄金时代
我们共同见证AI技术的飞速发展和技术革新,也正在亲历数据规模每两年翻一番的爆炸式增长。如何去挖掘并验证海量数据的价值?答案是结合AI技术与数据的强大力量,去探索和理解微观物理世界的秘密。
以医疗领域为例,病理医生依靠传统方式进行病理分析,效率非常低。更为严峻的是,当前病理医生数量严重不足,在中国仅有2万名病理学医生,对于庞大的医疗行业来说这无疑是远远不够的。然而,数字病理解决方案的出现,通过数字化的阅片方式,病理医生工作效率得到了显著提高,甚至达到原来的3倍之多。不仅如此,现在人们开始使用大语言模型去理解病理背后的原理,并实现自动阅片。这仅是通过利用数据改变行业应用的一个缩影,伴随AI技术的继续发展向前,数据所蕴含的价值还将被不断发掘,创造更多可能。
AI时代,IT基础设施如何变革
数智时代面向AI的IT基础设施和传统IT基础设施之间的差异已经愈发明显,面临着诸多挑战。
首先是规模定律(Scaling Law),Scaling Law是AI研究中的一个重要概念,它描述了随着模型规模的增加(包括参数数量、数据规模和计算资源),模型的性能也会相应提高。这一发现促使企业们投入更多的资源来构建更大规模的模型,以期获得更好的性能。然而xPU和存储之间存在鸿沟,即存储和xPU之间需要超大带宽,这是亟需采取行动去解决的关键问题。
其次,AI集群的可用性问题也不容忽视,伴随AI集群规模的扩大,故障率也随之变高,目前世界上千卡以上的AI集群可用度往往不足50%。这意味着,即使我们不断增加GPU、NPU的数量,其利用率却呈反比降低。对于投资成本高昂的AI集群来说,超过一半的算力资源闲置将是极大的能源与投入浪费。
再者,长上下文的普遍性也给我们带来新启发与挑战。如果我们希望机器能像人类一样进行逻辑性的思考,那么如何更好处理长上下文是一个必须应对的问题。长序列的干扰会让系统更加复杂,导致推理时延增加与单卡吞吐量降低。
因而与传统存储相比,AI时代的存储系统设计需要考虑更多的要素。过去,主要是通过数据存储的性能、容量及可靠性三个维度的优化来不断提升数据效率;面向未来,数智时代还需增加数据范式、绿色节能与数据编织三个新的维度提升,才能充分提升数据效率、释放数据生产力。
图2:AI时代存储
全新OceanStor AI存储,全面使能AI大模型训练和推理
在实现高性能AI存储的道路上,华为研发团队今年成功推出专为AI应用设计的新一代OceanStor AI存储,在多项能力上取得突破。
第一、数据编织。数据资产能够被高效利用的前提,是实现数据资产的可视、可管、可用。数据编织,就是能够实现可以随时随地使用任何数据。即通过数据资产的统一视图,实现跨域、跨站点、跨厂家等复杂数据的全局可视、实时更新。实现跨域数据按需缓存加速,温热数据自动分层,数据调度效率提升3倍。
第二、数据韧性。随着数据价值的不断提升,需要系列措施来保护数据的完整性和可用性。一方面体现在通过专业存储设备在架构、节点冗余设计等方面的可靠性,构筑多级的安全可靠机制,实现99.9999%高可用性,不必担心因数据的问题影响AI业务运行;同时针对日益增加的数据勒索风险,内置勒索攻击检测功能,对勒索病毒检测率提升至99.99%,打造立体化的防勒索解决方案,形成一个完整的防御体系,确保数据的安全。
第三、绿色节能。节能减排是社会持续发展的基础。到2026年,全球数据中心的耗电量预计将达到2022年的2.3倍,其中数据中心一半以上的电力消耗都将被AI占据。存储作为数据的载体,随着数据量的增加,单位数据存储的能耗优化改进是产业发展的必然需求。通过存储介质应用创新和整机硬件创新,华为OceanStor A800存储实现每单元容纳超过1PB容量,且每TB能耗不到1瓦特。
第四、极致性能。全新OceanStor A800 AI存储单台设备带宽超过500GB,IOPS可达到2400万。在近期全球最权威、影响力最广的AI基准测试MLPERFTM的Storage V1.0 AI基准测试中,该存储产品在总性能、每节点性能、每U性能均为全球第一。为了打造更强性能,OceanStor A800 AI存储采用业界领先的数控分离对等架构存储系统,重定义存储软硬件系统;存算联动NDS(NPU直通存储),突破访问瓶颈,数据加载速度提升五倍以上,显著提升训练集群可用度。此外,OceanStor A800也是业界唯一单存储支持十万卡的产品,集群可达到百亿IOPS与数百TB带宽。
第五、高扩展性。AI时代,企业数据的留存率越来越高,所需存储容量要求更高。OceanStor A800 AI存储支持十万卡集群,可横向扩展2048个控制器,支持EB级的容量扩展。同时它可以加入更多的DPU和控制器,使得整个体系进行灵活扩展。
第六、新数据范式。OceanStor A800 AI存储具备实时张量支持,长序列支持和检索增强等功能,具有长记忆的新范式。其把企业最新垂直化的数据进行向量化存储和检索,大幅度降低企业接入和使用AI大模型的难度。使能多维“张量”格式的数据,通过智能检索引擎,具备快速的张量数据检索能力。另外,基于多层KV-Cache 实现长记忆存储,通过以查代算、推理过程数据在推理集群内共享等方式,减少推理算力的压力,进而有效支持千万Token 长度的无损超长序列, Token时延降低78%,单卡吞吐提升67%,全面提升推理效率和精度。
OceanStor A800是完全对称的集群式AI存储,单套存储设备可支持10万卡级集群全互联,通过构建前端网卡全共享、控制器与后端SSD盘全互联的技术架构。一套OceanStor A800 存储最多可实现与19.2万卡训练集群的静态全连接,性能提升40%,空间占用降低80%。
在企业进行AI训练过程中,常常会面临由于主动调优或故障导致训练的频繁中断。据统计,AI训练中心持续训练的时间最长仅为2.6天,导致GPU/NPU必须反复保存Checkpoint数据。中国移动将华为AI存储用于大模型训练,以存强算,实现150PB单存储集群、8TB/s带宽和2.3亿IOPS的能力,端到端训练效率提升5%,为后续更大规模大模型训练提供有力支撑。
以存代算,长记忆存储大幅提升推理体验
相较于大模型训练阶段,AI推理构成了企业AI应用实现商业变现的先决条件,长上下文处理无疑是未来推理技术发展的主流趋势。面对多样化的信息来源,AI系统需要整合多元数据来进行多维度推理,这会大幅提高AI系统的成本和复杂度。为此,从数据存储的角度来进行解题,是一个新颖的创新方向。在华为的AI存储中就集成了名为“长记忆”的技术。
想象一下,当人进行思考的时候,尤其是深度慢思考的时候,我们的大脑并非从头开始,有时我们会依赖长期记忆中存储的信息进行回顾辅助思考。当前AI推理场景的KV-Cache仅在内存中临时保存,由于容量成本限制,仅能实现秒级、分钟级的短记忆,在面对多轮对话、长上下文场景,推理过程中产生的KV-Cache存不下问题更为突出,急需解决KV-Cache全局共享和推理记忆持久化问题。受此启发,我们在存储器架构中,分别设置了多层KV-Cache,包括第一层近xPU高速缓存、第二层DRAM缓存,以及第三层SSD长记忆存储。这一多层次架构的优势在于,它允许系统不必每次从头计算,当系统识别到某项计算任务之前已经执行过时,便会直接从“记忆”中调取结果,而非在整个系统中重复计算,从而极大地提高了效率。
通过这样的架构,我们能真正提高用户体验,还能增强计算结果的准确性和推理的精确性,这将大大改善客户体验,更重要的是能够减少每一个token所带来的成本,提升推理性价比,这一点尤其重要。
存储的发展一直由应用需求推动,从早期的数据库存储,到互联网时代的网络附加存储(NAS),再到大数据时代分布式存储对Hadoop等系统的支持,每一次应用革新都伴随着存储技术的进步。如今,随着AI成为绝对主流应用,我们坚信AI存储在新技术和创新理念的双重加持下,得以展现其巨大潜力,支持千行万业发挥AI强大的功能,持续创造价值。
AI正引领我们迈向变革性的存储新时代,我们期待通过这种前沿的AI存储方案,并与业界同仁共同努力,为数智化时代贡献力量!