本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策

迈向智能世界白皮书

数据存储

数据是数字化到数智化
成功转型的关键要素

AI大模型正加快落入千行万业,推动业务变革与智能化升级。数据的规模、质量和处理效率已成为AI生产力充分释放和发挥价值的关键因素。构建更符合数智化时代要求的数据基础设施,将帮助人类进入一个全新的智能世界。

数据带动数字化和智能化相互加速

  • 金融 完善多源异构海量数据管理,加强数据安全合规建设
  • 运营商 盘活海量数据,助力高效训练,使能大模型行业落地
  • 政务 共建跨部门数据流动,保护敏感数据,助力政通人和
  • 制造 唤醒历史沉睡数据,增强全流程生产效率
  • 电力 加强多维度、高频率数据采集和安全留存,促进电力供需精准预测
  • 科研教育 围绕高性能、可靠安全的数据供应,构筑反向赋智的基石
  • 医疗 打通诊疗数据共享,保护数据安全,维护病患隐私

行业数智化呼唤高质量数据和高效数据处理

  • 数据觉醒
  • 数据生成与合成
  • 数据效率
数据觉醒
  • 数据觉醒是从数字化向智能化演进的必经之路,在模型训练、推理过程中,通过激活业务闲置数据、唤醒历史归档数据,应对数据匮乏的挑战。
  • 为了确保人工智能的持续进化,必须聚焦于高质量训练数据的收集和管理。
数据生成与合成
  • 通过数据生成与合成,让数据为数智化而生,有效帮助AI大模型高速发展。
  • 数据生成:从数据生成/采集的现场、格式、频率,到业务全流程数据和面向未来的数据留存周期五个维度,探索如何生成、采集、留存更多高质量数据供AI使用。
  • 数据合成:合成数据是对真实原始数据的有益补充,可以应对数据稀缺、隐私保护等关键挑战。
数据效率
  • 数智时代,数据存储需要从极致性能、高扩展性、数据韧性、数据编织、全新数据范式、绿色节能六个维度不断优化,才能充分提升数据处理效率,释放数据生产力。

数智化时代数据基础设施展望与建议

  • 基于存算分离架构的AI-Ready 数据基础设施
  • 全闪存助力高效数据处理
  • 存储内生安全成为基本需求
  • AI数据湖使能数据可视可管可用
  • 训/推一体机加速AI大模型落地行业应用
展望解读

以存算分离架构部署AI-Ready数据基础设施,加速智能涌现。

AI大模型从NLP走向多模态,数据规模持续增长,数据类型日趋复杂。同时,伴随AI大模型算力集群规模越来越大,算力利用率持续降低。数据存力成为AI 持续高速增长的关键。

通用大模型的数据质量和规模不佳、缺少行业实时信息等问题,让AI推理过程中容易产生AI幻觉。

建议举措

1采用存算分离架构,分别部署智能算力和存力,各自按需演进

2数据基础设施具备横向扩展能力,性能随容量线性增长

3数据基础设施支持多协议,且协议之间互通

展望解读

多源、异构、海量数据的预处理日趋复杂,传统数据管理走向综合数据治理,更加强调对数据的全生命周期管理,如整合、清洗、标注、保护、合规处理与价值挖掘。

更大规模的算力要求数据存储提供更高性能的数据访问能力。

AI 技术逐步融入金融交易、自动驾驶、智能制造等行业,数据实时处理能力正逐渐成为多种业务不可或缺的基础需求。

建议举措

1构建以数据综合治理为目的的数据基础设施,实现数据快速归集和汇聚,并通过专业的数据预处理工具链,从海量数据中高效提取所需的训练数据。

2通过全闪存存储和合向量RAG、长上下文记忆存储等语义创新为算力高效提供数据。

3统一数据基础设施平台,实现数据高效流转

展望解读

构建防治结合的数据安全体系

智能化升级过程中产生越来越多高价值业务数据,而备份窗口有限,这迫切呼唤更强的备份能力,更先进的备份介质和架构。

同时,AI降低了勒索攻击的门槛,全面数据保护刻不容缓

建议举措

1建设全闪存备份存储,提升备份效率

2通过存储、网络等基础设施的结合,建设多层防勒索,从被动走向主动,防治结合

展望解读

“缺数据,不AI”,数据逐渐成为AI领域差异化竞争力的核心。

数据资产管理成为企业开展AI实践的关键前提。

从训练走向推理,让AI进入千行万业已经成为业界共识,善于应用AI的企业将从竞争中脱颖而出。

建议举措

1建立统一AI数据湖,实现数据资产可视、可管、可用

2面向训练,选择专业AI存储,提升算力利用率,最大化AI投资效率

3面向推理,采用RAG、KV-Cache等技术,提升大模型推理性能和准确度

4利用容灾、备份、防勒索等手段,加强数据分类分级保护

5增加AI人才培养机制,积极开展AI大模型实践

展望解读

AI 大模型正处在探索期,对于企业或研究机构而言,其投资回报面临巨大挑战。

数据质量参差不齐,导致数据准备消耗了大量时间和精力。在基础设施部署阶段,企业和研究机构还面临硬件选型难、交付周期长、运维成本高等困难。

此外,大模型幻觉严重,推理准确度往往无法满足业务需求。

数据安全也缺乏保证,模型等核心数据资产存在易泄露的风险。

建议举措

1通过预集成数据预处理工具链,快速生成高质量训练数据集

2部署全栈预集成训/推一体机用于大模型行业落地

3利用RAG知识库,消除幻觉实现精准推理