ИИ-хранилище Huawei заняло первое место по производительности в бенчмарках AI 2024 MLPERF™
MLCommons, ведущий мировой эксперт в области бенчмарков искусственного интеллекта, оценил новую систему хранения данных OceanStor A800 AI Storage компании Huawei как лучшую в мире в своем престижном ежегодном тесте производительности.
награда
Бенчмарки MLPERF представляют собой стандартизированную тестовую платформу для измерения производительности аппаратного, программного и сервисного обеспечения ИИ. Эти эталоны были совместно разработаны лауреатом премии Тьюринга Дэвидом Паттерсоном, компанией Google, Стэнфордским университетом, Гарвардским университетом и другими ведущими предприятиями и академическими институтами. Эталоны MLPERF считаются наиболее авторитетными и влиятельными в мире эталонами производительности ИИ.
В этом году в тестах MLPERF Storage оценивалась производительность 13 основных вендоров. Программа распределенного тренировочного теста имитировала вычислительные процессы на GPU и воспроизводила модель, в которой серверы ИИ максимально использовали доступ к системе хранения данных. Подобные симуляции позволяют измерить максимальное количество GPU, поддерживаемых системой хранения ИИ, что отражает общую производительность хранилища.
Эталон MLPERF Storage для рабочей нагрузки 3D U-Net соответствует отраслевым тенденциям для мультимодальных моделей и требует максимальной пропускной способности системы хранения данных. Он обеспечивает более полную и точную оценку производительности систем хранения данных в крупномасштабных кластерах ИИ. Рабочая нагрузка 3D U-Net предполагает самую высокую пропускную способность хранилища в расчете на FLOPS и требует, чтобы данные считывались непосредственно с узлов хранения, а не кэшировались на хостах заранее. Это отражает реальную производительность системы хранения данных и опыт работы с крупными моделями ИИ.
Huawei OceanStor A800 занял первое место в этом тесте производительности ИИ-хранилища, успешно удовлетворив требования 255 GPU к пропускной способности данных с помощью всего одной системы хранения. Использование GPU в этом решении превысило 90 %, а пропускная способность корпуса с одним контроллером составила 679 ГБ/с - в десять раз больше, чем у обычных систем хранения.
Кроме того, OceanStor A800 обеспечивает пропускную способность на уровне 100 ТБ/с за счет расширения масштаба, что позволяет сократить время чтения/записи данных контрольных точек с десяти минут до нескольких секунд. Время, необходимое для возобновления обучения, составляет менее 15 минут. Это позволяет минимизировать время ожидания GPU, повысить коэффициент использования вычислительной мощности более чем на 30 % и всесторонне повысить эффективность обучения больших моделей ИИ.
Компания Huawei Data Storage впервые приняла участие в эталонном тестировании MLPERF Storage v1.0.
Команда Huawei Data Storage заявила о своей приверженности инновациям и о том, что новое хранилище OceanStor A серии AI было специально разработано для гибридных рабочих нагрузок в сценариях AI. В нем используется ведущая в отрасли архитектура, обеспечивающая совершенно новое оборудование, отличную производительность, масштабируемость на уровне EB и возможности долгосрочной памяти для выводов. Их цель - всестороннее ускорение процессов обучения и вывода больших моделей ИИ.
В будущем команда Huawei по хранению данных планирует и дальше продвигаться в области больших моделей ИИ, постоянно расширяя границы производительности и идя в ногу с развивающимся ландшафтом данных, чтобы сформировать будущее данных.