快科技6月28日消息,今天,机器学习与人工智能开放产业联盟MLCommons公布了AI性能基准测试MLPerf Training 3.0的结果,Intel旗下的Habana Gaudi2深度学习加速器、第四代至强可扩展处理器联合,展现出了优秀的性能。
(资料图片)
可以说,Intel这套组合已经成为唯一能够可靠取代NVIDIA GPU的方案。
MLPerf是目前最具信服力的AI性能测试基准,能够在各种解决方案之间进行公平、可重复的性能比较。
目前,Intel已经拥有超过100次的MLPerf性能测试结果,而且是唯一一个使用行业标准的深度学习生态系统软件,并公开提交CPU结果的厂商。
根据业内当前的普遍观点,生成式AI和大语言模型(LLM)只适合在高性能GPU上运行,但最新数据显示,基于Intel CPU、加速器的组合方案,同样有着极高的效率,而且是开放生态环境,效率与规模不受限制,从而为客户提供极具竞争力的选择。
其中,第四代可扩展至强内置的各种加速器,使其成为在通用CPU处理器上运行大量AI工作负载的理想解决方案,Gaudi则在生成式AI、LLM方面有着优秀的性能,此外Intel还提供了经过优化的、易于编程的开放软件,降低AI部署门槛。
Habana Gaudi2夹层卡
最新的MLPerf 3.0测试结果显示,面对要求极为苛刻的、1750亿参数的GPT-3模型,Habana Gaudi2的性能非常出色,可扩展性也非常灵活:
1、384个加速器上的训练时间仅为311.9分钟——512个NVIDIA H100加速器需要64.3分钟。
2、256个加速器到384个加速器,性能扩展95%,接近线性提升。
3、在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器),以及自然语言处理模型BERT(8个和64个加速器)上,都取得了优异的训练结果。
4、与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%、4%。
5、支持“开箱即用”,客户在本地或在云端使用Gaudi2时,可以获得与本次测试相当的性能结果。
值得一提的是,Gaudi2是仅有的两个向GPT-3大模型训练基准提交性能结果的解决方案之一。
软件层面,本次提交的GPT-3模型基于PyTorch,并采用了当前流行的、隶属微软大规模AI的DeepSpeed优化库,而非定制软件。
DeepSpeed能够同时支持Data、Tensor、Pipeline的三维并行,进一步优化了大语言模型的扩展性能效率。
本次MLPerf 3.0的Gaudi2结果以BF16数据类型提交,在四种不同模型上的性能均优于NVIDIA A100,价格更便宜。
第三季度还会发布对FP8数据类型的软件支持与新功能,预计届时Gaudi2的性能将有明显飞跃,预计性价比将超越NVIDIA H100。
Intel可扩展至强则是向MLPerf 3.0提交的众多解决方案中,唯一基于CPU通用处理器的,也支持“开箱即用”,即在通用系统上部署AI。
MLPerf 3.0四代可扩展至强测试的亮点有:
1、在封闭区,47.93分钟的训练时间即可完成BERT模型,88.17分钟即可完成ResNet-50模型。
2、多节点扩展可以实现几乎线性的性能提升,可达97-100%。
3、BERT模型的开放区扩展至16个节点时,31.06分钟即可完成模型训练。
4、对于较大的RetinaNet模型,16个节点上的训练时间仅为232分钟。
5、基于Intel AMX高级矩阵扩展,可提供显著的“开箱即用”性能提升,覆盖多个框架、端到端数据科学工具,以及广泛的智能解决方案生态系统。
Intel还对比了至强铂金8480+、NVIDIA A100使用不同数据集完成HuggingFace Distilbert模型的结果,分别只需3.61分钟、0.7分钟。
虽然相比对手的1.49分钟、0.45分钟还有差距,但速度已经相当快,尤其是作为通用CPU对比专用GPU达到如此程度,实属不易,这都得益于Intel良好、深入的系统优化。
关键词: