日志

京存SAN共享存储助力大模型训练

已有 191 次阅读| 2024-3-20 14:29 |个人分类:芯片设计|系统分类:芯片设计| SAN共享存储

大模型 Large Model是如今炙手可热的概念，它更准确的描述是参数非常多的机器学习模型 Machine Leaming Model。Large作为形容词的意思是大型的、非常多的，那么究竟多少参数才能算“非常多的”呢？在机器学习模型的早期，拥有几M到几十M参数即可被认为是大模型，如今至少拥有几B参数的机器学习模型才可称之为大模型。

商业大模型的应用，大致分为以下的流程：

1、机器学习模型设计或选型。

2、存-传-算硬件选型。

3、准备数据、投喂数据进行正式的训练，并根据实际输出反复调整参数，直到达到预期输出。

4、商业部署。

训练的过程中，根据机器学习模型的技术架构既可以有人工参与也可以没有人工参与。在有人工参与的商业大模型公司中甚至催生了一个“人工智能训练师”的职业。

大模型参数多寡和大模型准确率（智能）之间没有一个确切的比率，但是有研究表明参数多到一定程度，会有涌现 Emergence这种现象的发生。如果您了解过复杂系统 Complex Systems这门学科，或者通俗来讲量变产生质变就能大致描述涌现。ChatGPT是最火爆的一款商业自然语言大模型，它的出现令人机交互产生了次元的提升。反观GPT模型的发展历程，GPT-1模型并没有表现出如此的神勇，它拥有117M参数。但OpenAI公司坚持生成式预训练的技术路线，从GPT-2模型慢慢显露出了超越预期的能力，它拥有1.5B的参数。这个发现让OpenAI公司增强了信心，并持续投入，直到175B参数的GPT-3诞生。现在已经演进到GPT-4，它拥有1800B参数，从实际表现看真的是越来越“聪明”了。

可见，参数的绝对数量确实影响到了最终的输出结果，这也是大模型的魅力。在这种情况下，参数的数量尤为重要，我们需要更多的参数。那么如此多的参数，意味着海量的数据需要被存-传-算。

大模型训练中有海量的小文件需要被读取和传输，对存储后端不仅要求IOPS高，因为巨量的文件并行传输，高带宽也是必要的。

针对这种难题，京存现在推出SAN共享存储。此系列存储可满足大模型集群训练需要，它拥有三大特点：

一、高性能：采用固态机械混合架构智能分层，可将热数据自动迁移到固态池中，同时采用机械硬盘池进行归档。IOPS单机可到3300K，同时带宽可达50GB/s。

二、高连接：支持40G-400G IB连接。RDMA延迟小，文件高速传输无压力。

三、高共享：支持SAN共享+文件共享，两种模式互联互通，可实现SAN共享和文件共享相互读写。