微软公司今天预览了一个用于培训人工智能模型的新Azure实例,该实例针对的是由OpenAI之类开拓的新兴的高级超大型神经网络。
该实例被称为ND A100 v4,被Microsoft吹捧为迄今为止最强大的AI优化虚拟机。
ND A100 v4旨在应对AI发展中的重要新趋势。工程师通常会为他们想要自动化的每个用例开发一个单独的机器学习模型,但是最近,已经开始转向构建一个大型的多用途模型并针对多个用例进行自定义。这种AI的一个著名例子是OpenAI研究小组的 GPT-3模型,该模型的1,750亿学习参数使其能够执行各种任务,例如搜索网络和编写代码。
微软是OpenAI的顶级企业支持者之一。该公司还内部采用了多用途AI方法,在今天的实例公告中披露,此类大型AI模型用于支持Bing和Outlook的功能。
ND A100 v4旨在通过每个实例提供八个Nvidia Corp.最新的A100图形处理单元来帮助其他公司训练自己的超大型神经网络。客户可以将多个ND A100 v4实例链接在一起,以创建具有多达“数千”个GPU的AI培训集群。
微软没有具体说明支持多少个GPU。但是,即使在可能范围的低端,假设一个图形卡数在四个低位的集群,其性能可能也不会落后于小型超级计算机。今年早些时候,微软 为OpenAI构建了Azure集群,该集群被评为全球排名前五的超级计算机之一,并且该集群拥有10,000个GPU。
在新的ND A100 v4实例中,促进将GPU群集在一起的能力是每个芯片专用的每秒200 Gb InfiniBand网络链路配置。这些连接允许图形卡在各个实例之间进行通信。GPU共享数据的速度是它们处理数据的速度的重要因素,微软表示其ND A100 v4 VM提供的GPU到GPU带宽是任何其他主要公共云的16倍。
InfiniBand连接由Nvidia的Mellanox单元提供的网络设备提供动力。为了支持八个板载GPU,新实例还包含了Advanced Micro Devices Inc.的第二代Epyc系列服务器处理器的中央处理器。
最终结果是该公司形容为AI培训绩效的巨大飞跃。Azure的高级项目经理Ian Finder在博客中写道:“与上一代基于Nvidia V100 GPU的系统相比,无需进行任何工程工作,大多数客户将立即看到2到3倍的计算性能提升,” Azure的高级项目经理Ian Finder在博客中写道。他补充说,在某些情况下,某些客户可能会看到性能提高多达20倍。
微软决定使用英伟达(Nvidia)芯片和Mellanox设备为实例提供动力,这表明芯片制造商已经从其以69亿美元收购Mellanox的交易中获利,该交易于今年完成。微软自己在AI和相关技术上的投资也帮助它赢得了客户。新的AI实例今天首次亮相之前,星期二宣布美国能源部已与该技术巨头合作在Azure上开发AI灾难响应工具。
ND A100 v4当前处于预览状态。