微软Azure上的PyTorch等AI研发。在Build 2022大会上,微软和Meta共同宣布Meta将在Azure云计算中部署AI应用,包括扩展机器学习框架PyTorch的实现。
首先,Meta AI部门将使用独占的Azure集群来执行大规模的AI研究任务。该集群使用NDm A100 v4系列虚拟机,执行5400个NVIDIA A100TensorCore 80GB GPUs,每个VM的互连带宽达到1.6 TB/s,继去年展示成果后,将再次承担Meta的部分大规模AI研究任务。
2021年,Meta首次将一些大规模的AI研究放在使用A100张量核80GB GPU的Azure VM上。微软声称,在这种环境下,每个VM之间的GPU到GPU带宽是其他公有云企业的4倍,可用于分布式AI训练。比如Meta用它来训练OPT-175B语言模型。微软还强调NDm A100v4 VM具有设置的灵活性,可以自动适应任意规模的集群,可以从几个GPU动态扩展到几千个,并且可以在实验中暂停和恢复。今年,Meta AI团队将使用Azure执行更多的机器学习训练任务。
此外,Meta还计划在Azure服务上扩大微软PyTorch的使用。PyTazurewaveorch是一个开源的Python机器学习框架。Azure将为PyTorch用户提供N爱的理想生活Dv4和InfiniBand硬件以及完整的软件栈。在接下来爱情和战争的爱情公寓几个月里,微软计划建立一个新的PyTorc哎组词h开发加速器,以便更容易地在Azurmeta是什么意思e上部署PyTorch框架。
此外,微软还表示将提供PyTorch支持,帮助Meta或其他客户和合作伙伴在公共云和边缘设备上部azuredevops署PyTorch模型。