谷歌 DeepMind 推出解耦式 DiLoCo:提升异步训练架构,容忍硬件故障谷歌 DeepMind 最近推出了名为 “解耦式 DiLoCo” 的新型分布式训练架构,这一创新旨在提高大规模人工智能模型的训练效率,并增强其在硬件故障情况下的鲁棒性。 传统的训练方式需要所有计算单元在进行梯度更新时进行紧密同步,这使得整个过程容易受到单个硬件故障的影响。为了解决这一问题,解耦式 DiLoCo 将训练过程分散到多个异步、故障隔离的 “计算孤…