谷歌 DeepMind 推出解耦式 DiLoCo：提升异步训练架构，容忍硬件故障

谷歌 DeepMind 最近推出了名为 “解耦式 DiLoCo” 的新型分布式训练架构，这一创新旨在提高大规模人工智能模型的训练效率，并增强其在硬件故障情况下的鲁棒性。传统的训练方式需要所有计算单元在进行梯度更新时进行紧密同步，这使得整个过程容易受到单个硬件故障的影响。为了解决这一问题，解耦式 DiLoCo 将训练过程分散到多个异步、故障隔离的 “计算孤…