中国移动发布“芯合”异构混合并行训练系统1.0

发布时间:2024-12-16

11月30日,在2024中国信息通信大会“算力网络算网一体创新发展论坛”上,中国移动研究院携手天数智芯、壁仞科技、中兴、海光、瀚博等产业合作伙伴,联合发布了“芯合”异构混合并行训练系统1.0。

“芯合”异构混合并行训练系统具备基于非均匀计算任务切分ITD(Inhomogeneous Task Distribution)算法的3D并行策略和基于GDR(GPU Direct RDMA)的异构芯片高速通信两大核心能力。其中,基于ITD算法的3D并行技术可通过通用混合训练框架实现异构数据并行、异构流水线并行,实现数据微批次大小、数量、流水线并行度等参数在异构算力上的自适应调整;基于GDR的异构芯片高速通信技术可在不改变芯片原有通信接口基础上,通过定义数据传输架构、流程及接口标准,屏蔽底层硬件差异,实现顶层训练任务在异构算力集群上分布式通信的无感拆解。当前,系统已实现百亿参数大模型在英伟达、天数智芯、壁仞科技、海光等4家智算芯片上的交叉混合训练,规模可支持万卡集群,训练加速比达95%以上。

来源:中国移动研究院