0
0
收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架 | NeurIPS 2024
新智元报道 编辑:LRST 【新智元导读】华中科技大学的研究人员提出了 MoE Jetpack 框架,通 Checkpoint Recycling 方法和 SpheroMoE 结构,将密集激活模型的预训练权重微调为混合专家(MoE)模型,从而免去了 MoE 模型的预训练过程,大幅提升了 MoE 在下