1
0
FP8训练新范式:减少40%显存占用,训练速度提高1.4倍
近期 DeepSeek V3 引爆国内外的社交媒体,他们在训练中成功应用了 FP8 精度,显著降低了 GPU 内存使用和计算开销。这表明,FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。 近期,来自伯克利,英伟达,MIT 和清华的研究者们提出了显存高效的 FP8 训练方法:COAT(
0
32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理
新智元报道 编辑:桃子好困 【新智元导读】32B 小模型在超硬核「时间线索」推理谜题中,一举击败了 o1、o3-mini、DeepSeek-R1,核心秘密武器便是 GRPO,最关键的是训练成本暴降 100 倍。 用上 DeepSeek 核心算法,也能击败 R1。 在具有挑战性的「时间线索」(Temp
0
AI虚拟老婆来了?IDG独投数千万,米哈游逆熵AI掌舵人出手4D「数身智能」
新智元报道 编辑:编辑部 HYZ 就在刚刚,上海半图科技完成数千万人民币天使轮融资,IDG 资本独家领投!这支汇集了米哈游、字节、叠纸人才的创始团队,在 AI 游戏,3D 技术,虚拟偶像等领域有着绝对丰富的经验,让我们期待这家公司的第一个 AI 虚拟角色吧。 近日,上海半图科技(SemiGraph)