0
0
DeepSeek-R1秘籍大迁移,只需原始数据0.3% | 邱锡鹏团队联合出品
DeepSeek-R1 背后关键——多头潜在注意力机制(MLA),现在也能轻松移植到其他模型了! 而且只需原始数据的 0.3%~0.6%。 这项研究由复旦大学、华东师范大学、上海 AI Lab 等联合提出,复旦教授邱锡鹏(Moss 大模型项目负责人)也在作者名单之列。 他们提出了 MHA2MLA 这
> 返回新闻首页