0
1
LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升
新智元报道 编辑:英智 本研究提出了一种创新的自回归搜索方法,通过两阶段训练框架,小规模格式调优和大规模自我优化,开发出了 Satori,一个在数学推理和跨领域任务中均表现优异的 7B 参数模型。Satori 通过自我反思和探索策略,展现了强大的迁移能力和自我纠错能力。 OpenAI o1 发布后,