0
0
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
新智元报道 编辑:LRS DIAMOND 是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在 Atari 100k 基准测试中,DIAMOND 的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进行决策的能力。 环境生成模型(gene
> 返回新闻首页