0
0
预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队
丰色发自凹非寺 量子位公众号 QbitAI 小羊驼团队的新研究火了。 他们开发了一种新的解码算法,可以让模型预测 100 个 token 数的速度提高 1.5-2.3 倍,进而加速 LLM 推理。 比如这是同一个模型(LLaMa-2-Chat 7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他