0
0
LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention
新智元报道 编辑:LRS 吞吐量上不去有可能是内存背锅!无需修改模型架构,减少内存浪费就能提高吞吐量! 虽然大型语言模型(LLM)的性能表现足够惊艳,但每次接收用户请求时都需要耗费大量显存和计算资源,一旦请求数量超出预期,就极有可能面临 ChatGPT 刚发布时的宕机、排队、高延迟等窘境。 想要打造