今天早上部署了vLLM v0.16.0,传说是真的。

2026年2月,vLLM 迎来了 v0.16.0 版本。这次更新最值得关注的不是又新增了多少模型支持,而是一个底层架构的质变——Async Scheduling(异步调度)与 Pipeline Parallelism(流水线并行)的完全整合

根据官方数据,这一改进带来了惊人的性能提升:
📈 端到端吞吐量提升 30.8%
⏱️ 每个输出 Token 的耗时(TPOT)降低 31.8%

对于在生产环境跑大模型推理的同学来说,这意味着:同样的硬件能服务更多用户,同样的并发下用户等待时间更短。是不是很心动?那我们就来拆解一下,这 30% 的性能提升到底从哪来。


一、先理解痛点:传统流水线并行为什么会有“空转”?

当模型大到一张显卡放不下时,我们会用 Pipeline Parallelism(流水线并行)——把模型按层切分,不同层放到不同 GPU 上,像工厂流水线一样处理请求。

传统方式的问题在于:调度是同步的。
Scheduler 必须等前一阶段完全执行完,才能调度下一阶段。这就导致了 GPU 的空闲等待,这种空闲时间被称为 Pipeline Bubble(流水线气泡)。就像流水线上一个工位慢了,后面全得等着。


二、Async Scheduling:让调度“异步”起来,填满每一个气泡

v0.16.0 的核心改进就是 Async Scheduling(异步调度)
简单说,就是让 Scheduler 不再死等前一阶段完成,而是可以“预判”和“预调度”,提前把后续任务塞进队列。

我们来看一个对比:

传统流水线并行:

text

GPU 0: [请求A层1-10] -> 等待 -> [请求B层1-10] -> 等待 -> ...  
GPU 1: 等待 -> [请求A层11-20] -> 等待 -> [请求B层11-20] -> ...  

Async + PP(新版本):

text

GPU 0: [请求A层1-10] -> [请求B层1-10] -> [请求C层1-10] -> ...  
GPU 1: 等待 -> [请求A层11-20] -> [请求B层11-20] -> ...  
                ↑ 这里的等待被压缩到最小

关键点在于:Scheduler 可以在一个请求的前一阶段还在执行时,就提前把后续阶段加入调度队列。
这样一来,GPU 间的数据传输和计算高度重叠,气泡被填满,整体吞吐自然就上去了。


三、30% 性能提升,到底从哪来?

1. 大幅减少 Pipeline Bubble

传统流水线并行的气泡占比可能高达 30%~50%。异步调度通过预调度和执行重叠,把这个比例压到了最低——硬件利用率自然飙升。

2. 更聪明的内存管理

异步调度需要更精细的内存控制。vLLM 独有的 PagedAttention 技术在这里发挥了关键作用:
细粒度的 KV Cache 管理,让异步调度可以灵活分配和回收显存,避免了内存碎片和等待。

3. TPOT 降低,用户体验直接提升

TPOT(每个输出 Token 的耗时)降低 31.8%,意味着用户感受到的延迟大幅缩短。对于实时性要求高的应用(如聊天机器人、代码补全),这个改进可以说是质的飞跃。


四、如何启用?升级就完事了!

好消息是:如果你已经在使用 Pipeline Parallelism,升级到 v0.16.0 后,这个优化是默认开启的!

你的启动参数完全不用改,比如原来是这样启动的:

bash

vllm serve meta-llama/Llama-2-70b \
    --pipeline-parallel-size 4 \
    --tensor-parallel-size 2

升级后,vLLM 会自动检测并启用 Async Scheduling,无需额外配置。


五、除了性能,还有哪些值得关注的亮点?

✨ Realtime API:支持 WebSocket 音频流,基于 Voxtral 架构,为实时交互应用打开想象空间。
✨ RLHF 优化:包括 NCCL 权重同步、层级别重载、引擎暂停/恢复,让强化学习训练更顺畅。
✨ Speculative Decoding:统一并行草稿,支持结构化输出,推理速度进一步提升。


六、总结:vLLM 正在从“能跑”走向“跑得又快又稳”

v0.16.0 的 Async Scheduling 整合,标志着 vLLM 在生产级推理引擎的道路上又迈出了一大步。对于已经在生产环境使用 vLLM 的团队,我们强烈建议尽快评估升级,这 30% 的吞吐提升,很可能就是你降本增效的关键。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐