持续批处理 (Continuous Batching)——泽微AI/泽微一号如何最大化 LLM 推理吞吐量

2023-09-03

💡 LLM 推理：效率与延迟的艰难平衡

大语言模型（LLM）的训练挑战巨大，但其推理（Inference）和部署同样是决定商业化落地的关键环节。部署 LLM 服务需要解决两个核心矛盾：

传统的推理系统在处理 LLM 特有的变长序列和自回归生成时，难以同时保证低延迟和高吞吐。

在 LLM 推理中，传统的静态批处理（Static Batching）或朴素动态批处理（Naïve Dynamic Batching）面临固有缺陷：

Padding 浪费：模型生成文本时，由于每个请求的输出长度不一，必须将所有序列填充（Padding）到批次中最长序列的长度。这种浪费会导致大量的 GPU 算力被消耗在无效计算上。
气泡效应（Bubble Effect）：LLM 采用自回归生成，每一步生成都依赖于前一步的输出。在一个批次中，一旦某个序列生成完毕，它会继续占用显存和计算资源，直到整个批次中最长的序列完成。这导致了显著的 计算等待和资源闲置（气泡）。

这种低效性使得 LLM 推理服务的 GPU 成本极高。

持续批处理，特别是其核心技术——PagedAttention，彻底革新了 LLM 推理的资源管理方式。

LLM 的自回归生成依赖于缓存历史 Key-Value 对（KV Cache），这占据了推理过程中 90% 以上的显存。

PagedAttention：类似于操作系统的内存分页机制，它将 KV Cache 划分为固定大小的“块”（Pages/Blocks）。
- 优点：允许非连续的存储空间来存储连续的 Key-Value 序列，从而解决了内存碎片化问题。

泽微AI（或 泽微一号）平台通过深度集成 $vLLM$ 和 $FlashAttention$ 等工具，实现了高效的持续批处理工作流：

动态调度与批量处理：平台能够实时监控所有传入的请求，并动态地将它们组织成一个批次。一旦有请求生成完成，系统会立即将其移除，并用新的请求填充空缺。
消除 Padding 浪费：通过 PagedAttention，每个 Token 的计算都只针对其实际的 Key-Value 块，有效消除了 Padding 浪费。
高吞吐量：持续批处理极大地减少了 GPU 闲置时间，将 LLM 推理服务的吞吐量提升了数倍，同时保持了较低的延迟。

持续批处理虽然优化了软件，但依然需要强大的硬件来支撑高密度的计算和高频的内存操作。泽微AI/泽微一号 提供了配备 高显存、高带宽 的 NVIDIA H100/A100 集群，确保在最大化吞吐量的同时，性能不受硬件瓶颈的限制。

持续批处理是 LLM 推理优化领域最重要的技术突破之一。通过在 泽微AI/泽微一号 平台上集成 PagedAttention 等先进技术，我们为用户提供了业界领先的 LLM 推理服务，帮助企业以最低的 GPU 成本和最高的吞吐量实现 LLM 的商业化部署。