揭秘大模型部署，解锁人工智能无限潜能

 

大模型部署综述

   

1 背景

部署生成式大语言模型 (LLM) 面临挑战，因为它们需要高性能系统才能实现低延迟和高吞吐量。从 ML 系统角度优化 LLM 服务至关重要，以满足对速度和可扩展性的需求。

- 高效部署 LLM 的挑战包括计算强度、内存消耗和服务效率；

- 从算法创新到系统设计以优化 LLM 服务的一系列解决方案；

LLM 利用 Transformer、GPU 和加速器，优化推理性能。通过研究不同的推理方法，开发人员可以实现更快、更高效的 LLM 部署。

- 为研究人员和从业者提供见解，以提高 LLM 部署效率并重塑 AI 的未来

2 当前的挑战

文中作者提到了五点大模型部署时遇到的巨大挑战：

可扩展性和吞吐率
模型推理系统可有效处理大量并发请求，确保高吞吐率。通过并行计算、请求调度和系统优化，该系统整合各种计算和存储资源，以满足实际应用场景中不断变化的负载需求。

硬件兼容性与加速
充分利用硬件资源至关重要。系统适应多种硬件平台和架构（CPU、GPU、加速器），通过硬件感知算法设计优化，最大化底层硬件潜力。

优化大语言模型推理的效率与准确性之间存在权衡。找到模型大小、计算复杂性和性能的平衡至关重要。通过考虑各种算法和系统级技术，可以在不显著牺牲准确性的情况下显著提高推理效率，从而实现最佳的权衡。这使模型能够在广泛的应用程序中高效且有效地执行。

3 当前的进展

大模型部署的突破点
算法创新和系统优化是部署大模型的两大关键。
算法创新
* 解码算法：改进生成文本或图像的准确性和效率。
* 架构设计：设计更高效、更具可扩展性的模型架构。
* 模型压缩：减小模型大小，提高部署灵活性。
系统优化
* 低比特量化：使用更低精度的数字表示，减少内存消耗和计算量。
* 并行计算：利用分布式系统或GPU并行化模型推理。
* 内存管理：优化内存分配和访问策略，提高效率。
* 请求调度：优化请求处理机制，降低延迟和提高吞吐量。
* 内核优化：调整操作系统内核，提高模型部署的性能。

3.1 算法创新

非自回归解码通过并行生成输出序列的元素，极大地提高了 LLM 的解码效率。这种方法无需等待前一个元素生成，从而大幅缩短了解码时间。与自回归解码相比，非自回归解码实现了高达 4 倍的效率提升，使其成为处理大型文本数据集的理想选择。

非自回归解码技术打破了传统解码方式的顺序依赖，实现并行生成，提高解码效率。它允许模型在生成当前元素时仅参考部分或无先前的输出，极大提升了处理速度。

通过并行处理提升解码效率，但存在解码质量下降的风险。后续改进技术包括：
* 半自回归解码：渐进式生成，兼顾效率和质量。
* 迭代细化：逐层改进解码输出，提升准确性。
* 块状并行解码：分块并行处理，优化资源利用。
这些技术解决了并行解码的挑战，同时保持了解码质量，提高了效率。

3.1.2 早退（Early exiting）

早退技术是一种通过提前结束序列生成来提升效率的方法。
它在解码过程中寻找合适的退出点，当模型对已生成序列有足够信心时，便停止进一步生成。
此方法显著减少了计算量，无需对已确定部分进行额外计算。

早期退出技术的关键优势包括：

- 计算效率：通过减少生成序列所需的步骤，早期退出可以显著提高模型的推理速度。

早期退出优化可提升并发请求处理效率，通过允许模型在完成请求后立即释放资源，从而提高计算资源分配的效率，为后续请求提供响应能力。

灵活性提升解码效率
早期退出策略提供灵活性，允许调整退出点以优化速度和准确性。通过根据任务需求和上下文动态调整，这一策略实现了高效的解码。

早期退出技术面临的主要挑战在于优化退出条件和设计适用于不同任务的退出策略。提前退出可能影响文本一致性和完整性，因为这样做可能会导致序列不完整或上下文连贯性差。

3.1.3 投机解码（Speculative decoding）

投机解码采用创新方法，在解码过程中生成一组候选词并并行处理。与逐个处理候选词相比，此方法显著增强了解码并行度，大幅提升了整体解码速度。

具体来说，投机解码包括以下几个关键步骤：

i）生成候选序列：在每个解码步骤中，模型生成一组候选词，而不是单一的最可能词。

ii）并行处理：对这些候选词进行并行处理，以快速探索多种可能的输出序列。

模型评估并筛选候选序列，确保其有效性。通过与原始语言模型比较，选择质量最高的序列，最大程度地保留原始文本的语义和风格。

3.1.4 级联推理（Cascade inference）

级联推理是一种用于提高大型语言模型（LLM）推理效率的技术，它通过利用一系列不同规模的模型来最小化响应时间。级联推理的核心思想是根据输入请求的复杂性或难度，动态选择最合适的模型来处理该请求，从而在保证输出质量的同时，尽可能地减少计算资源的消耗和提高推理速度。然而，级联推理也面临一些挑战，比如如何设计一个准确的调度机制来决定使用哪个模型，以及如何平衡模型大小、计算资源和推理性能之间的关系。此外，级联推理可能需要更复杂的系统设计和更精细的资源管理策略。

下图形象地展示了1-4解码技术的区别，

下面看架构设计，

3.1.5 配置缩减（Configuration downsizing）

配置缩减是一种蛮简单的减少模型计算成本和内存占用的方法，例如：

浅层编码器/解码器：精简模型，降低计算和存储需求。通过减少编码器或解码器的层数，减少模型参数，提升模型效率。

权重共享技术通过在模型不同部分共享权重，有效减少参数数量。该技术可降低模型大小，同时通过在任务间共享知识，保持模型性能。

缩减词汇表是一种优化模型的方法，通过限制其识别词汇的数量，减少模型的负担。
通过词干提取、词形还原或使用子集词汇表等技术，缩减词汇表可以提升模型效率，但对识别罕见词汇的能力可能略有影响。

3.1.6 注意力简化（Attention simplification）

注意力简化优化了自注意力机制，大幅降低了大型语言模型的计算成本。标准自注意力随着序列长度呈二次方增长，而注意力简化仅呈线性增长，从而节省了大量的计算和内存资源。该技术使LLM能够有效处理更长的序列，增强其理解和生成能力。

注意力简化致力于在保持模型性能的前提下，降低自注意力机制的计算和内存资源消耗，常见方法包括：

稀疏注意力：
通过限制注意力机制，仅让每个元素关注序列部分元素，极大降低计算量。可通过滑动窗口、块状注意力等方法实现。

核化注意力通过核技巧简化自注意力计算，降低复杂度。它将注意力机制转换为线性操作，利用低秩近似或其他变换，有效提升计算效率。

采用因子化注意力技术，将注意力矩阵分解为更小因子，实现单独立算和存储。此举显著降低内存占用率和计算需求，大幅提升效率和可扩展性。

局部注意力巧妙地将长序列分割成更小的片段，独立应用注意力机制，大幅降低每次计算的序列长度。这种方法显著提升了复杂度，让注意力机制更有效地处理海量文本。

哈希注意力是一种创新技术，采用哈希函数将输入序列映射到固定空间。在该空间上应用注意力机制，大大降低了长序列的注意力计算复杂度。

下图总结了几种常见的简化方法：

3.1.7 激活共享（Activation sharing）

激活共享的核心在于重用中間激活，減少計算和內存使用。這在大型語言模型中很普遍，例如：
* Falcon 和 PaLM：使用 MQA（Multi-query attention）
* LLaMA-2 和 Mistral-7B：使用 GQA（Group-query attention）

3.1.8 条件计算（Conditional computing）

混合专家模型 (MoE) 是一种条件计算技术，利用多个较小的神经网络（“专家”）来处理不同数据子集。通过使用路由机制有选择地调用专家，MoE 可以高效地计算，仅使用所需的专家来处理给定输入。这提高了计算和内存效率，因为避免了对整个大型模型进行计算。

3.1.9 循环单元（Recurrent unit）

在某些方法中，循环单元被用于替换大型语言模型（LLM）中的 Transformer 模块，并在推理过程中实现线性计算和内存复杂性。此类方法的示例包括 RWKV 和 RetNet，它们建立在线性注意力表示之上。这些最近的探索旨在克服递归神经网络（RNN）在捕获序列（如LSTM）中的长期依赖性方面的局限性。这些模型的设计包含各种组件，如位置编码模块、指数衰减机制和标记式非线性 MLP 或 GLU，以增强模型表示能力。然而，循环单元是否可以有效地取代 LLM 中的 Transformer 仍然是一个悬而未决的问题，尤其是在处理长序列时。

最后是模型压缩技术，

3.1.10 知识蒸馏（Knowledge Distillation）

知识蒸馏：模型压缩的利器
知识蒸馏是一种模型压缩技术，通过利用大型教师模型指导小型学生模型，实现模型的精简。在白盒蒸馏中，教师模型的参数完全公开，而黑盒蒸馏模型，如 Alpaca、Vicuna 和 WizardLM，则无需公开参数，在各类下游任务中表现出色。

白盒蒸馏：

白盒蒸馏利用教师模型的中间输出（“软目标”）训练学生模型。此方法适用于教师模型的内部结构可被访问，如由同一实体设计和训练时。白盒蒸馏通过软目标的引导，提高学生模型的性能。
通过利用教师模型的知识，学生模型可更精准地预测教师行为，这显著提高了预测性能，尤其在学生与教师模型架构相似时。
白盒蒸馏利用教师模型的决策细节，提升蒸馏效率。但当教师模型为商业产品或学生模型由外部团队设计时，白盒蒸馏受限。

黑盒蒸馏：

黑盒蒸馏：一种革命性的模型训练方法，无需访问教师模型的内部结构。学生模型仅利用教师模型的输入和输出进行训练，打造更精简、更有效的机器学习模型。
学生-教师模型旨在训练学生模型模仿教师模型的输出。此模型通过最小化损失函数计算学生模型输出与教师模型输出之间的差异，实现优化。
黑盒蒸馏突破限制，适用性更广。无论教师模型来自何处，抑或是作为服务提供，它都能巧妙应用。其灵活性释放了黑盒蒸馏的潜力，使其成为更广泛应用场景的理想选择。
黑盒蒸馏的有效性不如白盒蒸馏，特别是在教师模型和学生模型架构差异较大时，因为学生模型无法直接访问教师模型的中间表示。

3.1.11 网络剪枝（Network pruning）

网络剪枝，一种模型压缩技术，旨在缩减神经网络尺寸，提升效率。通过移除冗余参数或神经元，网络剪枝可在几乎不损失性能的情况下，减少模型大小和计算需求。此优化技术使模型更适用于资源受限的环境，例如移动设备或边缘设备，从而增强其部署和运行能力。

网络剪枝的主要方法包括：

结构化剪枝：移除整个神经元、过滤器或层，保持模型结构完整性。易于实现，对推理影响小。缩小模型大小和计算量，提升模型效率。

非结构化剪枝
相较于结构化剪枝，非结构化剪枝可移除网络中的任何参数。提供更精细的压缩，但对推理过程的影响更大。

逐层剪枝是一种模型精简技术，针对模型的每一层执行剪枝。层级剪枝根据权重重要性或对模型性能的影响，识别并移除不必要的连接。这实现了模型的精简，同时保持其性能。

基于敏感度剪枝：通过分析参数对模型输出的敏感度，识别并移除对预测影响最小的参数，实现模型轻量化。该方法有助于在不损失模型准确性的前提下，有效减少模型体积和计算成本。

网络剪枝的关键在于平衡压缩和性能。过度剪枝会损害模型效能，而不足的剪枝则无法达到压缩目标。研究人员采用实验方法确定最佳剪枝策略和程度，以在模型压缩和效能保持之间取得平衡。

3.2 系统优化

系统优化需要结合硬件提升模型推理的效率。

3.2.1 低比特量化（Low-bit Quantization）

低比特量化：
低比特量化通过使用更少的位（<32位）来表示模型权重和激活值，显著减少内存占用并加速推理。
量化方法：
* 量化感知训练 (QAT)：在训练过程中引入量化约束。
* 训练后量化 (PTQ)：在训练后将浮点模型转换为低比特模型。
NVIDIA 支持：
* Turing 和 Ampere 架构支持 INT8 和 INT4 Tensor Core。
* H100 芯片的 FP8 计算能力是 FP32 的 60 倍。
* B200 芯片支持 FP4 类型。

3.2.2 并行计算（Parallel Computation）

并行计算加速推理
并行计算通过将任务分配到多个处理单元，大幅提升推理效率。模型并行性、序列并行性和流水线并行性等策略优化资源利用率，提升系统性能。
去中心化推理融合模型和数据并行性，使分布式节点协作处理数据。这为地理分布的硬件资源提供独特解决方案。

3.2.3 内存管理（Memory Management）

内存管理是指对内存资源的高效处理和优化，以提高系统性能和推理效率。传统方法（如FasterTransformer）会预先分配内存，由于输入batch的不确定和复杂的解码策略（如beam）可能带来内存极大的浪费。于是就有了各种新的技术来有效地管理内存，例如vLLM采用Paged-Attention将键值缓存（KV-cache）划分为不连续的内存块，SpecInfer提出Tree-Attention再利用深度优先树遍历来消除冗余的 KV 缓存分配，以及LightLLM实现的token级内存管理机制以减少内存使用。

优化内存管理策略，解决 LLM 模型推理下的动态内存需求。通过优化内存占用和批处理大小，大幅提升吞吐量，解决内存动态性带来的挑战。

3.2.4 请求调度（Request Scheduling）

请求调度是LLM服务的一个关键方面，它涉及有效管理传入的推理请求，以优化资源利用率，保证延迟服务级别目标（SLO）内的响应时间，并有效处理不同的请求负载。LLM 服务的请求调度算法与通用机器学习服务技术具有共性，包括动态批处理、抢占、优先级、交换、模型选择、成本效益、负载均衡和资源分配。

LLM 服务中的独特挑战，例如大规模模型大小、迭代自回归解码机制、未知变量输出长度和上下文信息的状态管理，需要专门的请求调度策略。已经开发了各种方法来应对这些挑战，例如选择性批处理、迭代级调度、推测解码和作业完成时间优先级。这些策略旨在提高硬件利用率，提高吞吐量，并优化 LLM 服务系统中推理任务的执行。

早期LLM的部署系统（如英伟达Triton上的FasterTransformer）只支持request- level scheduling，然后Orca考虑到可变的输出序列长度, 开始采用first-come-first-serve (FCFS)的顺序按迭代粒度计划engine的执行，同时配合批处理来提高硬件利用率，后来vLLM和RayLLM延续了这种做法使用continuous batching，以及TensorRT-LLM使用的Inflight batching。

连续批处理涉及处理连续的请求流，而无需等待先前请求的完成，这有助于最大限度地提高资源利用率和吞吐量。动态批处理是指通过并行处理一批请求来批处理一组选定的操作以提高硬件利用率，这可以提高同时处理多个请求的效率。

SpecInfer、FastServe、SARATHI、Dynamic SplitFuse、S3等技术可增强模型推理性能，提供高效存取和处理，提升机器学习应用的响应速度。

3.2.5 内核优化（Kernel Optimization）

大型语言模型服务系统中的内核优化是指优化语言模型推理管道中的特定操作以提高性能的过程。这种优化涉及利用特定于硬件的功能和软件技术来加速关键计算内核。内核优化中使用的一种常用技术是内核融合，其中将具有相似特征的操作组合在一起，以减少内核启动和内存访问的开销。这种方法被各种 DNN 框架和编译器广泛采用以提高效率。

此外，定制注意力是内核优化的另一个方面，它专注于自定义专门用于注意力计算的 GPU 内核，以确保在 GPU 硬件上高效执行。通过定制注意力操作，可以通过最大化线程占用率和最小化高带宽内存访问来实现性能提升。这些优化技术有助于提高大型语言模型推理系统的整体性能和效率。

这边列举了几个技术点，包括：

1） Kernel fusion

内核融合是一种优化技术，它将多个计算内核合并为一个，以减少运行时的开销。通过合并连续或相关的计算步骤，内核融合减少了同步和内存传输操作的数量，从而提高了 DNN 和 Transformer 模型的性能。例如，它可以减少内核启动开销和内存访问成本。

LLM推理中的内核融合优化：
通过融合注意力机制和前馈网络中的多个运算步骤（线性变换、激活函数等）到单个内核中，内核融合技术显著提升了运行效率。这种方法减少了运行时开销，从而提高了执行效率。

Transformer模型中的多头注意力机制优化：
融合计算步骤，将查询、键和值的线性变换合并为一个内核。
改进数据传输，减少不同内核间数据传输次数。
降低内存访问延迟，提高计算吞吐量。

内核融合的优势之一在于它的可定制性，允许针对特定硬件平台进行优化。例如，在 NVIDIA GPU 上，利用 CUDA 编程模型中的特性，可以实现高效的内核融合策略。随着硬件架构的不断发展，如 NVIDIA 的 Ampere 和 Hopper 架构，内核融合技术也在不断演进，以适应新型硬件特性和优化需求。

2） Tailored attention

精简版：
定制化注意力优化 GPU，提升 Transformer 性能。注意力计算是 Transformer 模型的关键，高效执行注意力操作对于模型整体性能至关重要。

定制化注意力的目标是针对特定的硬件平台调整注意力机制的实现，以便更好地利用GPU的并行处理能力。例如，cuDNN库提供了一个融合的多头注意力（Multi-Head Attention）内核API，而一些研究工作则提出了开源实现，以进一步提高性能。这些定制化的注意力实现通常会针对Transformer模型的初始阶段（并行处理所有输入token）和增量阶段（每次生成一个输出token）采取不同的优化策略，以最大化线程占用率并最小化对高带宽内存（HBM）的访问。

3） Sampling optimization

LLM的自回归解码采用逐字预测机制。在每一步，模型基于已生成文本预测下一个最可能出现的词语。模型会评估词汇表中所有词语的概率，并选择概率最高的词语作为输出。

革新解码效率：采样优化技术
研究创新采样技术旨在缩小候选词汇库，同时保持文本质量，实现更快的解码。这些技术包括：

Top-k 采样：增强语言模型预测
Top-k 采样算法在大型语言模型中应用，提高预测质量。此算法以概率为基础，在每个生成步骤中选择最可能的 top-k 标记。通过缩小候选标记集合，算法平衡了探索和利用，促进了更具多样性和高质量的文本输出。

温度缩放：
调节 softmax 温度参数，可控制生成文本的随机性和流畅性。
* 高温度：随机性增强，多样性增加。
* 低温度：随机性减弱，流畅性提高。

Beam Search（束搜索）是一种启发式搜索，在每步保留最可能的多个候选序列（“束宽”）。它在有限的计算资源下探索更多解码路径，提高最终文本质量。

随机采样：利用概率分布随机选择文本中的下一个词。这种方法引入多样性和随机性，创造更自然且具创造力的文本。

采样优化：提升 LLM 效率
采样优化通过减少资源消耗和加速解码，显著提升 LLM 性能。对于聊天机器人和写作助手等要求实时响应的任务，此类优化至关重要。优化技术使 LLM 能够在有限的硬件资源下提供更快的响应和更高的吞吐量，从而满足实时文本生成的需求。

4） Variable sequence length

在自然语言处理中，LLM必须具备处理可变长度序列的能力，因为文本输入和输出的长度通常不一致。例如，问题可能很短，而答案很长。这种可变性要求LLM能够动态调整其处理机制以适应不同长度的序列。

针对可变长度输出序列，自回归模型面临独特挑战。模型逐字生成文本，导致输出序列长度动态变化。更重要的是，在生成之前，此长度是未知的，为模型训练和推理带来复杂性。

这种可变性带来了几个挑战：

优化内存管理
模型具备动态分配和调整内存的灵活性，以适应输出序列长度的变化。当输出超出预期时，模型可扩展内存；当序列较短时，可释放闲置内存，确保资源利用率最优化。

优化计算效率，最大化推理性能。训练模型时，模型可以根据序列长度动态调整计算资源，在序列提前结束时停止计算，避免资源浪费。

解决填充问题至关重要，它会影响批量处理多个序列的有效性。模型应优化处理填充，确保批量处理效率。

为了解决这些挑战，研究者们提出了多种策略，包括但不限于：

利用动态计算技术，模型结构可自动调整，适应不同序列长度。通过条件计算，模型仅针对所需序列部分进行处理，提升效率。

5） Automatic compilation

自动编译：提升深度学习模型推理效率
自动编译利用自动化工具优化深度学习模型编译，提高推理效率。它识别更高效的操作实现，并适应不同硬件平台，如移动设备、CPU、专用加速器和 GPU，实现：
* 发现更优的操作实现
* 适应各种硬件平台
* 提升深度学习模型推理效率

自动编译技术通常涉及以下几个方面：

表达式优化：自动编译器巧妙地分析计算图，识别更优计算路径，畅达计算效率。通过合并操作、舍弃冗余计算和优化计算顺序，显着降低内存访问，大幅提升计算效能。

自动编译器优化：硬件适配
优化器根据目标设备的独特特性量身定制代码，释放性能。它可针对特定 GPU 架构生成原生内核，并为移动设备优化内存利用，从而实现无缝的硬件整合。

中间表示（IR）是自动编译器中至关重要的工具，用于表示计算图，允许高效的代码转换和优化。IR的平台无关性使其可轻松转换为多种目标硬件代码。

通过性能预测，自动编译器分析优化策略对性能的影响。凭借对硬件特性的理解，它智能地选择最佳编译选项，显著提升代码运行效率。

从模型训练到部署，自动编译器通过端到端优化，全面提升性能。优化后的模型可应用于推理、压缩和量化，有效提升效率。

自动化编译的挑战在于平衡模型精度、推理速度和硬件利用率。关键因素包括计算图结构、硬件并行能力、内存带宽和延迟，优化需要综合考虑这些因素。

一些知名的自动编译工具和框架包括：

JAX：Google 开发的高效计算库，自动将 NumPy 计算优化为 GPU 和 TPU，显著提升运算效率。

自动编译技术释放研究和开发潜力，加速模型部署和应用。优化工作交给编译器处理，让专家专注于模型设计和训练，提升模型开发效率。

4 软件框架

这一节作者介绍了一些主流的基于GPU开发的大语言模型推理框架，如下图所示，他们中的大部分都支持模型并行，有的还支持offloading。近期的一些研究把推理响应时间细分为TTFT+TPOT × output sequence length，TTFT代表Time To First Token，TPOT表示Time Per Output Token。

前者，也就是在推理的perfill阶段，这些框架通常会用cuBLAS或torch来完成batched GEMM，并且使用flash-attention或xFormers技术来减少对HBM的依赖。而在decoding阶段，问题就不再是计算密集型的了，为了增加GPU利用率，通常会做算子融合、算子优化、内存管理等，GEMM算子也变成了GEMV。思路大致如此，但各家在实际操作中可能采用不同的实现方式，如TGI采用原始的Flash/Paged attention库，LightLLM采用OpenAI的Triton，MLC-LLM用TVM生成kernel，TensorRT-LLM则是从FasterTransformer改进过来。

此外不同框架在优化的优先级上也有不同的侧重，如vLLM倾向于增加吞吐（Tpt），而FlexFlow-Serve倾向于降低延迟（Lat）。高吞吐和低延迟不可兼得，因此厂商在做框架设计的时候需要考虑业务场景的实际需求。

5 Benchmarks

基准测试的挑战包括需要考虑各种因素，例如模型配置、硬件环境、请求负载和评估设置，以得出可信的结论。目前还没有一个公认比较好的LLM推理的benchmark，即便是MLPerf也不够全面。

但建立一个全面且可重复的基准来评估不同大型语言模型服务系统对于学术界和工业界选择合适的系统解决方案并鼓励优化方面的进步是十分重要的。此外，本节还强调了在测量推理延迟时排除与 GPU 无关的开销（如请求调度开销和网络延迟）的重要性，以确保公平的基准测试。模型输出内容的对齐也被强调为许多基准测试中经常被忽视的关键方面。