微软 A100 单卡技术实现大模型推理速度提升 10 倍

2024年7月9日创建

机器之心｜阅读原文

转载请联系原作者取得授权

微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。​

大型 语言模型 (LLM) 已进入长上下文处理时代，其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。​

然而，由于 注意力机制 的二次复杂度，模型处理输入提示（即预填充阶段）并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长，从而严重影响了用户体验，这也极大地限制了长上下文 LLM 的广泛应用。​

举例来说（如图 2a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时，如果提示有 30 万个 token，模型需要 6 分钟才能完成预填充（ pre-filling）阶段，如果提示增加到 100 万个 token，这个数字将增加到 30 分钟。​

common.docs_name - LarkCCM_Docs_Menu_Image

自注意力 计算的开销占到了总预填充延迟的 90% 以上，这使其成为 LLM 处理长上下文时的主要瓶颈。现有的加速预填充方法在应用于长上下文 LLM 时通常无法保持可接受的准确性或效率。​

为了解决上述问题，来自微软、萨里大学的研究者提出了一种旨在加速长序列处理预填充的稀疏计算方法：MInference（ Milliontokens Inference ）。​

•

论文地址：https://arxiv.org/pdf/2407.02490

•

论文主页：https://hqjiang.com/minference.html

•
论文标题：MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention​

MInference 可以直接应用于现有 LLM，无需对预训练设置进行修改或额外的微调。​

通过对各种下游任务（包括 InfiniteBench、RULER、PG-19 和 Needle In A Haystack）以及模型（包括 LLaMA-3-1M、Yi-200K、GLM-4-1M、Phi-3-128K 和 Qwen2-128K）进行评估，实验证明 MInference 可有效将 A100 上的预填充推理延迟降低多达 10 倍，同时保持准确性。​

使用 MInference 1.0 ，长上下文 LLM（如 LLaMA-3-8B-1M、GLM-4-1M）在单个 A100 上的推理速度实现了 10 倍提升，并且准确度更高。​

方法介绍

微软 A100 单卡技术实现大模型推理速度提升 10 倍​

微软 A100 单卡技术实现大模型推理速度提升 10 倍