塔斯娱乐资讯网

deeplearning.ai和vLLM联手发布的课程:快速高效的 vLLM 大

deeplearning.ai和vLLM联手发布的课程:快速高效的 vLLM 大语言模型推理网页链接

本课程由 DeepLearning.AI 与 Red Hat 合作打造,并由 Red Hat 高级开发者布道师 Cedric Clyburn 授课。

要以低延迟、合理成本为大量用户高效部署开源大语言模型,关键主要在于内存管理。两类内容会竞争这些内存:模型权重和 KV 缓存。

一个 700 亿参数的模型,仅权重就大约需要 140 GB 内存,而 KV 缓存会随着你服务的每个请求不断增长。

在本课程中,你将学习如何通过量化缩小权重,并使用广泛采用的开源推理服务系统 vLLM 来部署模型,同时利用它提供的内存管理技术,例如 PagedAttention 和前缀缓存。

你将基于一个真实模型完整运行“优化—部署—基准测试”的工作流:使用 LLM Compressor 压缩一个开源 Qwen 模型,用 vLLM 提供服务,并使用 GuideLLM 和 lm-eval 在真实流量场景下对部署进行基准测试。

具体来说,你将:

理解为什么高效的 LLM 部署很重要、推理过程中会发生什么、KV 缓存是什么,以及 GPU 内存层级如何影响性能。探索 LLM 优化基础,并了解权重量化和激活量化等压缩技术如何在尽量保持准确率的同时提升模型吞吐量并降低延迟。使用 LLM Compressor 对全精度模型进行量化,比较量化前后的模型大小,并使用困惑度衡量压缩后的模型是否仍表现良好。学习现代 LLM 服务背后的三项核心技术:用于保持 GPU 忙碌的连续批处理、用于避免浪费地管理 KV 缓存的 PagedAttention,以及在请求共享内容时用于跳过重复计算的前缀缓存。连接到 vLLM 推理服务器,通过兼容 OpenAI 的 API 发送请求,并在指标中实时观察 vLLM 的内存管理技术如何发挥作用。使用 GuideLLM 在负载下对部署进行基准测试,并使用 lm-eval 评估模型质量。

到课程结束时,你将已经在真实模型上完成完整的“优化—部署—基准测试”工作流,并建立起在准确率、速度和成本之间权衡取舍的直觉。AI创造营