三六五网络学院

标题: LLM 推理优化与部署实战 [打印本页]

作者: admin 时间: 2026-1-14 15:05
标题: LLM 推理优化与部署实战
(, 下载次数: 42)

LLM 推理落地实战课程不仅帮助技术开发者和AI工程师快速掌握大模型推理的底层逻辑、性能优化及工程部署策略，还填补了他们技能上的空白。在商用过程中，降低延迟和成本成为关键问题，而该课程通过量化（INT4）、系统加速等方法可显著降低成本并提升硬件利用率至85%以上。

(, 下载次数: 42)

LLM 推理落地实战课程适合哪些人呢？无论是AI工程师、后端/DevOps 工程师还是硬件/云服务工程师，都能够在本课程中找到自己所需的解决方案。此外，该课程也特别面向计算机/AI专业学生及职场转行者，帮助他们快速掌握大模型推理的核心技能。

(, 下载次数: 43)

完成这堂课后，学员可以解决一系列性能、成本与工程上的痛点问题：
降低首词延迟：通过FlashAttention和预填充优化技术显著减少延迟。
提高解码效率：使用GQA或PagedAttention等机制，有效提升模型的每词解码速度。
降低成本：利用AWQ/GPTQ量化方法将大模型显存需求大幅降低60%-80%。
增加硬件利用率：通过持续批处理和算子融合技术提高GPU使用效率。

(, 下载次数: 48)

该课程分为五个模块，全面覆盖了从基础到部署的全链路知识：
1. 推理基础：包含预填充、解码阶段原理以及KVCache机制。
2. 性能指标与评估：介绍TTFT/ITL等关键性能指标及其实际应用。
3. 模型压缩优化：涵盖AWQ/GPTQ量化方法及剪枝技术。
4. 运行时加速：重点讲解MQA、FlashAttention算子融合等内容。
5. 部署实战总结：提供不同场景下的部署策略指导。

(, 下载次数: 43)

课程特色在于结合了理论与实践，不仅教授如何操作，还深入解释背后的原因。此外，每个环节配有实际案例演示，并且提供了详细的实验数据支持说明效果显著性。课程中还会根据不同的业务需求推荐适合的技术栈搭配方案和避免常见的工程陷阱。

(, 下载次数: 43)

学完本堂课后，学员可以在多个场景下应用所学知识：
优化现有LLM服务：通过AWQ方法将模型显存从16GB压缩到4GB。
硬件与框架选型指导：根据实际需求选择合适的GPU型号和推理框架（如vLLM或TRT-LLM）。
构建高效检索增强生成系统：结合量化技术以及PagedAttention，提升长上下文处理的效率。

📂 资源文件列表

进阶学习场景：
1-1 课程内容介绍.mp4
1-2 LLM推理基础-预填充与解码阶段.mp4
1-3 LLM推理基础-推理阶段与KVCache的关系.mp4
1-4 LLM推理基础-生成KVCache过程推演.mp4
1-5 LLM推理基础-为何需要对KVCache优化.mp4
1-6 LLM推理基础-如何估算模型占用内存.mp4
1-7 LLM推理基础-GPU内部运算原理与推理机制的关系.mp4
1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数.mp4
1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4
1-10 LLM推理基础-章节总结.mp4
1-11 LLM性能指标-内容介绍.mp4
1-12 LLM性能指标-推理评估指标全景图.mp4
1-13 LLM性能指标-首词生成时间.mp4
1-14 LLM性能指标-每词生成时间.mp4
1-15 LLM性能指标-端到端的请求时间.mp4
1-16 LLM性能指标-系统吞吐量TPS.mp4
1-17 LLM性能指标-业务指标SLO.mp4
1-18 LLM性能指标-评测过程与评测工具.mp4
1-19 LLM性能指标-章节总结.mp4
1-20 模型压缩-内容介绍.mp4
1-21 模型压缩-压缩策略-量化-剪枝-蒸馏.mp4
1-22 模型压缩-模型量化-参数存储空间的组成.mp4
1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ.mp4
1-24 模型压缩-AWQ针对PPL的实验结果.mp4
1-25 模型压缩-AWQ量化过程与实现-.mp4
1-26 模型压缩-GPTQ量化过程以及优化IO策略.mp4
1-27 模型压缩-GPTQ量化工具与实践.mp4
1-28 模型压缩-剪枝分类和过程详解.mp4
1-29 模型压缩-模型蒸馏分类和应用场景.mp4
1-30 模型压缩-章节总结.mp4
1-31 运行时加速方案-内容介绍.mp4
1-32 运行时加速方案-多头注意力机制原理与弊端.mp4
1-33 运行时加速方案-多头注意力计算过程与分析.mp4
1-34 运行时加速方案-MQA与GQA机制以及性能比较.mp4
1-35 运行时加速方案-GPU运算与数据传输分析.mp4
1-36 运行时加速方案-FlashAttention切块和算子.mp4
1-37 运行时加速方案-PagedAttention原理解析.mp4
1-38 运行时加速方案-持续批处理原理解析.mp4
1-39 运行时加速方案-核心推理框架选型.mp4
1-40 运行时加速方案-章节总结.mp4
1-41 推理部署实战指导与总结.mp4
01-vLLM推理实战.docx
2-1 vLLM产品介绍.mp4
2-2 vLLM分布式推理.mp4
2-3 显卡驱动安装与配置.mp4
2-4 Docker进行vLLM模型安装与部署.mp4
2-5 测试vLLM部署的大模型.mp4
2-6 vLLM分布式部署思路.mp4
2-7 系统构建网络配置和框架安装.mp4
2-8 Head和Worker节点配置创建推理集群.mp4
2-9 测试vLLM分布式部署.mp4
02-量化实战-高级.docx
3-1 量化实战-量化目的与结果介绍.mp4
3-2 量化实战-思路与实战步骤讲解.mp4
3-3 量化实战-了解硬件架构量化工具.mp4
3-4 量化实战-安装WSL与Conda.mp4
3-5 TensorRT模型优化器安装与配置.mp4
3-6 NVFP4量化格式.mp4
3-7 模型量化脚本解析与校准数据集.mp4
3-8 模型量化以及结果查看.mp4
3-9 测试量化之后模型查看返回结果.mp4
3-10 介绍EvalScope与Perf命令组成.mp4
3-11 使用EvalScope评测量化模型.mp4
3-12 介绍LLMCompressor量化工具.mp4
3-13 安装LLMCompressor.mp4
3-14 使用LLMCompressor对GPTQ-AWQ-NV.mp4
3-15 针对两种量化工具比较四种量化结果.mp4
3-16 量化实战-课程总结.mp4
《LLM推理优化与部署实战》课件.pptx

📥 资源下载

作者: 飞扬电脑 时间: 2026-1-14 15:10
感谢分享

作者: rockyou 时间: 2026-1-14 16:32

这个帖子不回对不起自己！我想我是一天也不能离开三六五网络学院。

作者: 378776233 时间: 2026-1-14 17:16
LLM 推理优化与部署实战

作者: qq7512117 时间: 2026-1-14 19:23
不错啊啊

作者: 尼泊尔的日出 时间: 2026-1-14 20:56
LLM推理基础-列举LLM存储介质以及如何搬运参数

作者: jsoyee 时间: 2026-1-14 22:13
哈哈哈哈哈

作者: 365svip 时间: 2026-1-15 11:41
`

作者: smail 时间: 2026-1-15 21:11

这个帖子不回对不起自己！我想我是一天也不能离开三六五网络学院。

作者: anzhihe 时间: 2026-1-15 23:36
66666666666666666666

作者: 121888598 时间: 2026-1-16 09:07
感谢分享

作者: mrcui 时间: 2026-1-16 21:33
好好学习，天天向上

作者: lambda 时间: 2026-1-17 00:45
3333333333333

作者: cshaoyan 时间: 2026-1-17 22:32
新手学这个资源靠谱吗？

作者: q938661048 时间: 2026-1-19 00:46
q938661048，如果您要查看本帖隐藏内容

作者: dingpenglei8 时间: 2026-1-19 20:30
谢谢大佬分享新资源

作者: colvinsteve 时间: 2026-1-20 09:45
LLM 推理优化与部署实战

作者: dj3838 时间: 2026-1-20 13:47
wwwwwwwwweeeeeeee

作者: ymwlgc 时间: 2026-1-21 17:57
谢谢分享。。。。。

作者: Ghost丶鬼 时间: 2026-1-24 10:23
看起来不错

作者: chen767824 时间: 2026-1-26 13:28
每天都来看看

作者: 叶流星 时间: 2026-1-27 18:34
正需要这个谢谢

作者: 鳥人 时间: 2026-1-27 23:47
多谢！学习一下。。。

作者: icode 时间: 2026-2-3 08:29
支持一下

作者: zhaoyongshui 时间: 2026-2-3 19:15
111111111111111111111111111

作者: helloworld 时间: 2026-2-4 13:50
很好的分享

作者: ljy667788 时间: 2026-2-8 09:33
看看，谢谢咯

作者: liuaimin 时间: 2026-2-8 15:45
看起来不错

作者: coffee 时间: 2026-2-9 15:33
现在AI很火，希望老大能多更新点

作者: cqw123456 时间: 2026-2-9 22:16
啥也不说了，楼主就是给力！

作者: hbm8888 时间: 2026-2-11 13:21

作者: xuexiing 时间: 2026-2-11 22:16
谢谢分享

作者: flipped 时间: 2026-2-13 18:41
可以可以可以的,非常可以

作者: baby123 时间: 2026-2-16 10:41
顶顶顶顶顶顶顶顶顶

作者: sdssxmh 时间: 2026-2-18 08:01
支持365，感谢分享！

作者: tzm547734 时间: 2026-2-18 17:16
每天都来看看

作者: 多看多学 时间: 2026-2-22 08:43
支持一下

作者: kugui45 时间: 2026-2-28 10:38
好多好东西

作者: hanbao369 时间: 2026-2-28 11:58
6666666666666666

作者: u54978258 时间: 2026-3-1 11:32
啥也不说了，楼主就是给力！

作者: fjx233 时间: 2026-3-5 10:19
希望更新更多这方面的

作者: 牛牛网络 时间: 6 天前
谢谢分享

作者: chen1983 时间: 6 天前
回帖学习学习

作者: ghostxp 时间: 4 天前
不错不错

作者: qq223344 时间: 3 天前
学习下

作者: LaiAn 时间: 前天 14:50
LLM 推理优化与部署实战

作者: hix777 时间: 前天 19:11
看起来不错

欢迎光临三六五网络学院 (https://www.365exe.com/)