第五节笔记:LMDeploy 大模型量化部署实践

大模型部署背景
在这里插入图片描述
参数用FP16半精度也就是2字节,7B的模型就大约占14G
在这里插入图片描述

2.LMDeploy简介
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
量化降低显存需求量,提高推理速度

大语言模型推理是典型的访问密集型,因为是decoder only的架构,需要token by token的生成,因此需要频繁读取之前生成过的token。
这个量化只是在存储时做的, 在推理时还要反量化回FP16.
在这里插入图片描述
在这里插入图片描述
w4a16意思是参数4bit量化,激活时是16bit

在这里插入图片描述
不用等一个batch的请求全部执行完才退出。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.动手实践-安装、部署、量化

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-18 15:50:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-18 15:50:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-18 15:50:01       82 阅读
  4. Python语言-面向对象

    2024-02-18 15:50:01       91 阅读

热门阅读

  1. 39. 组合总和

    2024-02-18 15:50:01       41 阅读
  2. kvm 虚拟化

    2024-02-18 15:50:01       50 阅读
  3. Leetcode29:两数相除

    2024-02-18 15:50:01       45 阅读
  4. 华为OD机试真题- 攀登者2-2024年OD统一考试(C卷)

    2024-02-18 15:50:01       48 阅读
  5. C语言之输入字符串的字符统计

    2024-02-18 15:50:01       54 阅读
  6. css的对齐方式

    2024-02-18 15:50:01       63 阅读
  7. 汇编+C语言实现四路抢答器的分析与运行过程

    2024-02-18 15:50:01       49 阅读
  8. Rust HashMap详解及单词统计示例

    2024-02-18 15:50:01       33 阅读