书生·浦语大模型实战营-学习笔记5

LMDeploy 大模型量化部署实践

在这里插入图片描述

在这里插入图片描述

大模型部署背景


在这里插入图片描述

LMDeploy简介

轻量化、推理引擎、服务
在这里插入图片描述
在这里插入图片描述

核心功能-量化

显存消耗变少了
在这里插入图片描述
在这里插入图片描述
大语言模型是典型的访存密集型任务,因为它是decoder-by-decoder

先把数据量化为INT4存起来,算的时候会反量化为FP16
在这里插入图片描述
AWQ算法:观察到模型在推理过程中,只有一小部分参数是重要的参数,这部分参数不量化,其他的参数量化,这样保留了显存,性能也不会下降多少

核心功能-推理引擎

在这里插入图片描述
不用等到整个batch结束
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

核心功能-推理服务api server

在这里插入图片描述

动手实践环节

https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md

相关推荐

  1. 书生·模型实战学习笔记目录

    2024-01-24 14:06:03       54 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-24 14:06:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-24 14:06:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-24 14:06:03       82 阅读
  4. Python语言-面向对象

    2024-01-24 14:06:03       91 阅读

热门阅读

  1. SpringBoot如何测试打包部署

    2024-01-24 14:06:03       44 阅读
  2. 蒙特卡洛方法概述

    2024-01-24 14:06:03       54 阅读
  3. Golang中int, int8, int16, int32, int64和uint区别

    2024-01-24 14:06:03       51 阅读
  4. 02_正则表达式的应用

    2024-01-24 14:06:03       49 阅读
  5. Flowable使用docker中MySQL8,Springboot启动出错

    2024-01-24 14:06:03       56 阅读
  6. el-select选项过多导致页面卡顿,路由跳转卡顿

    2024-01-24 14:06:03       49 阅读
  7. 机器的世界模型与人类的世界模型

    2024-01-24 14:06:03       50 阅读
  8. 【Spring Boot 3】【JPA】枚举类型持久化

    2024-01-24 14:06:03       50 阅读
  9. ES6笔记-symbol

    2024-01-24 14:06:03       50 阅读
  10. 最小生成树 prim + kruskal

    2024-01-24 14:06:03       44 阅读
  11. NLP自然语言处理介绍

    2024-01-24 14:06:03       50 阅读