书生·浦语 大模型(学习笔记-7)LMDeploy 量化部署 LLM-VLM 实践

目录

一、模型的部署

二、模型部署面临的问题

三、如何解决(两种方法)

四、LMDeploy相关知识

创建conda环境(漫长的等待)

五、使用LMDeploy与模型对话

六、设置最大KV Cache缓存大小

七、W4A16量化

八、客户端连接API服务器


一、模型的部署

二、模型部署面临的问题

显存受限 

访问密集型 

三、如何解决(两种方法)

最开始应用在CV领域 

多了量化和非量化工作,可能降低性能 

四、LMDeploy相关知识

优化KV缓存管理与存储 

性能表现

 还支持视觉推理

五、部署实践(安装、部署、量化)

创建conda环境(漫长的等待)

studio-conda -t lmdeploy -o pytorch-2.1.2

激活刚刚创建的虚拟环境:

conda activate lmdeploy

安装0.3.0版本的lmdeploy:

pip install lmdeploy[all]==0.3.0

查看本地的预训练模型

使用 Transformer库运行模型,先创建指令

运行效果 

五、使用LMDeploy与模型对话

 连接到模型

lmdeploy chat /root/internlm2-chat-1_8b

 结果输出:(提问 -> 请你给我讲一个小故事)

六、设置最大KV Cache缓存大小

资源监视器中的显存占用情况(未改变参数)

改变--cache-max-entry-count参数,设为0.5

改变--cache-max-entry-count参数设置为0.01

七、W4A16量化

LMDeploy使用AWQ算法,实现模型4bit权重量化

八、客户端连接API服务器

启动API服务器后进行连接:

web页面连接

最近更新

  1. TCP协议是安全的吗?

    2024-05-01 12:18:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-01 12:18:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-01 12:18:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-01 12:18:03       20 阅读

热门阅读

  1. GO语言核心30讲 进阶技术 (第二部分)

    2024-05-01 12:18:03       11 阅读
  2. GIS分析之采用最近邻法进行空间聚类

    2024-05-01 12:18:03       11 阅读
  3. Leetcode 第 128 场双周赛题解

    2024-05-01 12:18:03       11 阅读
  4. 「AIGC」如何理解大语言模型

    2024-05-01 12:18:03       11 阅读
  5. BuddyPress 中文汉化包,WordPress插件

    2024-05-01 12:18:03       15 阅读
  6. Mac远程桌面windows11

    2024-05-01 12:18:03       13 阅读
  7. 等保测评:网络安全合规的基石

    2024-05-01 12:18:03       17 阅读
  8. 腾讯实习后端c++一面-2024.4.29

    2024-05-01 12:18:03       10 阅读
  9. Android 获取sha1的快速有效的简单方法

    2024-05-01 12:18:03       11 阅读
  10. Google Test 使用笔记(二)

    2024-05-01 12:18:03       11 阅读
  11. MIKE + MATLAB - 使用DHI工具包时读取数据

    2024-05-01 12:18:03       9 阅读