Fastchat + vllm + ray + Qwen1.5-7b 在2080ti 双卡上 实现多卡推理加速

首先先搞清各主要组件的名称与作用:
  • FastChat
    FastChat框架是一个训练、部署和评估大模型的开源平台,其核心特点是:

    提供SOTA模型的训练和评估代码
    提供分布式多模型部署框架 + WebUI + OpenAI API

    Controller管理分布式模型实例
    Model Worker是大模型服务实例,它在启动时向Controller注册
    OpenAI API提供OpenAI兼容的API服务,接受请求后,先向Controller获取Model Worker地址,再向Model Worker实例发送请求生成文本,最后返回OpenAI兼容的报文。
    Fastchat 兼容的llm集合 请见 https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

在这里插入图片描述

  • vllm 推理加速框架
    vLLM 用于大模型并行推理加速,核心是 PagedAttention 算法,官网为:https://vllm.ai/。

  • ray 分布式框架
    Ray 是一个高性能的分布式计算框架,由UC Berkeley RISELab 开发,支持Python 语言,并可与PyTorch 等机器学习框架结合使用。Ray提供了高效的任务调度、支持多种编程语言和机器学习框架,且系统层的抽象使得资源利用和任务调度更加灵活高效。它比Spark更轻量级,且易于使用和扩展。相较于TensorFlow和PyTorch,Ray注重分布式计算的高效和弹性。在隐私计算方面,Ray提供了数据隐私保护,支持数据共享和协作,同时允许在不泄露原始数据的情况下进行深度学习模型训练。

  • 本地环境情况 2080ti 双卡 共 44g显存 64g内存

开始操作

1. 启动worker控制协调器 ---- controller
python -m fastchat.serve.controller --host 0.0.0.0
2. 启动API服务 ---- API server
python -m vllm.entrypoints.api_server --trust-remote-code --model /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --served-model gpt-3.5-turbo  --tensor-parallel-size 2 --dtype=half
3. model worker 有2种 如下
  1. 启动不带推理加速的 模型worker
python -m fastchat.serve.model_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  
  1. 启动 带vllm推理加速的 模型worker
python -m fastchat.serve.vllm_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  

注意这几个参数

  • --dtype=half 由于我的显卡是2080ti bf16算力只有7.5 所以需要变成fp16运行
  • --tensor-parallel-size 2启动apiserver时候 如果需要多卡张量并行 加上卡的数量

那么服务正常情况下已经跑起来了 地址服务器所在 localhost:8000

使用langchain进行测试
from langchain import PromptTemplate
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage

llm = ChatOpenAI(
    streaming=False,
    verbose=True,
    # callbacks=[callback],
    openai_api_key="none",
    openai_api_base="http://localhost:8000/v1",
    model_name="CodeQwen1.5-7B-Chat"
)

# 提示词
template = """
我很想去{location}旅行,我应该在哪里做什么?
"""
prompt = PromptTemplate(
    input_variables=["location"],
    template=template,

)
# 说白了就是在提示词的基础上,把输入的话进行格式化方法输入,前后添加了一些固定词
final_prompt = prompt.format(location='安徽合肥')

print(f"最终提升次:{final_prompt}")
output = llm([HumanMessage(content=final_prompt)])
print(f"LLM输出结果:{output}")

在这里插入图片描述

我又写了一个简易的多线程来请求 回复速度很快

import threading
import time

class MyThread(threading.Thread):
    def __init__(self):
        super().__init__() #必须调用父类的初始化方法
    

    def run(self) -> None:
       print()
       output = llm([HumanMessage(content=final_prompt)])
       print("当前线程:"+threading.current_thread().name+f"LLM输出结果:{output}")     

for i in range(0,100):
    new_job = MyThread()
    new_job.setName(i)
    new_job.start() 

执行情况如下 并发速度还不错
在这里插入图片描述

显存占用情况如下
在这里插入图片描述
我这套方案 是我本人跑通验证过的
streaming=False可以用
streaming=True的话 估计要写符合Streamevent的http格式接收 但这个不是重点 后面有老哥研究好的话可以@我一下 共同进步!

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-11 20:32:06       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-11 20:32:06       106 阅读
  3. 在Django里面运行非项目文件

    2024-05-11 20:32:06       87 阅读
  4. Python语言-面向对象

    2024-05-11 20:32:06       96 阅读

热门阅读

  1. LVS(Linux Virtual Server)知识点详解

    2024-05-11 20:32:06       26 阅读
  2. Nginx - location 指令(二)

    2024-05-11 20:32:06       35 阅读
  3. Linux监听某个进程,自动重启

    2024-05-11 20:32:06       31 阅读
  4. 数据字典是什么?

    2024-05-11 20:32:06       35 阅读
  5. 【前端每日基础】day2 const var let的区别

    2024-05-11 20:32:06       36 阅读
  6. MySQL学习笔记12——效率和优化

    2024-05-11 20:32:06       150 阅读
  7. Unity 委托与事件、装箱和拆箱

    2024-05-11 20:32:06       32 阅读
  8. React 学习-5

    2024-05-11 20:32:06       35 阅读
  9. 6.5.Docker数据管理和端口映射应用

    2024-05-11 20:32:06       24 阅读
  10. 算法练习17——罗马数字转整数

    2024-05-11 20:32:06       29 阅读
  11. debian apt 更改阿里源

    2024-05-11 20:32:06       23 阅读