240713-Xinference模型下载、管理及测试

Step 1. 安装Xinference

Step 2. 下载模型

方式1: UI界面下载
  • 命令行启动Xinference:
xinference-local --host 0.0.0.0 --port 9997
方式2: 命令行下载
  • 命令行启动Xinference:
xinference-local --host 0.0.0.0 --port 9997
  • 以chatglm3-6B为例,下载并启动模型:
xinference launch --model-engine vLLM --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization none
  • 下图,右边和左边分别是启动及下载的Bash命令,可以看到,在执行左边的命令的时候,右边可以显示下载的状态
    在这里插入图片描述

Step 3. 模型路径

  • Xinference设置的软链接

    • 模型默认的链接路径在~/.xinference/cache对应的文件夹中
    • 模型的实际下载路径则在~/.cache对应的文件夹中
  • 注意:在~/.xinference/cache/model_name中,多了一个__valid_download的文件

  • 该文件的内容包含如下,可能是用于后台检测,模型是否已经有效下载

{"model_type": "LLM", "address": null, "accelerators": null, "model_name": "chatglm3", "model_lang": ["en", "zh"], "model_ability": ["chat", "tools"], "model_description": "ChatGLM3 is the third generation of ChatGLM, still open-source and trained on Chinese and English data.", "model_format": "pytorch", "model_size_in_billions": 6, "model_family": "chatglm3", "quantization": "none", "model_hub": "huggingface", "revision": "103caa40027ebfd8450289ca2f278eac4ff26405", "context_length": 8192}(xinference) 

在这里插入图片描述

Step 4. 模型使用

  • 登录:http://localhost:9997/ui/#/running_models/LLM
  • 点击:右侧红框按钮
  • 弹出:下图对话界面,可直接使用
    在这里插入图片描述

在这里插入图片描述

Step 5: 自行下载模型及使用的方法测试

ln -s ~/Downloads/chatglm3-6b ~/.xinference/cache/chatglm3-pytorch-6b
  • 复制有效下载的文件,注意这里我更新了xinference下载模型的名字chatglm3-pytorch-6b-raw
cp ~/.xinference/cache/chatglm3-pytorch-6b-raw/__valid_download ~/.xinference/cache/chatglm3-pytorch-6b/__valid_download
  • 进行完上述操作后,重复执行Step 2中的操作,可以直接到Step 3的内容,无需下载模型

Step 6:这里有两个问题还需要解决:

  • 如何根据模型文件的命名规则,设置软链接?ln -s ~/Downloads/chatglm3-6b ~/.xinference/cache/chatglm3-pytorch-6b
  • 如何撰写__valid_download文件?如果没有这个文件,Xinference在执行下述命令后,似乎还是会继续默认的下载
xinference launch --model-engine vLLM --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization none

问题整理

1. GLM4使用报错

参考文献

相关推荐

  1. win10 cpu 下使用Xinference来进行大模型的推理测试

    2024-07-13 17:54:01       24 阅读
  2. xinference

    2024-07-13 17:54:01       65 阅读
  3. C++<span style='color:red;'>240613</span>

    C++240613

    2024-07-13 17:54:01      23 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-13 17:54:01       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-13 17:54:01       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-13 17:54:01       58 阅读
  4. Python语言-面向对象

    2024-07-13 17:54:01       69 阅读

热门阅读

  1. EXPORT_SYMBOL

    2024-07-13 17:54:01       24 阅读
  2. 【车载开发系列】汽车开发常见概念理解

    2024-07-13 17:54:01       19 阅读
  3. 深入理解Spring Boot中的定时任务调度

    2024-07-13 17:54:01       17 阅读
  4. 大数据平台建设概要

    2024-07-13 17:54:01       21 阅读
  5. python文件

    2024-07-13 17:54:01       22 阅读
  6. python运行环境在新旧电脑间迁移

    2024-07-13 17:54:01       20 阅读
  7. LeetCode题练习与总结:最小栈--155

    2024-07-13 17:54:01       17 阅读
  8. C++catch (...)陈述

    2024-07-13 17:54:01       16 阅读
  9. git切换远程仓库地址

    2024-07-13 17:54:01       23 阅读