xinference

2024-01-01 15:04:03
开发
68

xinference

Xorbits Inference（xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

xinference 内置了多个大语言模型，可以让用户轻松的使用这些模型，包括 CPU（穷人福音）和 GPU 版本。以 chatglm3 为例，以下代码可以运行一个跑在 CPU 上的模型。

# 使用hugging-face镜像, 能够翻墙的同学可以忽略
export HF_ENDPOINT=https://hf-mirror.com
# 创建python虚拟环境
conda create -n xinference python=3.10
# 安装ggml 让模型可以运行在CPU上
pip install xinference[ggml]>=0.4.3
# 启动xinference, 访问http://127.0.0.1:9997就可以运行不同的模型了
xinference -p 9997

启动模型后使用 python 代码调用

from xinference.client import Client

client = Client("http://localhost:9997")
model_uid = client.launch_model(
    model_name="chatglm3",
    model_format="ggmlv3", 
    model_size_in_billions=6,
    quantization="q4_0",
    )
model = client.get_model(model_uid)

chat_history = []
prompt = "最大的动物是什么？"
model.chat(
    prompt,
    chat_history,
    generate_config={
   "max_tokens": 1024}
)

原文地址:https://blog.csdn.net/weixin_44048823/article/details/135324618 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1741716899558985728.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-01-01 15:04:03 95 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-01-01 15:04:03 82 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-01-01 15:04:03 75 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-01-01 15:04:03 80 阅读
NoSQL之Redis非关系型数据库

2024-01-01 15:04:03 81 阅读
2024.7.22 作业

2024-01-01 15:04:03 82 阅读
GDB调试正在运行的程序

2024-01-01 15:04:03 65 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-01-01 15:04:03 67 阅读
在Django里面运行非项目文件

2024-01-01 15:04:03 64 阅读
SSD基本架构与工作原理

2024-01-01 15:04:03 69 阅读
在誉天学习完HCIE就业吗？

2024-01-01 15:04:03 78 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-01-01 15:04:03 68 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-01-01 15:04:03 71 阅读
go 协程池的实现

2024-01-01 15:04:03 70 阅读
Shell脚本循环语句与函数

2024-01-01 15:04:03 72 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-01-01 15:04:03 75 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-01-01 15:04:03 70 阅读
四大引用——强软弱虚

2024-01-01 15:04:03 73 阅读
Python语言-面向对象

2024-01-01 15:04:03 75 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-01-01 15:04:03 69 阅读
网站安全-CDN篇

2024-01-01 15:04:03 71 阅读

热门阅读

docker 部署mysql

2024-01-01 15:04:03 56 阅读
Android 10.0 mtp模式下PC上显示两个内部存储的问题解决办法

2024-01-01 15:04:03 57 阅读
C++lambda表达式

2024-01-01 15:04:03 48 阅读
第14课多维数组

2024-01-01 15:04:03 44 阅读
内存泄漏检测工具

2024-01-01 15:04:03 59 阅读
旅游网站Xtrip 前端模板html推荐

2024-01-01 15:04:03 53 阅读
Resilience4j相关面试题及答案

2024-01-01 15:04:03 51 阅读
a.hashCode() 的用途是什么？它与 a.equals(b) 有什么关系

2024-01-01 15:04:03 58 阅读
6.6 会话与输入事件（三）

2024-01-01 15:04:03 53 阅读
有限差分场的数值计算：代数、求导、积分

2024-01-01 15:04:03 44 阅读
《计算机网络》期末复习——第一章：概述

2024-01-01 15:04:03 58 阅读
AI多多：人工智能的魅力与无限可能

2024-01-01 15:04:03 63 阅读
zdppy_api框架快速入门

2024-01-01 15:04:03 51 阅读
MFC消息机制详细剖析

2024-01-01 15:04:03 49 阅读
Windows 10 安装和开启VNCServer 服务

2024-01-01 15:04:03 59 阅读
杭电新生赛大雪球二分

2024-01-01 15:04:03 61 阅读
代码随想录训练营第五十天| ● 123.买卖股票的最佳时机III ● 188.买卖股票的最佳时机IV

2024-01-01 15:04:03 66 阅读
书摘：C 嵌入式系统设计模式 04

2024-01-01 15:04:03 49 阅读
初始Web服务器

2024-01-01 15:04:03 46 阅读
数位DP LeetCode 600 不含连续1的非负整数

2024-01-01 15:04:03 61 阅读
无重复字符的最长子串（刷题日常）

2024-01-01 15:04:03 65 阅读
零基础打靶—BC1靶场

2024-01-01 15:04:03 41 阅读
特征归一化及其原理--机器学习

2024-01-01 15:04:03 51 阅读
Spark大数据分析与实战笔记（第二章 Spark基础-01）

2024-01-01 15:04:03 48 阅读
2013年第二届数学建模国际赛小美赛B题寄居蟹进化出人类的就业模式解题全过程文档及程序

2024-01-01 15:04:03 53 阅读
渗透网站后台

2024-01-01 15:04:03 45 阅读
《数据库开发实践》之存储过程【知识点罗列+例题演练】

2024-01-01 15:04:03 46 阅读
【2023Hadoop大数据技术应用期末复习】填空题题型整理

2024-01-01 15:04:03 56 阅读
LeetCode 每日一题 Day 25|| 简单模拟

2024-01-01 15:04:03 56 阅读
TypeScript快速入门

2024-01-01 15:04:03 39 阅读