chatglm4 支持更长内容输入model_max_length 128k；外推最大支持1M 100万

2024-07-20 12:46:02
开发
16

参考：
https://huggingface.co/THUDM/glm-4-9b-chat-1m
GLM-4-9B-Chat-1M 的模型仓库，支持1M上下文长度（100万）

下载：

export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download --resume-download --local-dir-use-symlinks False THUDM/glm-4-9b-chat-1m  --local-dir glm4-9b-1m

vllm推理：
要使用 --enable_chunked_prefill --max_num_batched_tokens 8192 两个参数，不适用两张卡也不足
在这里插入图片描述

CUDA_VISIBLE_DEVICES=1,2 docker run  --gp

原文地址:https://blog.csdn.net/weixin_42357472/article/details/140545483 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1814522128968585216.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-20 12:46:02 69 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-20 12:46:02 57 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-20 12:46:02 52 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-20 12:46:02 54 阅读
NoSQL之Redis非关系型数据库

2024-07-20 12:46:02 61 阅读
2024.7.22 作业

2024-07-20 12:46:02 61 阅读
GDB调试正在运行的程序

2024-07-20 12:46:02 46 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-20 12:46:02 49 阅读
在Django里面运行非项目文件

2024-07-20 12:46:02 45 阅读
SSD基本架构与工作原理

2024-07-20 12:46:02 52 阅读
在誉天学习完HCIE就业吗？

2024-07-20 12:46:02 58 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-20 12:46:02 49 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-20 12:46:02 51 阅读
go 协程池的实现

2024-07-20 12:46:02 50 阅读
Shell脚本循环语句与函数

2024-07-20 12:46:02 51 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-20 12:46:02 55 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-20 12:46:02 50 阅读
四大引用——强软弱虚

2024-07-20 12:46:02 54 阅读
Python语言-面向对象

2024-07-20 12:46:02 55 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-20 12:46:02 50 阅读
网站安全-CDN篇

2024-07-20 12:46:02 51 阅读

热门阅读

三种著名兵器

2024-07-20 12:46:02 17 阅读
力扣刷题之3112.访问消失节点的最少时间

2024-07-20 12:46:02 16 阅读
牛客0718B——Arraylist 和LinkedList static修饰变量和方法

2024-07-20 12:46:02 18 阅读
【C++】C++标准库iostream中cin、cout、cerr、clog方法解析

2024-07-20 12:46:02 20 阅读
ISP数据在精确定位中的技术实现

2024-07-20 12:46:02 17 阅读
达梦+flowable改造

2024-07-20 12:46:02 19 阅读
杀毒软件对比

2024-07-20 12:46:02 18 阅读
W29--python01-字典与字符串互转，列表和元组可以互转

2024-07-20 12:46:02 16 阅读
浅谈芯片验证中的仿真运行之 timescale （六）作用域问题

2024-07-20 12:46:02 17 阅读
Re：从零开始的C++世界——动态内存管理

2024-07-20 12:46:02 15 阅读
京准：GPS北斗卫星授时信号安全隔离防护装置

2024-07-20 12:46:02 17 阅读
创建线程的多种方式

2024-07-20 12:46:02 19 阅读
SpringCloudAlibaba Seata AT模式实现分布式事务原理概述

2024-07-20 12:46:02 20 阅读
应对AI模型中的“Loss Function NaN”错误：损失函数调试

2024-07-20 12:46:02 22 阅读
Docker--harbor私有仓库部署与管理

2024-07-20 12:46:02 20 阅读
fastapi教程（二）：前置知识点补充

2024-07-20 12:46:02 17 阅读
IDC的安全

2024-07-20 12:46:02 16 阅读
vue2关于Object.defineProperty实现响应式

2024-07-20 12:46:02 18 阅读
QT开发积累——浮点类型的大小比较-----qFuzzyCompare 的作用

2024-07-20 12:46:02 18 阅读
离散化

2024-07-20 12:46:02 17 阅读
Spring中的IOC详解

2024-07-20 12:46:02 16 阅读
RedisTemplate 查看key的过期时间

2024-07-20 12:46:02 19 阅读
python调用chrome浏览器自动化如何选择元素

2024-07-20 12:46:02 16 阅读
实战项目：仿muduo库实现并发服务器

2024-07-20 12:46:02 21 阅读
通用选股框架——多因子模型

2024-07-20 12:46:02 17 阅读
Spark Streaming

2024-07-20 12:46:02 16 阅读
用C#打印等腰三角形，打印四个方向的直角三角形

2024-07-20 12:46:02 16 阅读
Redis 跳跃列表与紧凑列表

2024-07-20 12:46:02 21 阅读
【Python】PyMySQL 和 mysql-connector-python 的比较：差异详解

2024-07-20 12:46:02 15 阅读
【论文阅读笔记】Hierarchical Neural Coding for Controllable CAD Model Generation

2024-07-20 12:46:02 17 阅读