chatglm4 支持更长内容输入model_max_length 128k;外推最大支持1M 100万

参考:
https://huggingface.co/THUDM/glm-4-9b-chat-1m
GLM-4-9B-Chat-1M 的模型仓库,支持1M上下文长度(100万)

下载:

export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download --resume-download --local-dir-use-symlinks False THUDM/glm-4-9b-chat-1m  --local-dir glm4-9b-1m

vllm推理:
要使用 --enable_chunked_prefill --max_num_batched_tokens 8192 两个参数,不适用两张卡也不足
在这里插入图片描述

CUDA_VISIBLE_DEVICES=1,2 docker run  --gp

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 12:46:02       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 12:46:02       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 12:46:02       45 阅读
  4. Python语言-面向对象

    2024-07-20 12:46:02       55 阅读

热门阅读

  1. 三种著名兵器

    2024-07-20 12:46:02       17 阅读
  2. 达梦+flowable改造

    2024-07-20 12:46:02       19 阅读
  3. 杀毒软件对比

    2024-07-20 12:46:02       18 阅读
  4. 京准:GPS北斗卫星授时信号安全隔离防护装置

    2024-07-20 12:46:02       17 阅读
  5. vue2关于Object.defineProperty实现响应式

    2024-07-20 12:46:02       18 阅读
  6. 离散化

    2024-07-20 12:46:02       17 阅读
  7. RedisTemplate 查看key的过期时间

    2024-07-20 12:46:02       19 阅读
  8. Spark Streaming

    2024-07-20 12:46:02       16 阅读
  9. Redis 跳跃列表与紧凑列表

    2024-07-20 12:46:02       21 阅读