LLM 训练策略

temperature

用于控制模型输出的结果的随机性,这个值越大随机性越大。一般我们多次输入相同的prompt之后,模型的每次输出都不一样。

设置为 0,对每个prompt都生成固定的输出
较低的值,输出更集中,更有确定性
较高的值,输出更随机(更有创意 )

  • ChatGLM提供的例子把范围限定在0-1之间。

解码过程greedy decoding/top-k/top-p

  • greedy decoding: 总是选择最高分的 token;好处是简单,坏处是容易生成循环、重复的内容。
  • top-k:每次采样选取概率最大的k个token,然后根据它们的 likelihood scores 来采样;当k=1时,退化到greedy decoding;
  • top-p:不是设置前N个概率最大的token,而是设置一个概率阈值,候选词列表是动态的,从 tokens 里按百分比选择候选词;(默认 top-p 值就是 0.7/0.8 ),设置太低模型的输出太固定,设置太高,模型彻底放飞自我也不好。

相关推荐

  1. LLM 训练策略

    2024-05-16 13:58:05       28 阅读
  2. 如何使用 PyTorch 训练 LLM

    2024-05-16 13:58:05       58 阅读
  3. [LLM]大模型训练DeepSpeed(三)

    2024-05-16 13:58:05       27 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-16 13:58:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-16 13:58:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-05-16 13:58:05       82 阅读
  4. Python语言-面向对象

    2024-05-16 13:58:05       91 阅读

热门阅读

  1. 免费 API 推荐! 零成本提升项目能力 - CSDN 博客

    2024-05-16 13:58:05       41 阅读
  2. vue3 项目中 前端实现下载模板 csv文件

    2024-05-16 13:58:05       24 阅读
  3. PostgreSQL进行大版本升级

    2024-05-16 13:58:05       23 阅读
  4. 什么是Docker容器的基础镜像

    2024-05-16 13:58:05       34 阅读