LLM推理参数(top_k,top_p, temperature, num_beams)

正常LLM做 next token predicate 时,对输出的 logits 做 softmax,选择概率最大的token。

在这里插入图片描述

  • num_beams :当我们设置 num_beams=2 后,就使用了 beam search 的方法,每次不是只直接选择概率最大的 token,而是保留 num_beams 个概率最大的 token 选择,接着进行下一轮的 next token predicate,把两次预测的 token的 联合概率作为选择标准,选取联合概率最大的分支。
    在这里插入图片描述

  • top_k:当我们设置top_k=2之后,会对LLM输出的 logits 保留 top_k 个最大的,然后其他 token 的 logits 设置为负无穷-inf,再对所有 logits 进行 softmax,那么-inf就会变成0,选概率最大的token即可。实现了在top_k个概率最大的 token 中选取。
    在这里插入图片描述

  • top_p:当我们设置top_p=0.8之后,对每个token的softmax的概率累积求和,当概率达到top_p之后,后面概率更小的token概率设置为-inf,然后再经过一次softmax重新分配概率,取概率最大的token。
    在这里插入图片描述

  • temperature:当我们设置temperature=[0,2]之后,就是对softmax进行调节。temperature越大,softmax得到的各个token概率越平均,生成的随机性越大。

在这里插入图片描述
在这里插入图片描述

相关推荐

  1. LLM - 模型参数设置

    2024-04-06 17:02:01       39 阅读
  2. LLM推理及加速知识

    2024-04-06 17:02:01       36 阅读
  3. 大模型(LLM)的推理加速

    2024-04-06 17:02:01       31 阅读
  4. LLM推理需要占用多少显存

    2024-04-06 17:02:01       20 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-06 17:02:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-06 17:02:01       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-06 17:02:01       82 阅读
  4. Python语言-面向对象

    2024-04-06 17:02:01       91 阅读

热门阅读

  1. PDF格式解析:stream中图形状态保存指令q

    2024-04-06 17:02:01       37 阅读
  2. 用虚拟机安装gnu radio

    2024-04-06 17:02:01       35 阅读
  3. 【数据结构】时间和空间复杂度

    2024-04-06 17:02:01       41 阅读
  4. 考研总计划篇

    2024-04-06 17:02:01       41 阅读
  5. C++类基础11——运算符重载

    2024-04-06 17:02:01       36 阅读
  6. tomcat处理Http请求流程的步骤

    2024-04-06 17:02:01       44 阅读
  7. Promise-以往的异步编程模式

    2024-04-06 17:02:01       37 阅读
  8. Acwing.504 转圈游戏(带取余的快速幂)

    2024-04-06 17:02:01       30 阅读
  9. 【一】Mac 本地部署大模型

    2024-04-06 17:02:01       35 阅读