『大模型笔记』LLM秘密：温度、Top-K和Top-P抽样技术解析！

2024-07-21 00:20:01
开发
15

『大模型笔记』LLM秘密：温度、Top-K和Top-P抽样技术解析！

文章目录

一. LLM秘密：温度、Top-K和Top-P随机采样技术解析！
补充：TopK采样解释：
二. 参考文献

一. LLM秘密：温度、Top-K和Top-P随机采样技术解析！

嗨，大家好！今天我们将学习 大语言模型中的随机采样技术，这是一个关键算法，我们还将探讨三个重要的辅助技术：温度（Temperature）、TopK和TopP采样。首先，让我们回顾一下大语言模型是如何生成文本的。简单来说，它们通过自回归方式生成文本，即在每个步骤生成一个Token时，利用一定窗口内的前几个Token的信息，为每个单词创建一个概率分布，从中选择当前步骤的最佳候选词。

通常，我们可以简单地选择概率最高的单词，这种方法被称为 贪婪解码（greedy decoding）。例如，对于句子“today the weather is”，会选择单词“sunny”。然而，这种方法往往会导致输出过于确定和重复，这在某些需要精确结果的情况下是有用的，比如语音识别系统的语音转录。

但在大语言模型中，我们的目标往往是生成具有一定创造性的输出。这些模型被设计用来捕捉和再现人类语言的复杂性，其中多样性和原创性是很重要的。通过温度、TopK和TopP

原文地址:https://blog.csdn.net/abc13526222160/article/details/140546895 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1814696775467012096.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-21 00:20:01 69 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-21 00:20:01 57 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-21 00:20:01 52 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-21 00:20:01 54 阅读
NoSQL之Redis非关系型数据库

2024-07-21 00:20:01 61 阅读
2024.7.22 作业

2024-07-21 00:20:01 61 阅读
GDB调试正在运行的程序

2024-07-21 00:20:01 46 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-21 00:20:01 49 阅读
在Django里面运行非项目文件

2024-07-21 00:20:01 45 阅读
SSD基本架构与工作原理

2024-07-21 00:20:01 52 阅读
在誉天学习完HCIE就业吗？

2024-07-21 00:20:01 58 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-21 00:20:01 49 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-21 00:20:01 51 阅读
go 协程池的实现

2024-07-21 00:20:01 50 阅读
Shell脚本循环语句与函数

2024-07-21 00:20:01 51 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-21 00:20:01 55 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-21 00:20:01 50 阅读
四大引用——强软弱虚

2024-07-21 00:20:01 54 阅读
Python语言-面向对象

2024-07-21 00:20:01 55 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-21 00:20:01 50 阅读
网站安全-CDN篇

2024-07-21 00:20:01 51 阅读

热门阅读

组队学习——贝叶斯分类器

2024-07-21 00:20:01 17 阅读
Web学习day05

2024-07-21 00:20:01 20 阅读
大数据-39 Redis 高并发分布式缓存 Ubuntu源码编译安装云服务器启动并测试 redis-server redis-cli

2024-07-21 00:20:01 16 阅读
反正切函数arctanx的应用

2024-07-21 00:20:01 19 阅读
科普文：产品知识体系

2024-07-21 00:20:01 20 阅读
高阶面试-hw算法整理

2024-07-21 00:20:01 19 阅读
【系统架构设计师】论文：论行业应用软件系统的开发规划

2024-07-21 00:20:01 21 阅读
Kubescape和Copa修复镜像漏洞

2024-07-21 00:20:01 18 阅读
JVM监控及诊断工具-命令行篇-jstack命令介绍

2024-07-21 00:20:01 20 阅读
【UE5.1】NPC人工智能——04 NPC巡逻

2024-07-21 00:20:01 17 阅读
【系统架构设计】数据库系统（三）

2024-07-21 00:20:01 18 阅读
std::bind 简单实验

2024-07-21 00:20:01 17 阅读
中电金信：语言服务游戏行业解决方案

2024-07-21 00:20:01 17 阅读
Hello，算法！

2024-07-21 00:20:01 19 阅读
数据库之数据类型

2024-07-21 00:20:01 14 阅读
并发编程面试题1

2024-07-21 00:20:01 15 阅读
【内网安全】横向移动-Kerberos-SPN-WinRM-RDP

2024-07-21 00:20:01 21 阅读
代码保存板块

2024-07-21 00:20:01 21 阅读
Git 代码管理面试59题（一）

2024-07-21 00:20:01 20 阅读
Kudu节点数规划

2024-07-21 00:20:01 24 阅读
【AI学习】LLaMA 系列模型的进化（二）

2024-07-21 00:20:01 21 阅读
【从0到1，训练大模型，从llama3开始】

2024-07-21 00:20:01 21 阅读
GSAP动画魔法：解锁网页设计的无限创意与动感

2024-07-21 00:20:01 23 阅读
Emacs

2024-07-21 00:20:01 18 阅读
Docker 使用

2024-07-21 00:20:01 21 阅读
提升 Google 对网站兴趣的关键：颜值与内容并重

2024-07-21 00:20:01 14 阅读
C# 中的 String.Join 与循环

2024-07-21 00:20:01 23 阅读
LeetcodeHot100-141.环形链表

2024-07-21 00:20:01 20 阅读
2024.07.20【读书笔记】|医疗科技创新流程（第二章创新创造 Acclarent案例研究）

2024-07-21 00:20:01 20 阅读
U-Net: 一种用于图像分割的深度学习架构

2024-07-21 00:20:01 19 阅读