LLM学习笔记-2

在未标记数据上进行预训练


  1. 本章概要

  2. 在上节的笔记中,因为训练出的效果,并不是特别理想,在本节中,会用数据进行训练,使得模型更加的好;
    改图为上一节笔记

  3. 计算文本生成损失

inputs = torch.tensor([[16833, 3626, 6100],   # ["every effort moves",
                       [40,    1107, 588]])   #  "I really like"]

targets = torch.tensor([[3626, 6100, 345  ],  # [" effort moves you",
                        [588,  428,  11311]]) #  " really like chocolate"]

假设我们有一个inputs张量,包含了2个训练样本(行)的标记ID。,以下改图,进行阐释了此词汇表的产生
在这里插入图片描述
在这里插入图片描述
在数学优化中,最大化概率分数的对数比分数值本身更容易,这里介绍一个回归损失函数Youtube

在这里插入图片描述
其中10.7722称为交叉熵损失。

  1. 训练阶段(代码整理完后更新)

  2. 训练结果
    在这里插入图片描述
    在这里插入图片描述

  3. 这次效果比上一节的效果好了很多。有很大的进步。

相关推荐

  1. LLM设计原理学习笔记

    2024-04-22 18:08:03       34 阅读
  2. LLVM学习笔记(64)

    2024-04-22 18:08:03       26 阅读
  3. LLVM TableGen 系统学习笔记

    2024-04-22 18:08:03       23 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-22 18:08:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-22 18:08:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-22 18:08:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-22 18:08:03       20 阅读

热门阅读

  1. CSS3 动画

    2024-04-22 18:08:03       14 阅读
  2. 在react配置使用less的最优解

    2024-04-22 18:08:03       15 阅读
  3. git 命令大全(常用)

    2024-04-22 18:08:03       16 阅读
  4. 独孤思维:副业借势,无往不利

    2024-04-22 18:08:03       16 阅读
  5. Hidl 学习总结 3

    2024-04-22 18:08:03       12 阅读
  6. Jmeter v5.6.x 使用说明书(简要版)

    2024-04-22 18:08:03       11 阅读
  7. G口服务器的作用是什么?

    2024-04-22 18:08:03       13 阅读
  8. 每天学习一个Linux命令之chown

    2024-04-22 18:08:03       15 阅读
  9. 常见的领域驱动设计架构

    2024-04-22 18:08:03       15 阅读
  10. SRE职能描述以及个人见解

    2024-04-22 18:08:03       14 阅读
  11. 力扣【剑指offer】二维数组中的查找

    2024-04-22 18:08:03       12 阅读
  12. cannot import name ‘cross_validation’ from ‘sklearn’

    2024-04-22 18:08:03       15 阅读