gpt、llama大模型模型结构细节探索

参考:
https://github.com/naklecha/llama3-from-scratch(一定要看看)
https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:
https://www.youtube.com/watch?v=l8pRSuU81PU
在这里插入图片描述
在这里插入图片描述

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)
在这里插入图片描述
在这里插入图片描述

可以通过transformers加载模型查看具体结构和权重情况:

from transformers import GPT2LMHeadModel

model_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()

for k, v in sd_hf.items():
    print(k, v.shape)

在这里插入图片描述
可以查看打印每层权重:

sd_hf["transformer.wpe.weight"].view(-1)[:20]

import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")

在这里插入图片描述

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-06-11 06:22:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-11 06:22:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-11 06:22:01       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-11 06:22:01       20 阅读

热门阅读

  1. PostgreSQL的视图pg_tables

    2024-06-11 06:22:01       9 阅读
  2. Nginx

    Nginx

    2024-06-11 06:22:01      10 阅读
  3. I/O 设备与设备控制器

    2024-06-11 06:22:01       11 阅读
  4. Credit Risk Measurement and Management

    2024-06-11 06:22:01       9 阅读
  5. numpy 函数库 分类整理概览

    2024-06-11 06:22:01       7 阅读
  6. c语言基础篇D

    2024-06-11 06:22:01       9 阅读
  7. 计算引擎:Flink核心概念

    2024-06-11 06:22:01       9 阅读
  8. linux恶意IP溯源

    2024-06-11 06:22:01       13 阅读
  9. 国内12寸先进封装厂家的一些情况

    2024-06-11 06:22:01       10 阅读