[论文笔记] PAI-Megatron 源码解读之Mistral的滑动窗口sliding window

        这段代码是 _make_causal_mask 函数中处理滑动窗口局部注意力的部分。这里的目的是创建一个额外的掩码,以便在自注意力机制中只考虑每个位置附近的一定数量的位置,而不是所有之前的位置。这通常用于减少计算复杂性和提高长序列处理的效率。

        代码分析如下:

  1. diagonal = past_key_values_length - sliding_window + 1: 这里计算的是上三角矩阵(triu)的开始对角线的索引。对于每个位置 i,这个滑动窗口限制它只能看到从位置 i - sliding_window + 1 到位置 i 的信息。如果考虑了历史键值对的长度,那么窗口将从 i + past_key_values_length - sliding_window + 1 开始。

  2. torch.ones_like(mask, dtype=torch.int): 创建一个和 mask 形状相同的全是 1 的张量。这将作为基础矩阵来创建上三角掩码。

  3. torch.triu(...): 创建一个上三角矩阵,其中 diagonal 参数指定了对角线的索引。对角线以上的元素全部为1,对角线以下(含对角线自身)的元素为0。这意味着对于每个位置 i,它只能关注到 i - sliding_window + 1 之后的位置。

  4. context_mask = 1 - torch.triu(...)

相关推荐

  1. [论文笔记] PAI-Megatron中qwen和mistral合并到Megtron-LM

    2024-01-30 14:08:03       40 阅读
  2. [论文笔记] megatron训练参数:dataloader_type

    2024-01-30 14:08:03       14 阅读
  3. 刷题笔记 - 滑动窗口

    2024-01-30 14:08:03       11 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-30 14:08:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-30 14:08:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-30 14:08:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-30 14:08:03       20 阅读

热门阅读

  1. 人员安全和风险管理的概念

    2024-01-30 14:08:03       36 阅读
  2. 学废SpringBoot+Redis+Lua=王炸(值得珍藏)

    2024-01-30 14:08:03       28 阅读
  3. Django实现富文本编辑器Ckeditor5图片上传功能

    2024-01-30 14:08:03       31 阅读
  4. 力扣labuladong一刷day71天动态规划5题

    2024-01-30 14:08:03       30 阅读
  5. Qt容器类

    2024-01-30 14:08:03       35 阅读
  6. 【微服务】概述

    2024-01-30 14:08:03       29 阅读
  7. 微服务系统设计:横向扩展和纵向扩展的对比

    2024-01-30 14:08:03       35 阅读
  8. 解决Qt连接不上mysql数据库

    2024-01-30 14:08:03       40 阅读