后传-GEMM通用矩阵乘优化

写在前面

本文不是GEMM优化教程!!!

只适合已经学过GEMM理论,但是在实践过程中对thredidx,blockidx与矩阵中数据的对应关系还有困惑的同学。

可以先看完其他教程再来本文巩固一下。

主体

本文以CUDA矩阵乘法的优化中的gemm_128x128为示例画出线程与数据中的对应关系,先看完链接中的内容再来看这个比较好。

在这里插入图片描述
这里压缩画质了,可以访问link下载

待补充

此示例中m,n,k必须是32的倍数,无法计算通用的矩阵,后续会添加,敬请期待。

写在后面

这是作者第一次写文章,明明脑子里面想的很好,但就是表达不出来,写下来的要么唠唠叨叨一大堆,要么十分简洁,只有自己才能看懂。从小到大最害怕的就是写文章了┭┮﹏┭┮。

作者水平疏浅,还请见谅。如果您在阅读的过程中发现错误或者觉得哪里还需要完善,欢迎联系作者。

相关推荐

  1. CUDA算子优化矩阵GEMM优化(三)

    2024-01-13 01:34:03       35 阅读
  2. 使用cuBLAS做行优先矩阵矩阵

    2024-01-13 01:34:03       42 阅读
  3. 【架构分析】GPU执行GEMM矩阵运算实例演示

    2024-01-13 01:34:03       28 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-13 01:34:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-13 01:34:03       106 阅读
  3. 在Django里面运行非项目文件

    2024-01-13 01:34:03       87 阅读
  4. Python语言-面向对象

    2024-01-13 01:34:03       96 阅读

热门阅读

  1. golang中context详解

    2024-01-13 01:34:03       57 阅读
  2. 真正的强大,原来是不动声色的

    2024-01-13 01:34:03       52 阅读
  3. leetcode 437 路径总和

    2024-01-13 01:34:03       58 阅读
  4. 医院患者满意度调查报告如何撰写

    2024-01-13 01:34:03       53 阅读
  5. openssl3.2 - 官方demo学习 - server-conf.c

    2024-01-13 01:34:03       53 阅读
  6. 2024.1.4力扣每日一题——被列覆盖的最多行数

    2024-01-13 01:34:03       65 阅读
  7. DEJA_VU3D - Cesium功能集 之 112-获取圆节点(1)

    2024-01-13 01:34:03       59 阅读
  8. 关键字联合体union的定义和使用

    2024-01-13 01:34:03       48 阅读
  9. 学习之路 会有很多失败

    2024-01-13 01:34:03       56 阅读
  10. git中常用的tag命令

    2024-01-13 01:34:03       48 阅读