机器学习和深度学习-- 李宏毅（笔记于个人理解）Day 21

2024-04-20 22:50:02
开发
14

Day 21 Self- Attention

选修部分

学完自适应再回来看看

Sequence Labling

假如我们现在有一个需要读完全部句子才能解的问题，那么red window 就需要变得是最大的（最长的句子）；

其实这里大家有没有想过，这个玩意儿就是个卷积网络CNN，所谓的window 就是卷积核

what is self Attention?

how self-attention work

主要考虑 Dot -product

实际操作自己也要做关联计算qk

如果b¹ 和 v² 比较接近的话，那么我们就说这a1 和a2 比较像

b1 --b4 是同时产生的

矩阵运算的角度

你也可以不做softmax（Relu 也行）

（小bug是 a_head 换成 '）

Multi-head -self-attention

Positional Encoding

hand - crafted (s to s 的规则使得不会超过位置信息)

can learned from data

这里感觉不到数学的巧妙，只是感到了工程的流水线的简洁和高效

Applicantions

Self -attention vs CNN

弹性较大，数据较小的时候容易过拟合

提问：

我们知道 fc 和cnn差不多(无非是fc更宽一些，如果你把cnn当初fc做的话有可能丢失位置信息，或可能需要postion encode)，那么问你为什么不把windows变得很大去卷积呢？

如果说像老师说的

无法得知最长的sequerence

参数量大（这里不太明白参数量大在什么地方）

Self-Attention vs RNN

这里和我理解的差不多，就是特征彼此离得太远有点记不住了

RNN 无法进行并行计算

Self - Attention for Graph

可以做智能知识图谱哎，相关性度量；this is one type of Graph Neural Network(GNN)

原文地址:https://blog.csdn.net/weixin_65403042/article/details/137974964 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1781696832523603968.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

Android笔记： mkdirs失败，不生效怎么办

2024-04-20 22:50:02 37 阅读
$密码学 | 椭圆曲线数字签名方法 ECDSA（上）$

密码学 | 椭圆曲线数字签名方法 ECDSA（上）

2024-04-20 22:50:02 12 阅读
Ansible组件说明

2024-04-20 22:50:02 11 阅读
C++必修：从C语言到C++的过渡(上）

2024-04-20 22:50:02 11 阅读
计算机网络——应用层（4）DHCP和套接字编程

2024-04-20 22:50:02 13 阅读
Led驱动程序

2024-04-20 22:50:02 13 阅读
张大哥笔记：一个很笨但是能赚钱的方法

2024-04-20 22:50:02 12 阅读
TRIZ理论下攀爬机器人的创新设计与研究

2024-04-20 22:50:02 14 阅读
Springboot整合物联网IOT的MQTT协议

2024-04-20 22:50:02 13 阅读
MATLAB设置变量

2024-04-20 22:50:02 13 阅读
ASP.NET基于CS应用程序平台多语种技术应用研究

2024-04-20 22:50:02 13 阅读
推荐算法之协同过滤

2024-04-20 22:50:02 14 阅读
云LIS系统源码，ASP.NET区域LIS系统源码，实验室信息系统

2024-04-20 22:50:02 11 阅读
ASP.NET基于BS结构的实验室预约模型系统

2024-04-20 22:50:02 15 阅读
渗透测试工作任务概述

2024-04-20 22:50:02 16 阅读
存内计算对大语言模型推理的加速

2024-04-20 22:50:02 13 阅读
Redis中的事务(二)

2024-04-20 22:50:02 13 阅读
python中的并发编程-进程、线程2

2024-04-20 22:50:02 14 阅读
数据库-Redis（18）

2024-04-20 22:50:02 14 阅读
wsl + ubuntu + pycups + mqtt 远程打印入门

2024-04-20 22:50:02 16 阅读
Jmeter 测试-跨线程调用变量

2024-04-20 22:50:02 13 阅读
数的范围---二分法一次搞懂

2024-04-20 22:50:02 12 阅读
应用编程之进程（二）

2024-04-20 22:50:02 13 阅读
pycharm-git 配置(1)

2024-04-20 22:50:02 15 阅读
# C++之STL整理（9）之list用法（创建、赋值、增删查改）详解

2024-04-20 22:50:02 12 阅读
高精度算法(2)

2024-04-20 22:50:02 13 阅读
docker-002常用命令

2024-04-20 22:50:02 12 阅读
密码学基础 -- 走进RSA(1)(放弃数学原理版)

2024-04-20 22:50:02 16 阅读
牛x之路 - Day1

2024-04-20 22:50:02 14 阅读
Unity地形关联出错的解决办法以及地形深度拷贝

2024-04-20 22:50:02 12 阅读