【动手学深度学习】(十三)深度学习硬件

2023-12-14 23:10:05
开发
49

文章目录

一、CPU和GPU
二、更多的芯片
三、单机多卡并行

一、CPU和GPU

在这里插入图片描述
提升CPU利用率

在计算a+b之前，需要准备数据
- 主内存->L3->L2->L1->寄存器(数据只有进入寄存器才可以参与运算)
提升空间和时间的内存本地性
- 时间：重要数据使得保持它们在缓存里
- 空间：按序读写数据使得可以预读取

GPU
在这里插入图片描述
CPU vs GPU

提升GPU利用率

并行
- 使用数千个线程
内存本地性
- 缓存更小，构建更加简单
少用控制语句
[总结]：
CPU:用于处理通用计算。性能优化考虑数据读写效率和多线程。
GPU：使用更小的核核更多的内存带宽，适合能大规模并行的计算任务。

二、更多的芯片

1.DSP:数字信号处理

在这里插入图片描述

2.可编程阵列(FPGA)

在这里插入图片描述

3.AI ASIC

在这里插入图片描述

三、单机多卡并行

一台机器可以安装多个GPU（1-16）
在训练和预测时，我们将一个小批量计算切分到多个GPU上来达到加速目的
常用切分方案有：
- 数据并行
- 模型并行
- 通道并行（数据+模型并行）

数据并行vs模型并行

数据并行：将小批量分成n块，每个GPU拿到完整参数计算一块数据的梯度
- 通常性能比更好
模型并行：将模型分成n块，每个GPU拿到一块模型计算它的前向和方向结果
- 通常用于模型大到单GPU放不下

原文地址:https://blog.csdn.net/qq_52986400/article/details/135000319 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1735316230962810880.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

【动手学深度学习】(十三)深度学习硬件

2023-12-14 23:10:05 50 阅读
动手学深度学习—深度学习计算

2023-12-14 23:10:05 43 阅读
动手学深度学习——pandas

2023-12-14 23:10:05 29 阅读
动手学深度学习——矩阵

2023-12-14 23:10:05 33 阅读
动手学深度学习——tensor

2023-12-14 23:10:05 32 阅读
【动手学深度学习】(十一)卷积层

2023-12-14 23:10:05 53 阅读
【动手学深度学习】(十)PyTorch 神经网络基础+GPU

2023-12-14 23:10:05 39 阅读
【动手学深度学习】(十一)池化层+LeNet

2023-12-14 23:10:05 38 阅读
【动手学深度学习】(十四)数据增广+微调

2023-12-14 23:10:05 51 阅读
李沐《动手学深度学习》深度学习计算

2023-12-14 23:10:05 59 阅读

最近更新

题解 - 序列

2023-12-14 23:10:05 117 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2023-12-14 23:10:05 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2023-12-14 23:10:05 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2023-12-14 23:10:05 101 阅读
NoSQL之Redis非关系型数据库

2023-12-14 23:10:05 101 阅读
2024.7.22 作业

2023-12-14 23:10:05 98 阅读
GDB调试正在运行的程序

2023-12-14 23:10:05 82 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2023-12-14 23:10:05 85 阅读
在Django里面运行非项目文件

2023-12-14 23:10:05 82 阅读
SSD基本架构与工作原理

2023-12-14 23:10:05 87 阅读
在誉天学习完HCIE就业吗？

2023-12-14 23:10:05 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2023-12-14 23:10:05 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2023-12-14 23:10:05 86 阅读
go 协程池的实现

2023-12-14 23:10:05 89 阅读
Shell脚本循环语句与函数

2023-12-14 23:10:05 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2023-12-14 23:10:05 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2023-12-14 23:10:05 85 阅读
四大引用——强软弱虚

2023-12-14 23:10:05 87 阅读
Python语言-面向对象

2023-12-14 23:10:05 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2023-12-14 23:10:05 85 阅读
网站安全-CDN篇

2023-12-14 23:10:05 89 阅读

热门阅读

【九】python模板方法模式

2023-12-14 23:10:05 56 阅读
Cent OS7 磁盘挂载：扩展存储空间和自动挂载

2023-12-14 23:10:05 62 阅读
C#winform上下班打卡系统Demo

2023-12-14 23:10:05 45 阅读
极新AIGC行业峰会 | 圆桌对话：探索中国AGI迭代之路

2023-12-14 23:10:05 51 阅读
A Hard Trip

2023-12-14 23:10:05 50 阅读
【Docker 的基本使用】

2023-12-14 23:10:05 50 阅读
成绩分级 C语言xdoj53

2023-12-14 23:10:05 58 阅读
InitializingBean初始化--Spring容器管理

2023-12-14 23:10:05 47 阅读
【Spring】03 容器

2023-12-14 23:10:05 56 阅读
本地如何使用PHP搭建简单Imagewheel云图床，结合内网穿透实现在外远程访问？

2023-12-14 23:10:05 75 阅读
three.js（二）

2023-12-14 23:10:05 49 阅读
【Datawhale 大模型基础】第一章：引言

2023-12-14 23:10:05 60 阅读
uniCloud（一）新建项目、初始化服务空间、云对象访问测试

2023-12-14 23:10:05 56 阅读
vue 零散记录之全局安装包

2023-12-14 23:10:05 56 阅读
函数的名称空间与作用域

2023-12-14 23:10:05 60 阅读
CS106L2023 and CS106B 环境配置(详细教程)

2023-12-14 23:10:05 60 阅读
工业级路由器在货运物流仓储管理中的应用

2023-12-14 23:10:05 58 阅读
nginx的location与rewrite

2023-12-14 23:10:05 66 阅读
Nginx【通俗易懂】《中篇》

2023-12-14 23:10:05 61 阅读
nginx多端口部署

2023-12-14 23:10:05 62 阅读
typescript 实现Optional

2023-12-14 23:10:05 57 阅读
逻辑回归原理及代码

2023-12-14 23:10:05 60 阅读
C# Solidworks二次开发：三种获取SW设计结构树的方法-第一讲

2023-12-14 23:10:05 61 阅读
Spring Boot 可以同时处理多少请求？

2023-12-14 23:10:05 49 阅读
计算机组成原理-AT&T格式vsIntel格式

2023-12-14 23:10:05 51 阅读
ChatGPT Plus重新开启订阅

2023-12-14 23:10:05 57 阅读
Docker笔记：Docker Swarm 结合 Docker Compose 来部署集群

2023-12-14 23:10:05 62 阅读
PE文件格式-PE文件头部

2023-12-14 23:10:05 46 阅读
Baumer工业相机堡盟工业相机如何通过BGAPISDK获取相机的各种信息如SN/ID等等（C++）

2023-12-14 23:10:05 55 阅读
python每日学10：关于python实用版本的选择

2023-12-14 23:10:05 58 阅读