【论文阅读】

2024-03-14 18:10:02
开发
21

4. Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads

出处：2019 USENIX-TAC 大规模多租户GPU集群对DNN训练工作负载的分析
主要工作：描述了Microsoft中一个多租户GPU集群两个月的工作负载特征，研究影响多租户集群上DNN训练工作负载的集群利用率的三个问题：
- 队列调度和局部性约束对队列的影响。
- 局部性对GPU利用率的影响。
- 训练期间的故障问题。
介绍GPU集群Philly：

请添加图片描述

① 传入作业和排队：用户可指定GPU数量，调度器跟踪集群中所有空闲GPU，调度时首先考虑机架，然后考虑机架中可用GPU最多的服务器。

②作业放置和利用：将小作业打包到更少的服务器中来避免资源碎片。一旦作业被安排运行，它的GPU就不会与其他作业共享。

③训练进度和完成情况：有三种可能情况：passed：已完成；killed：被用户终止；unsuccessful：不成功。

工具：Apache-Yarn，是一种新的Hadoop资源管理器，是一个通用资源管理系统和调度平台，可以为上层应用提供统一的资源管理和调度。
展望：
- 局部性优先：缺乏局部性会影响利用率和作业运行时间。等待有限的时间来查看是否可以实现局部性，如果不能，则使用局部性宽松的可用资源来调度作业( 从而减少用户的排队时间)。
- 减轻干扰：将不同小作业放在专用服务器上，而不是打包到单个服务器，从而减少这些作业之间的干扰，但会增加碎片化。所以要支持作业迁移以对集群进行碎片整理。
- 改进故障处理：大量作业失败是由于代码或配置中的用户错误造成，语法检查可以放置许多错误，并且可以通过运行训练的第一次迭代来捕获一些运行时错误。

原文地址:https://blog.csdn.net/weixin_46091520/article/details/136678104 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1768218018594295808.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

【论文阅读】

2024-03-14 18:10:02 22 阅读
论文阅读：Vary论文阅读笔记

2024-03-14 18:10:02 35 阅读
论文阅读：Vary-toy论文阅读笔记

2024-03-14 18:10:02 41 阅读
【论文阅读笔记】清单

2024-03-14 18:10:02 51 阅读
《PFL》论文阅读笔记

2024-03-14 18:10:02 52 阅读
gpt阅读论文利器

2024-03-14 18:10:02 36 阅读
SimCSE论文阅读

2024-03-14 18:10:02 41 阅读
[论文阅读]DETR

2024-03-14 18:10:02 38 阅读
[论文阅读]BEVFusion

2024-03-14 18:10:02 31 阅读
论文阅读——ScanQA

2024-03-14 18:10:02 39 阅读

热门阅读

RabbitMQ自学笔记——延迟消息

2024-03-14 18:10:02 19 阅读
xcode15，个推推送SDK闪退问题处理办法

2024-03-14 18:10:02 17 阅读
Linux系统安装Dashy服务结合内网穿透实现公网访问本地导航页

2024-03-14 18:10:02 15 阅读
开发指南007-导出Excel

2024-03-14 18:10:02 18 阅读
通过xlsx库解析读取excel表格内容

2024-03-14 18:10:02 20 阅读
Python Web相关面试题（一）

2024-03-14 18:10:02 18 阅读
JVM学习之常见知识点汇总、2024详细版面试问题汇总；JVM组成、类加载器、GC垃圾回收、堆、栈、方法区

2024-03-14 18:10:02 17 阅读
Spring IOC和AOP

2024-03-14 18:10:02 15 阅读
如何爬取审查元素中Elements里有的，而源代码里没有的标签内容？

2024-03-14 18:10:02 17 阅读
第16届大广赛XPPen都有哪些参赛命题

2024-03-14 18:10:02 17 阅读
linux上MySQL的安装

2024-03-14 18:10:02 20 阅读
【Docker】PostgreSQL 容器化部署

2024-03-14 18:10:02 64 阅读
【SQL】1070. 产品销售分析 III（窗口函数）

2024-03-14 18:10:02 19 阅读
sqllab第四关通关笔记

2024-03-14 18:10:02 18 阅读
【刷题笔记】动态规划

2024-03-14 18:10:02 16 阅读
如何在CentOS7搭建DashDot服务器仪表盘并实现远程监控

2024-03-14 18:10:02 17 阅读
前端定义了全局变量后，再定义一个同名的局部变量

2024-03-14 18:10:02 20 阅读
面试题：JVM 的组织架构

2024-03-14 18:10:02 21 阅读
密码保护小贴士：如何应对常见的网络钓鱼攻击？

2024-03-14 18:10:02 17 阅读
[云原生] Prometheus自动服务发现部署

2024-03-14 18:10:02 17 阅读
Leetcode 70 爬楼梯

2024-03-14 18:10:02 18 阅读
springMVC下载文件

2024-03-14 18:10:02 18 阅读
最新ChatGPT支持下的PyTorch机器学习与深度学习

2024-03-14 18:10:02 17 阅读
Ribbon简单使用

2024-03-14 18:10:02 15 阅读
0 OpenHarmony开源鸿蒙NEXT星河版内核嵌入式编程

2024-03-14 18:10:02 19 阅读
Nginx和Ribbon相比有哪些不同?

2024-03-14 18:10:02 20 阅读
富格林：严守交易安全阻挠受害

2024-03-14 18:10:02 18 阅读
MySQL学习Day32——数据库备份与恢复

2024-03-14 18:10:02 15 阅读
重启 explorer 进程的正确做法（二）

2024-03-14 18:10:02 17 阅读
数据结构-链表（二）

2024-03-14 18:10:02 20 阅读