AWS Sagemaker详解
- 开发
- 35
-
Sagemaker各个组件的介绍
Ground Truth
- Sagemaker Ground Truth Labeling platform。
- 图片语义分析= Amazon SageMaker Ground Truth semantic segmentation labeling task
- Ground Truth Active Learning will require human labelling only when needed, works well with small internal team
Carify
- Sagemaker Clarify 评估模型,解释模型(SHAP),优化模型。
- 检测数据偏差(bias)。
Debugger
- Sagemaker Debugger可以监控模型训练中的weights,梯度等,并据此优化模型提高计算效率。
- Sagemaker Debugger可以展示SHAP。
Monitor
- Sagemaker Monitor监控 model drift。
Data Wrangler(特征工程、数据准备)
- Sagemaker Data Wrangler preconfigured transformation/template快速探索特征和数据准备。
- Data Wrangler还可以检测样本的outliers、bias。以及进行归一化。
AutoPilot
- Amazon SageMaker Autopilot 无代码ML,但不支持custom container。
Canvas
- 无代码数据准备。
Endpoint
- 一个Sagemaker endpoint可以带多个model production variants。通过DesiredWeight提高模型Variant的使用率。
- A/B test=create a new endpoint configuration with two variant then update the existing endpoint.
Experiment
- Sagemaker Experiment比较不同模型、不同参数、不同数据的训练效果。支持custom container。
NEO
- Sagemaker Neo优化模型,使机器学习模型预测可在云和边缘站点中的任何位置运行。
Feature Store特征商店
- Online feature store for online inference。Offline store for training。
- Feature store GetRecord API获取最新的record。
网络、安全、日志相关
- Sagemaker的instance可以建在用户的VPC中,也可以在AWS Managed Service Account在VPC中。
- Sagemaker的如下信息可以在Cloudwatch中看:
- Sagemaker服务器情况
- 模型性能
- 模型运行日志
- CloudTrail可以记录模型的部署事件,Sagemaker API调用。
- Notebook instance在private subnet时,可以用S3 VPC endpoint来访问S3.
- Notebook instance can disable internet access.
- Sagemaker VPC interface endpoint(severless)可以配合AWS PrivateLink。
- 限制Sagemaker API call的IAM User = VPC endpoint policy。限制Sagemaker API call的instance = security group
- Network isolation for training jobs处理机密或敏感数据。
- private workforce in Amazon SageMaker Ground Truth make the data accessible to authorized users only.
- Notebook presigned URL can restrict IP.
- Sagemaker的Jupyter Notebook能自动打补丁。
- 通过RAM跨账号分享特征。
成本相关
- GPU服务器高效使用 = ECS with GPU
- AWS Deep Learning Containers+AWS Batch+spot instance=省钱运行长时间的机器学习任务
- Endpoint instance自动扩缩容
- Managed spot training with job checkpoint enabled.
- Sagemaker batch transform=Serverless Inference
- Amazon Elastic Inference(retired)
- Sagamaker Debugger vanishing_gradient and LowGPUUtilization rules
- 调整CPU:GPU ratio
技巧
- Sagemaker访问大量的训练数据,使用pipe input mode处理大文件,Fastfile mode处理S3小文件。
- RecordIO是Sagemaker中专用的提升模型训练速度的数据格式,支持图片。
- Sagemaker支持使用ECR中的自定义镜像。
- Sagemaker ENTRYPOINT用来指向自定义容器的训练程序。
- Sagemaker Python SDK支持私域训练。(no WiFi)
- Lifecycle configuration enable auto package installation.
- Sagemaker endpoint重新训练后有violation=run the model monitor baseline job again
- Sagemaker可以读取EFS。
- Sagemaker notebook可以通过glue development endpoint来创建。
- Sagemaker Pipeline 调度模型的取数,训练和部署。
原文地址:https://blog.csdn.net/rav009/article/details/136885805
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1770595680864309248.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!