AWS Sagemaker详解

Sagemaker各个组件的介绍

Ground Truth

  1. Sagemaker Ground Truth Labeling platform。
  2. 图片语义分析= Amazon SageMaker Ground Truth semantic segmentation labeling task
  3. Ground Truth Active Learning will require human labelling only when needed, works well with small internal team

Carify

  1. Sagemaker Clarify 评估模型,解释模型(SHAP),优化模型。
  2. 检测数据偏差(bias)。

Debugger

  1. Sagemaker Debugger可以监控模型训练中的weights,梯度等,并据此优化模型提高计算效率。
  2. Sagemaker Debugger可以展示SHAP。

Monitor

  1. Sagemaker Monitor监控 model drift。

Data Wrangler(特征工程、数据准备)

  1. Sagemaker Data Wrangler preconfigured transformation/template快速探索特征和数据准备。
  2. Data Wrangler还可以检测样本的outliers、bias。以及进行归一化。

AutoPilot

  1. Amazon SageMaker Autopilot 无代码ML,但不支持custom container。

Canvas

  1. 无代码数据准备。

Endpoint

  1. 一个Sagemaker endpoint可以带多个model production variants。通过DesiredWeight提高模型Variant的使用率。
  2. A/B test=create a new endpoint configuration with two variant then update the existing endpoint.

Experiment

  1. Sagemaker Experiment比较不同模型、不同参数、不同数据的训练效果。支持custom container。

NEO

  1. Sagemaker Neo优化模型,使机器学习模型预测可在云和边缘站点中的任何位置运行。

Feature Store特征商店

  1. Online feature store for online inference。Offline store for training。
  2. Feature store GetRecord API获取最新的record。

网络、安全、日志相关

  1. Sagemaker的instance可以建在用户的VPC中,也可以在AWS Managed Service Account在VPC中。
  2. Sagemaker的如下信息可以在Cloudwatch中看:
    1. Sagemaker服务器情况
    2. 模型性能
    3. 模型运行日志
  3. CloudTrail可以记录模型的部署事件,Sagemaker API调用。
  4. Notebook instance在private subnet时,可以用S3 VPC endpoint来访问S3.
  5. Notebook instance can disable internet access.
  6. Sagemaker VPC interface endpoint(severless)可以配合AWS PrivateLink。
  7. 限制Sagemaker API call的IAM User = VPC endpoint policy。限制Sagemaker API call的instance = security group
  8. Network isolation for training jobs处理机密或敏感数据。
  9. private workforce in Amazon SageMaker Ground Truth make the data accessible to authorized users only.
  10. Notebook presigned URL can restrict IP.
  11. Sagemaker的Jupyter Notebook能自动打补丁。
  12. 通过RAM跨账号分享特征。

成本相关

  1. GPU服务器高效使用 = ECS with GPU
  2. AWS Deep Learning Containers+AWS Batch+spot instance=省钱运行长时间的机器学习任务
  3. Endpoint instance自动扩缩容
  4. Managed spot training with job checkpoint enabled.
  5. Sagemaker batch transform=Serverless Inference
  6. Amazon Elastic Inference(retired)
  7. Sagamaker Debugger vanishing_gradient and LowGPUUtilization rules
  8. 调整CPU:GPU ratio

技巧

  1. Sagemaker访问大量的训练数据,使用pipe input mode处理大文件,Fastfile mode处理S3小文件。
  2. RecordIO是Sagemaker中专用的提升模型训练速度的数据格式,支持图片。
  3. Sagemaker支持使用ECR中的自定义镜像。
  4. Sagemaker ENTRYPOINT用来指向自定义容器的训练程序。
  5. Sagemaker Python SDK支持私域训练。(no WiFi)
  6. Lifecycle configuration enable auto package installation.
  7. Sagemaker endpoint重新训练后有violation=run the model monitor baseline job again
  8. Sagemaker可以读取EFS。
  9. Sagemaker notebook可以通过glue development endpoint来创建。
  10. Sagemaker Pipeline 调度模型的取数,训练和部署。

相关推荐

  1. Hive-DDL详解(超详细

    2024-03-21 07:38:01       57 阅读
  2. Hive-DML详解(超详细

    2024-03-21 07:38:01       55 阅读
  3. super详解

    2024-03-21 07:38:01       48 阅读
  4. scheduleatfixedrate详解

    2024-03-21 07:38:01       59 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-21 07:38:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-21 07:38:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-21 07:38:01       82 阅读
  4. Python语言-面向对象

    2024-03-21 07:38:01       91 阅读

热门阅读

  1. Hive面试重点

    2024-03-21 07:38:01       46 阅读
  2. Hive自定义UDF函数

    2024-03-21 07:38:01       41 阅读
  3. 【面试自测】Spring

    2024-03-21 07:38:01       39 阅读
  4. python實現excel轉txt代碼

    2024-03-21 07:38:01       44 阅读
  5. SpringMVC

    SpringMVC

    2024-03-21 07:38:01      39 阅读
  6. 无人机拦截

    2024-03-21 07:38:01       41 阅读
  7. kafka 集群

    2024-03-21 07:38:01       37 阅读
  8. Kafka

    2024-03-21 07:38:01       110 阅读
  9. 【 React 】 在React项目中是如何使用Redux的?

    2024-03-21 07:38:01       42 阅读