LeRobot——Hugging Face打造的机器人领域的Transformer架构

前言

如友人邓博士所说,“用 Stanford aloha 课题组提供的训练数据,训练他们研发的 Action Chunking Transformer 动作规划模型,训练结果,能用,但是稳定性有待提高

要提高稳定性,看来必须修改 Stanford aloha 的源代码了,Stanford aloha 课题组提供的初代源代码,可读性不太好,改造起来略感吃力,

好消息是,上周 LeRobot 在 Github 上开源了他们的源代码,LeRobot 试图构建机器人的标准化的 APIs,如同 Huggingface 上的 transformers 和 diffusers

目前该项目已经对几个知名的机器人项目的源代码,进行了重构,部分统一了 APIs,其中包括 Stanford aloha 的 ACT 模型,这就大大降低了改造 ACT 模型的工程难度”

第一部分 机器人领域的Transformer架构:LeRobot

5月6日,Hugging Face的机器人项目负责人雷米·卡德内(Remi Cadene)宣布推出LeRobot开源代码库,并形容它对于机器人的意义就如同“Transformer架构之于NLP(自然语言处理)”

Remi Cadene在推文中表示,LeRobot之于机器人就像Transformer架构之于NLP——它提供带有预训练检查点的高级AI模型的简洁实现。他们还复现了来自学术界的 31 个数据集和一些模拟环境,无需实体机器人即可开始使用

图片

Cadene 发布了一些由Github上LeRobot库的代码提供的机器人功能的示例,它们都是在真实数据集上训练的。

比如,在这个数据可视化的例子中,它展示了LeRobot是如何在Return(一个SDK和查看器,用于可视化与多模态数据流交互)上运行的,数据集来自Aloha项目(用于异构架构运行时自适应和安全深度学习的软件框架,主要目标是促进深度学习算法在异构低能耗计算平台上的实现,为最佳算法选择、资源分配和部署提供自动化

图片

LeRobot的另一项可视化是在Mobile Aloha数据集上进行的,旨在完全端到端地学习导航和操作。以下例子展示了LeRobot控制下的两个机器人抓手/手臂之间传递物体:

图片

上述两个数据集都是在机器人公司Trossen Robotics的机械臂上收集的。

当Remi Cadene团队使用ACT策略对LeRobot开源代码库进行测试时,基于LeRobot的机器人在模拟环境下同样表现良好。

ACT策略是一种机器人的动作分块算法,即Action Chunking with Transformers,它使用Transformer编码器合成来自多个视点、联合位置和风格变量的图像,并使用Transformer解码器预测一系列动作,通过预测动作序列来解决高精度领域中的问题。ACT策略可以在新环境干扰下做出反应,并且对一定程度的干扰具有鲁棒性

图片

可以看到,两只机械手分别娴熟地捏起两块不同的积木并堆叠到了一起,证明了ACT策略下LeRobot的有效性

同时,在Diffusion Policy(扩散策略,一种强大的模仿学习算法)和TDMPC Policy(Temporal Difference Learning for Model Predictive Control,一种包含世界模型的强化学习算法)两种策略下,LeRobot同样表现出色,可以不断从与环境的交互中学习

图片

// 待更

参考文献与推荐阅读

  1. https://mp.weixin.qq.com/s/1OICpx-YIj7DJpna9M_aCQ
  2. Hugging Face进军机器人,前特斯拉Optimus科学家带队|甲子光年
  3. 马斯克擎天柱大将跳槽,在Hugging Face开源一套机器人技术:会做家务的大白,复刻低至1800
  4. 如何快速学习 LeRobot
    LeRobot 机器人大脑的输入输出
  5. ..

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-15 10:28:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-15 10:28:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-15 10:28:05       82 阅读
  4. Python语言-面向对象

    2024-06-15 10:28:05       91 阅读

热门阅读

  1. B树与B+树与Mysql innodb的B+树和其相关索引

    2024-06-15 10:28:05       24 阅读
  2. 【AI开发】LangGraph基础

    2024-06-15 10:28:05       35 阅读
  3. mmyolo尝试

    2024-06-15 10:28:05       25 阅读
  4. linux shell实现端口查询

    2024-06-15 10:28:05       22 阅读
  5. std::vector的emplace_back 与 push_back 比较

    2024-06-15 10:28:05       42 阅读
  6. 数据结构 ->反转链表

    2024-06-15 10:28:05       33 阅读
  7. 程序员该有怎么样的职业素养

    2024-06-15 10:28:05       30 阅读
  8. 高等数学与初等数学的分水岭是什么?

    2024-06-15 10:28:05       25 阅读
  9. EventBus之Reactor实战

    2024-06-15 10:28:05       22 阅读
  10. 蓝色格调qss

    2024-06-15 10:28:05       18 阅读
  11. 185. 部门工资前三高的所有员工

    2024-06-15 10:28:05       27 阅读