RT-H:谷歌的端到端视觉-语言-动作机器人大模型

论文标题:RT-H: Action Hierarchies Using Language

论文链接:https://arxiv.org/pdf/2403.01823.pdf

项目链接:RT-H: Action Hierarchies Using Language

Robot Transformer with Action Hierarchies使用行动层级的机器人Transformer

端到端框架RT-H:单一模型同时处理语言动作和行动查询

一、RT-H action hierarchy

1. 将复杂任务分解成简单的语言指令

2. 将语言指令转化为机器人行动

3. 支持对模型进行语言动作干预的微调

4. 开发了一种自动化方法,从机器人本体感受中提取简化的语言动作集,建立了超过2500个语言动作数据库,无需手动标注

举例:

给定任务【盖上开心果罐的盖子】和场景图像,

RT-H会利用视觉语言模型(VLM)预测语言动作(motion),如【向前移动手臂】和【向右移动手臂】,

然后根据这些语言动作,预测机器人的行动(action)。

二、模型架构

左图:

方法利用语言为policy学习创建一个行动层次结构。将动作预测问题分为语言运动查询(πh)和动作查询(πl),前者使用图像标记和任务描述标记预测像“向前移动手臂”这样的细粒度语言运动,后者使用任务和场景的上下文灵活地将这种语言运动解码为动作。利用基于 RT-2 的单一视觉语言模型(VLM)处理这两个查询,该模型在动作层次结构的每个层级都封装了互联网规模数据中的广泛先验知识。

右图:

用户可以直接干预动作查询,为机器人行为提供语言动作校正,例如此处的“向左移动手臂”而不是“向前移动手臂”(顶部)。为了从校正中学习,我们只能使用新标记的语言运动校正更新语言运动查询(底部)。然后,我们将更新后的模型部署回动作层次结构中(橙色块)。

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-23 11:36:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-23 11:36:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-23 11:36:02       82 阅读
  4. Python语言-面向对象

    2024-03-23 11:36:02       91 阅读

热门阅读

  1. 质量模型、软件测试流程和测试用例

    2024-03-23 11:36:02       48 阅读
  2. 代码随想录算法训练营 Day27 回溯算法3

    2024-03-23 11:36:02       41 阅读
  3. Python从入门到精通秘籍十六

    2024-03-23 11:36:02       44 阅读
  4. 100个python代码(三)

    2024-03-23 11:36:02       38 阅读
  5. Linux 系统中 OpenCV-Python 编程环境

    2024-03-23 11:36:02       42 阅读
  6. Codeforces Round 935 (Div. 3)

    2024-03-23 11:36:02       40 阅读
  7. mybatisplus和mybatis兼容问题

    2024-03-23 11:36:02       44 阅读
  8. 第十三节 JDBC异常

    2024-03-23 11:36:02       37 阅读
  9. 计算机网络复试总结(五)

    2024-03-23 11:36:02       36 阅读