RT-H：谷歌的端到端视觉-语言-动作机器人大模型

2024-03-23 11:36:02
开发
45

论文标题：RT-H: Action Hierarchies Using Language

论文链接：https://arxiv.org/pdf/2403.01823.pdf

项目链接：RT-H: Action Hierarchies Using Language

Robot Transformer with Action Hierarchies使用行动层级的机器人Transformer

端到端框架RT-H：单一模型同时处理语言动作和行动查询

一、RT-H action hierarchy

1. 将复杂任务分解成简单的语言指令

2. 将语言指令转化为机器人行动

3. 支持对模型进行语言动作干预的微调

4. 开发了一种自动化方法，从机器人本体感受中提取简化的语言动作集，建立了超过2500个语言动作数据库，无需手动标注

举例：

给定任务【盖上开心果罐的盖子】和场景图像，

RT-H会利用视觉语言模型（VLM）预测语言动作（motion），如【向前移动手臂】和【向右移动手臂】，

然后根据这些语言动作，预测机器人的行动（action）。

二、模型架构

左图：

方法利用语言为policy学习创建一个行动层次结构。将动作预测问题分为语言运动查询（πh）和动作查询（πl），前者使用图像标记和任务描述标记预测像“向前移动手臂”这样的细粒度语言运动，后者使用任务和场景的上下文灵活地将这种语言运动解码为动作。利用基于 RT-2 的单一视觉语言模型（VLM）处理这两个查询，该模型在动作层次结构的每个层级都封装了互联网规模数据中的广泛先验知识。

右图：

用户可以直接干预动作查询，为机器人行为提供语言动作校正，例如此处的“向左移动手臂”而不是“向前移动手臂”（顶部）。为了从校正中学习，我们只能使用新标记的语言运动校正更新语言运动查询（底部）。然后，我们将更新后的模型部署回动作层次结构中（橙色块）。

原文地址:https://blog.csdn.net/zhaoliang38/article/details/136934595 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1771380356314959872.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-03-23 11:36:02 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-03-23 11:36:02 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-03-23 11:36:02 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-03-23 11:36:02 100 阅读
NoSQL之Redis非关系型数据库

2024-03-23 11:36:02 101 阅读
2024.7.22 作业

2024-03-23 11:36:02 98 阅读
GDB调试正在运行的程序

2024-03-23 11:36:02 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-03-23 11:36:02 85 阅读
在Django里面运行非项目文件

2024-03-23 11:36:02 82 阅读
SSD基本架构与工作原理

2024-03-23 11:36:02 87 阅读
在誉天学习完HCIE就业吗？

2024-03-23 11:36:02 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-03-23 11:36:02 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-03-23 11:36:02 85 阅读
go 协程池的实现

2024-03-23 11:36:02 89 阅读
Shell脚本循环语句与函数

2024-03-23 11:36:02 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-03-23 11:36:02 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-03-23 11:36:02 85 阅读
四大引用——强软弱虚

2024-03-23 11:36:02 86 阅读
Python语言-面向对象

2024-03-23 11:36:02 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-03-23 11:36:02 85 阅读
网站安全-CDN篇

2024-03-23 11:36:02 89 阅读