AGI来了?特拉斯用大模型帮助自动驾驶

Elon Musk 的 xAI 刚刚推出了Grok-1.5 Vision,这是对开源模型的多模式升级,允许处理视觉信息。 细节:

Grok 1.5V 现在可以处理文档、图表、屏幕截图和照片等视觉信息,重点是对现实世界的理解。 xAI 创建了一个新的“RealWorldQA”基准来评估空间理解,其中 Grok-1.5V 的性能优于 GPT-4V 和 Gemini。 xAI 表示 1.5-V 将很快向测试人员和现有用户推出,预计未来几个月将在图像、音频和视频方面实现重大改进。 关键:

Tesla FSD v13可能会是Grokking语言令牌。Grok-1.5V最让人兴奋的是解决自动驾驶中边缘情况的潜力。使用语言进行“思维链”将有助于汽车分解复杂的场景,用规则和反事实进行推理,并解释其决定。

Grok-1.5V能将“像素->动作”映射提升为“像素->语言->动作”。

网友认为:

这听起来像是通往AGI的最可行的道路。具有显式语言推理的多模态模型一致地推断出世界模型。

他们一直在使用一个LLM训练的“车道语言”的车道预测-可以说是最困难的问题之一。他们说,这个问题是棘手的。特斯拉发明了一种用于车道预测的“车道语言”。

假设FSD需要三个关键组成部分:感知、规划和控制,而Grok是实现这一目标的途径,这是否意味着我们解决了一个具有挑战性的物理世界问题,或者我们将进入AGI时代?

大模型不只是语言能力,还是对广阔世界的理解

机器人推理的通用智能AGI基础模型可能在今天就已经存在。LLM 不仅仅关乎特定语言的能力,还关乎对广阔世界的理解。

一种名为“Keypoint Action Tokens”(KAT)的框架,它使得机器人能够在上下文中进行模仿学习。

这项技术由Norman Di Palo和Edward Johns开发,展示了如何利用现成的基于文本的Transformers模型,在没有额外训练的情况下,进行少量样本的视觉模仿学习。这些模型能够将视觉观察(输入)和动作轨迹(输出)转换成一系列令牌(tokens),这些令牌可以被文本预训练的Transformer模型处理和生成。

KAT框架的核心思想是将文本预训练的Transformer模型重新用作序列到序列的模仿学习机器,通过视觉输入映射到动作输出。这种方法的一个关键优势是,尽管这些模型是在语言上训练的,但它们在将视觉关键点观察转换成动作轨迹方面表现出色,在数据量较少的情况下,性能与或优于现有的最先进技术。

KAT 并非在语言领域运行,而是利用基于文本的转换器(Transformers)在视觉和动作领域运行,从而实现高效的一般模仿学习,这为将自然语言模型重新应用于体现任务指明了前景广阔的新途径。

网友观点:

智能的重点是:"作为思想工具 "的语言,不是 "作为交流工具 "的语言

我们都同意人类语言本身存在缺陷这一事实。LLM大模型 的内部语言在功能上是相同的:一系列相互关联的已学概念,然后可以用来预测未来。当然,从本质上讲,它是完全不同的。

如果把这些权重和连接看作是 "内在思想的语言",那么从技术上讲,将其描述为模型在训练过程中创造的语言是正确的。

与人类语言打交道的部分只有输入层和输出层。

https://www.jdon.com/73342.html

最近更新

  1. TCP协议是安全的吗?

    2024-04-20 14:40:08       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-20 14:40:08       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-20 14:40:08       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-20 14:40:08       20 阅读

热门阅读

  1. cpt111 Principles of Programming

    2024-04-20 14:40:08       12 阅读
  2. Spring自定义注解+AOP实现接口防重复提交

    2024-04-20 14:40:08       13 阅读
  3. CentOS 7软件安装全攻略:YUM命令详解与实战

    2024-04-20 14:40:08       16 阅读
  4. Github访问太慢解决方案

    2024-04-20 14:40:08       10 阅读
  5. 人工智能电话机器人常见的问题有哪些?

    2024-04-20 14:40:08       12 阅读
  6. 【御控物联】物联网数据传输数据格式

    2024-04-20 14:40:08       13 阅读
  7. R 格式(蓝桥杯)

    2024-04-20 14:40:08       11 阅读
  8. Excel遇上VBA,开启智能联网新篇章!

    2024-04-20 14:40:08       15 阅读
  9. 开源AI Agent框架的选择

    2024-04-20 14:40:08       12 阅读
  10. 驱动开发platform传地址,led点灯

    2024-04-20 14:40:08       12 阅读