超越GPT-4V！马斯克发布Grok-1.5 With Vision

2024-04-21 05:02:05
开发
35

在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。Grok-1.5V是XAI的第一代多模态模型，除了其强大的文本处理能力之外，Grok现在还能够处理包括文档、图表、图形、屏幕截图和照片在内的各种视觉信息。相信Grok-1.5V将很快提供给现有的Grok用户和早期测试者来使用。

功能

Grok-1.5V在多个领域与现有的前沿多模态模型具有竞争力，这些领域包括跨学科推理、理解文档、科学图表、图表、屏幕截图和照片。Grok具有理解我们物理世界的能力。在新RealWorldQA基准测试中，Grok在衡量现实世界空间理解方面超越了其同行。xAI 还表示，在接下来的几个月里，预计将在图像、音频和视频等各种模态上显著提高模型能力。

根据手绘流程图编写代码

将白板上的流程图草图转换为 Python 代码

提示词

Can you translate this into Python code?（你能把它翻译成 Python 代码吗？）

Grok回复

Certainly! The flowchart you’ve provided describes a simple guessing game where the computer generates a random number, and the user has to guess it. Here’s the Python code that represents the logic in the flowchart:

当然！您提供的流程图描述了一个简单的竞猜游戏：计算机生成一个随机数，用户必须猜出它。下面是表示流程图中逻辑的 Python 代码：

import random

def guess_number(): # Generate a random number between 1 and 10

    target = random.randint(1, 10)

    while True:
        guess = int(input("Guess a number between 1 and 10: "))

        if guess == target:
            print("You won!")
            break
        else:
            print("Wrong guess, try again!")

if __name__ == "__main__":
    guess_number()

计算商品的卡路里

提示词

How many calories are there in 5 slices of this?（5 片有多少卡路里？）

Grok回复

If one serving size is 3 slices and contains 60 calories, then 5 slices would contain approximately 100 calories. This is calculated by first determining the calories per slice: 60 calories / 3 slices = 20 calories per slice. Then, multiply the calories per slice by the number of slices: 20 calories per slice * 5 slices = 100 calories.

如果一份是 3 片，含有 60 卡路里，那么 5 片就含有大约 100 卡路里。计算方法是首先确定每片的热量：60 卡 / 3 片 = 20 卡 / 片。然后，将每片的卡路里乘以片数：每片 20 卡路里 * 5 片 = 100 卡路里。

解决Leetcode中等难度的问题

提示词

Prompt：Can you write Python code that solves this?（你能编写 Python 代码来解决这个问题吗？）

Grok回复

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

理解现实世界

为了开发有用的现实世界人工智能助手，提高模型对物理世界的理解至关重要。为了实现这一目标，xAI正在引入一个新的基准测试，即RealWorldQA。这个基准测试旨在评估多模态模型的基本现实世界空间理解能力。

从上面的图片中可以看到，Grok已经能够识别真实世界的物品和事物。

总结

从Grok-1.5V放出来的实例来看，Grok-1.5V的图片识别能力还是很强的。毕竟Grok-1.5V是马斯克的，可能是借鉴了特斯拉的图像识别技术。

ChatGPT前脚刚更新了最新强大的GPT4-Turbo，马斯克这边立马放出来了Grok-1.5V。

各家的大模型技术又要卷起来了啊。现在的大模型的竞争，让我想起了当年国产手机的发布会的感觉，各家都不断迭代开发新技术发布新手机，

希望后面的大模型可以给我们带来更多的惊喜，最终收益的还是我们这些普通用户。

按照 ChatGPT4 Turbo 升级教程，很方便升级到GPT4-Turbo，体验到目前最强大的人工智能工具。

原文链接：超越GPT-4V！马斯克发布Grok-1.5 With Vision

原文地址:https://blog.csdn.net/viman3344/article/details/137797114 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1781790463297196032.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部