超越GPT-4V!马斯克发布Grok-1.5 With Vision

在 Grok-1 开源后不到一个月,xAI 的首个多模态模型就问世了。Grok-1.5V是XAI的第一代多模态模型,除了其强大的文本处理能力之外,Grok现在还能够处理包括文档、图表、图形、屏幕截图和照片在内的各种视觉信息。相信Grok-1.5V将很快提供给现有的Grok用户和早期测试者来使用。

功能

Grok-1.5V在多个领域与现有的前沿多模态模型具有竞争力,这些领域包括跨学科推理、理解文档、科学图表、图表、屏幕截图和照片。Grok具有理解我们物理世界的能力。在新RealWorldQA基准测试中,Grok在衡量现实世界空间理解方面超越了其同行。xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。

image-20240415213214003

根据手绘流程图编写代码

将白板上的流程图草图转换为 Python 代码

image-20240415213313153

提示词

Can you translate this into Python code?(你能把它翻译成 Python 代码吗?)

Grok回复

Certainly! The flowchart you’ve provided describes a simple guessing game where the computer generates a random number, and the user has to guess it. Here’s the Python code that represents the logic in the flowchart:

当然!您提供的流程图描述了一个简单的竞猜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的 Python 代码:

import random

def guess_number(): # Generate a random number between 1 and 10

    target = random.randint(1, 10)

    while True:
        guess = int(input("Guess a number between 1 and 10: "))

        if guess == target:
            print("You won!")
            break
        else:
            print("Wrong guess, try again!")

if __name__ == "__main__":
    guess_number()

计算商品的卡路里

image-20240415213840502

提示词

How many calories are there in 5 slices of this?(5 片有多少卡路里?)

Grok回复

If one serving size is 3 slices and contains 60 calories, then 5 slices would contain approximately 100 calories. This is calculated by first determining the calories per slice: 60 calories / 3 slices = 20 calories per slice. Then, multiply the calories per slice by the number of slices: 20 calories per slice * 5 slices = 100 calories.

如果一份是 3 片,含有 60 卡路里,那么 5 片就含有大约 100 卡路里。计算方法是首先确定每片的热量:60 卡 / 3 片 = 20 卡 / 片。然后,将每片的卡路里乘以片数:每片 20 卡路里 * 5 片 = 100 卡路里。

解决Leetcode中等难度的问题

image-20240415214528638

提示词

Prompt:Can you write Python code that solves this?(你能编写 Python 代码来解决这个问题吗?)

Grok回复

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

理解现实世界

为了开发有用的现实世界人工智能助手,提高模型对物理世界的理解至关重要。为了实现这一目标,xAI正在引入一个新的基准测试,即RealWorldQA。这个基准测试旨在评估多模态模型的基本现实世界空间理解能力。

image-20240415214114419

image-20240415214139258

从上面的图片中可以看到,Grok已经能够识别真实世界的物品和事物。

总结

从Grok-1.5V放出来的实例来看,Grok-1.5V的图片识别能力还是很强的。毕竟Grok-1.5V是马斯克的,可能是借鉴了特斯拉的图像识别技术。

ChatGPT前脚刚更新了最新强大的GPT4-Turbo,马斯克这边立马放出来了Grok-1.5V。

各家的大模型技术又要卷起来了啊。现在的大模型的竞争,让我想起了当年国产手机的发布会的感觉,各家都不断迭代开发新技术发布新手机,

希望后面的大模型可以给我们带来更多的惊喜,最终收益的还是我们这些普通用户。

按照 ChatGPT4 Turbo 升级教程 ,很方便升级到GPT4-Turbo,体验到目前最强大的人工智能工具。

原文链接:超越GPT-4V!马斯克发布Grok-1.5 With Vision


最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-21 05:02:05       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-21 05:02:05       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-21 05:02:05       87 阅读
  4. Python语言-面向对象

    2024-04-21 05:02:05       96 阅读

热门阅读

  1. 24五一杯正在准备中

    2024-04-21 05:02:05       31 阅读
  2. (自学用)传统反演思路

    2024-04-21 05:02:05       33 阅读
  3. Docker安装SQL Server 2022

    2024-04-21 05:02:05       38 阅读
  4. Docker 常用命令教程

    2024-04-21 05:02:05       38 阅读
  5. c 贪吃蛇的实现

    2024-04-21 05:02:05       27 阅读
  6. 通过实例学C#之Random类

    2024-04-21 05:02:05       32 阅读
  7. Bezout定理

    2024-04-21 05:02:05       41 阅读