Claude 3.5 Sonnet模型发布,对比ChatGPT4o孰强孰弱

Anthropic 这家生而为打击 OpenAI 安全问题的公司,正式发布了Claude 3.5 Sonnet模型

用官网的话就是:

今天,我们推出了 Claude 3.5 Sonnet,这是我们即将推出的 Claude 3.5 型号系列中的第一个版本。Claude 3.5 Sonnet 提高了智能的行业标准,在广泛的评估中优于竞争对手型号和 Claude 3 Opus,其速度和成本与我们的中端型号 Claude 3 Sonnet 相当。

Claude 3.5 Sonnet 现在可在 Claude.ai 和 Claude iOS 应用程序上免费使用,而 Claude Pro 和 Team 计划的用户则可以更高的速率限制访问它。它还可通过 Anthropic API、亚马逊 Bedrock 和谷歌云的 Vertex AI 使用。该模型每百万个输入代币收费 3 美元,每百万个输出代币收费 15 美元,代币上下文窗口为 20 万个。

这个图展示了不同版本的Claude模型在智能水平(纵轴)和成本(横轴)上的表现。具体来说,图中有四个点,分别代表Claude 3的三个版本和Claude 3.5的一个版本。

各点的解释:

  1. Claude 3 Haiku

    • 智能水平和成本都相对较低。
    • 适合预算有限的应用场景。
  2. Claude 3 Sonnet

    • 智能水平比Haiku更高,成本也有所增加。
    • 提供了更高的智能水平,但成本相对适中。
  3. Claude 3 Opus

    • 智能水平更高,成本也相应增加。
    • 适合需要更高智能水平且预算较高的应用场景。
  4. Claude 3.5 Sonnet

    • 相比Claude 3 Sonnet,Claude 3.5 Sonnet在智能水平上有显著提升,成本增加。
    • 表示新的版本在智能水平上有较大改进,同时价格也随之上升。

Claude 3.5 Sonnet 在研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 方面树立了新的行业基准。它在把握细微差别、幽默和复杂指令方面都有明显进步,在以自然、亲切的语气撰写高质量内容方面更是出类拔萃。

在一次内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,优于 Claude 3 Opus 的 38%。我们的评估测试了该模型在自然语言描述所需改进的情况下修复漏洞或为开源代码库添加功能的能力。在获得指导和相关工具后,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具备复杂的推理和故障排除能力。它能轻松处理代码翻译,因此在更新传统应用程序和迁移代码库时特别有效。

请看官方对比图:

Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型,在标准视觉基准测试中超过了 Claude 3 Opus。在解读图表等需要视觉推理的任务中,这些阶跃式的改进最为明显。Claude 3.5 Sonnet 还能从不完美的图像中准确地转录文本--这是零售、物流和金融服务的核心能力,在这些领域,人工智能可能会从图像、图形或插图中获得比单纯从文本中获得更多的洞察力。

https://youtu.be/dhxrHvgXpSM

相关推荐

  1. Rust 与 C++ ,劣?

    2024-07-17 01:20:04       32 阅读
  2. ClaudeChatGPT对比

    2024-07-17 01:20:04       37 阅读
  3. ChatGPT 遇到对手:Anthropic Claude 语言模型的崛起

    2024-07-17 01:20:04       40 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-17 01:20:04       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-17 01:20:04       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-17 01:20:04       58 阅读
  4. Python语言-面向对象

    2024-07-17 01:20:04       69 阅读

热门阅读

  1. Map和Set的迭代器原理

    2024-07-17 01:20:04       20 阅读
  2. tomcat为什么要自定义类加载器?

    2024-07-17 01:20:04       21 阅读
  3. Web 安全之 VAPT (漏洞评估与渗透测试)详解

    2024-07-17 01:20:04       21 阅读
  4. VScode编译c++代码json配置

    2024-07-17 01:20:04       24 阅读
  5. 【DRAM存储器三十四】LPDDR4介绍--MR和IO结构

    2024-07-17 01:20:04       18 阅读
  6. AI发展中的伦理挑战与应对策略

    2024-07-17 01:20:04       24 阅读
  7. 2024睿抗机器人开发者大赛CAIP编程赛题解(c++)

    2024-07-17 01:20:04       25 阅读
  8. ardupilot 系统时间见解

    2024-07-17 01:20:04       17 阅读