AI高考大战,揭秘五大热门模型谁能问鼎数学之巅?

在高考前,我就有想法了,这一次让AI来做做高考题。就用国内的大模型,看哪家的大模型解题最厉害。

第一天考完,就拿到了2024高考数学2卷的电子版,这也是重庆市采用的高考试卷

这次选了5个AI工具,分别是天工,通义,kimi, 智谱清言,腾讯元宝。这5个AI工具也是当前比较火,而且使用最多的几个工具。说下规则:直接上传pdf试卷,然后让AI识别解析后提供解体步骤以及答案。

下面来开始实战:

第一个出战的是天工

很不幸,我找了半天也没找到可以上传文档并解析的功能,智能体中也没有对应的工具可以用。天工直接出局

图片

第二个出战的是通义

在工作中经常使用通义灵码辅助写代码,检查代码。效果用起来不错。但这次通义千问让我失望了。上传文档后直接解析失败。比天工好不到哪里去

图片

第三个出战的是智谱清言

智谱的智能体我是比较喜欢用的,简单方便。这次我选择了两个智能体来解体,一个是瑞解高考数学,一个是高等数学AI解题助手

图片

图片

但2个都让我失望了,提示题目内容不完整,无法提供解答。

第四个出战的是kimi

从kimi的表现来看,也不如人意,虽然能解析文档了,但是每一道题也只是给了一个思路。没有解题过程和答案。并且有些图片和表格还解析不出来。这个结果也是不合格的

图片

图片

图片

第五个出战的是腾讯元宝

其实到这个时候我已经不想尝试了,前面4个表现都不堪入目。我对国内大模型感到了一丝失望。但是最后选择尝试下。没想到惊喜竟然是最后一个

元宝对试卷的答题如下图片,前面的选择题和填空题部分除了第四题和第11题因为识别图片的原因,一些数据没别识别出来,所以没有给答案

图片

但是最后17-19题没有给出答案。有可能是超出一次对话的能力了,所以继续开启一次对话,让元宝回答17-19题。

第17题的第二个问题回答得不充分,根据题目是可以求出角度来证明垂直的。但是元宝没有计算出来。只给了一个答案18,19题。

我看了解题思路没发现什么问题,很久没做几何题了,双曲线的一些公式已经不记得了。只是从逻辑上看元宝的解析,没发现问题。

图片

总结:

这一次测试AI做题,没有用语文试卷,是因为文本类的看不太出来大模型的计算差距,而只有用数学试卷才能验证大模型的综合处理能力,比如文档解析,图片提取和解析还有就是问题处理。

目前貌似也没有高考答案出来,元宝给的答案到底是不是都是对的,也没法考证。但是从测试结果输出来看元宝胜出。其他4家都不合格。借助腾讯生态圈和腾讯的研发能力,我看好元宝!

相关推荐

  1. AI大战:通用VS垂直模型主未来?

    2024-06-08 17:06:01       30 阅读
  2. AI模型争霸:通用vs垂直,主沉浮?

    2024-06-08 17:06:01       36 阅读
  3. ChatGPT等模型AI干什么?

    2024-06-08 17:06:01       46 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-08 17:06:01       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-08 17:06:01       106 阅读
  3. 在Django里面运行非项目文件

    2024-06-08 17:06:01       87 阅读
  4. Python语言-面向对象

    2024-06-08 17:06:01       96 阅读

热门阅读

  1. Ansible——setup模块

    2024-06-08 17:06:01       30 阅读
  2. 开关电源中电感设计

    2024-06-08 17:06:01       34 阅读
  3. 自注意力机学习

    2024-06-08 17:06:01       30 阅读
  4. 本地文件传远程开发

    2024-06-08 17:06:01       22 阅读
  5. 2024年公路安全员考试题库

    2024-06-08 17:06:01       28 阅读
  6. 03-3.3.2_1 栈在表达式求值中的应用(上)

    2024-06-08 17:06:01       29 阅读
  7. 医疗实施-项目管理04-需求调研

    2024-06-08 17:06:01       31 阅读