AI高考大战，揭秘五大热门模型谁能问鼎数学之巅？

2024-06-08 17:06:01
开发
29

在高考前，我就有想法了，这一次让AI来做做高考题。就用国内的大模型，看哪家的大模型解题最厉害。

第一天考完，就拿到了2024高考数学2卷的电子版，这也是重庆市采用的高考试卷

这次选了5个AI工具，分别是天工，通义，kimi, 智谱清言，腾讯元宝。这5个AI工具也是当前比较火，而且使用最多的几个工具。说下规则：直接上传pdf试卷，然后让AI识别解析后提供解体步骤以及答案。

下面来开始实战：

第一个出战的是天工

很不幸，我找了半天也没找到可以上传文档并解析的功能，智能体中也没有对应的工具可以用。天工直接出局

第二个出战的是通义

在工作中经常使用通义灵码辅助写代码，检查代码。效果用起来不错。但这次通义千问让我失望了。上传文档后直接解析失败。比天工好不到哪里去

第三个出战的是智谱清言

智谱的智能体我是比较喜欢用的，简单方便。这次我选择了两个智能体来解体，一个是瑞解高考数学，一个是高等数学AI解题助手

但2个都让我失望了，提示题目内容不完整，无法提供解答。

第四个出战的是kimi

从kimi的表现来看，也不如人意，虽然能解析文档了，但是每一道题也只是给了一个思路。没有解题过程和答案。并且有些图片和表格还解析不出来。这个结果也是不合格的

第五个出战的是腾讯元宝

其实到这个时候我已经不想尝试了，前面4个表现都不堪入目。我对国内大模型感到了一丝失望。但是最后选择尝试下。没想到惊喜竟然是最后一个

元宝对试卷的答题如下图片，前面的选择题和填空题部分除了第四题和第11题因为识别图片的原因，一些数据没别识别出来，所以没有给答案

但是最后17-19题没有给出答案。有可能是超出一次对话的能力了，所以继续开启一次对话，让元宝回答17-19题。

第17题的第二个问题回答得不充分，根据题目是可以求出角度来证明垂直的。但是元宝没有计算出来。只给了一个答案18，19题。

我看了解题思路没发现什么问题，很久没做几何题了，双曲线的一些公式已经不记得了。只是从逻辑上看元宝的解析，没发现问题。

总结：

这一次测试AI做题，没有用语文试卷，是因为文本类的看不太出来大模型的计算差距，而只有用数学试卷才能验证大模型的综合处理能力，比如文档解析，图片提取和解析还有就是问题处理。

目前貌似也没有高考答案出来，元宝给的答案到底是不是都是对的，也没法考证。但是从测试结果输出来看元宝胜出。其他4家都不合格。借助腾讯生态圈和腾讯的研发能力，我看好元宝！

原文地址:https://blog.csdn.net/zhfcmx1/article/details/139547144 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1799367265347571712.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-06-08 17:06:01 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-06-08 17:06:01 109 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-06-08 17:06:01 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-06-08 17:06:01 106 阅读
NoSQL之Redis非关系型数据库

2024-06-08 17:06:01 108 阅读
2024.7.22 作业

2024-06-08 17:06:01 106 阅读
GDB调试正在运行的程序

2024-06-08 17:06:01 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-06-08 17:06:01 90 阅读
在Django里面运行非项目文件

2024-06-08 17:06:01 87 阅读
SSD基本架构与工作原理

2024-06-08 17:06:01 94 阅读
在誉天学习完HCIE就业吗？

2024-06-08 17:06:01 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-06-08 17:06:01 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-06-08 17:06:01 92 阅读
go 协程池的实现

2024-06-08 17:06:01 93 阅读
Shell脚本循环语句与函数

2024-06-08 17:06:01 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-06-08 17:06:01 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-06-08 17:06:01 90 阅读
四大引用——强软弱虚

2024-06-08 17:06:01 92 阅读
Python语言-面向对象

2024-06-08 17:06:01 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-06-08 17:06:01 91 阅读
网站安全-CDN篇

2024-06-08 17:06:01 93 阅读