对标ChatGPT生态: 智谱全新大模型 GLM-4 发布

2024-01-17 12:02:04
开发
28

🍁 展望：关注我, AI 和编程学习之旅上，我与您一同成长！

一、引言

今天上午，在北京举办 2024年度技术开放日 Zhipu DevDay，国内当前估值最高的AI大模型独角兽智谱AI发布了 新一代基座大模型GLM-4。

性能比上一代提升接近60%，整体评测结果进阶GPT-4，支持更长的上下文、更强的多模态、更快速的推理、更多的并发，大大降低推理成本，同时 GLM-4 也增强了其智能体（Agent）的能力。

我们一起看看哪些功能出现了明显提升！

二、功能介绍

一）性能提升

在大规模多任务语言理解评测中，GLM-4的表现明显优于GPT-3.5，其平均得分已经达到了GPT-4的95%水平，在某些特定任务上甚至表现相当；

而在GSM8K数学评测数据集上，GLM-4的评分与GPT-4相比只有4.6%的差异；此外，在MATH数据集上，GLM-4的得分比GPT-3.5高出了15%，虽然相对于GPT-4稍逊9%。

在中英文混合评测中，GLM-4在Prompt级别和中文方面的表现均达到了GPT-4的88%。在指令跟随能力方面，GLM-4的表现达到了GPT-4 的90%，远超过 GPT-3.5。

智谱AI在中文对齐方面进行了全面的评估，包括公开的AlignBench和私有测试数据。在AlignBench上，GLM-4的总体得分超过了GPT-4 6月13日发布的版本，接近最新的GPT-4 Turbo版本。

在专业、中文理解和角色扮演等方面，甚至超过了最新的GPT-4，但在中文推理方面仍需进一步提升。

这一点挺让人惊喜：GLM-4 可以处理 128k 字的上下文，而且一次提示可以处理300页的文本。

此外，它的技术团队还成功解决了由于失焦而导致的精度下降问题，经过"大海捞针"测试，GLM-4模型几乎可以做到100%的召回精确度。

二）All Tools

发布会上提交 GLM-4 支持 All Tools 模型，即与 ChatGPT 一样，可以根据提示词自动匹配调用对应的功能：

文生图
代码解释器
网页浏览

代码解释器：通过⾃动调⽤ python 解释器，进⾏复杂计算（复杂⽅程、微积分等）。

代码解释器：完成⽂件处理、数据分析、图表绘制等复杂任务。⽀持处理 Excel、PDF、PPT 等格式的⽂件。

此外，发布会上也提及了网页搜索能力，GLM-4 明显优于 GPT-4.

还包含 网页浏览 与 AI绘画 相结合的多模态处理任务：

以及 网页浏览 和 代码解释器 相结合的多模态处理任务，：

根据⽤户提供的function描述,⾃动选择所需function并⽣成参数,以及根据function的返回值⽣成回复，技术朋友可以自行尝试：

在多模态方面，GLM-4 不仅增强了文生图和多模态理解的能力，还推出了全新的 CogView3，其效果超越了开源的SDXL模型，声称 几乎与OpenAI的DALL·E 3媲美 ？尊嘟假嘟？

CogView3在生成手部图像方面表现出色，其语义能力也有显著提升，能够准确地理解一些容易让机器产生误解的概念，比如“鱼眼镜头”。此外，它对颜色、场景和空间位置的理解也非常准确。

二、GLM-4 试用

一）初体验

进入页面：https://chatglm.cn/main/alltoolsdetail 我们一起体验下 GLM-4.

让 ChatGLM 帮助我们利用张爱玲的口吻点评下《繁华》，并画一幅复古海报：

二）推理能力

1、案例一

把4杯25度的水倒在一起是多少度, 我们看下几个国内优秀大模型之间的回答。

GLM-4 ：

文心 4.0：

Kimi：

针对这个问题，三者不分上下。过关！

2、案例二

在公园的长椅上坐了三人，他们之间有两个兄长，两个弟弟，这是怎么回事?

GLM-4：

文心4.0：

Kimi：

Kimi 和文心4.0 都挺好，但是 GLM-4 的回答有点无语，老是说爸爸是儿子的兄弟，我给过好几次机会了，可它一直这样回答。。。

三）中文理解能力

1、案例一

小偷偷偷偷东西，这句话是什么意思?

GLM-4：

文心4.0：

Kimi：

中文理解能力都可以，文心4.0更加出众一些！👍🏻

2、案例二

测试下去年9月的网络热词: 哪李贵了。

GLM-4:

文心4.0：

Kimi：

文心4.0 和 Kimi 都很满意。GLM-4 自动调用的能力感觉有点欠缺，只有明确使用了搜索指令才得到了正确答案。

3、案例三

再来个更好玩的谐音笑话。 大家好，我是一只螃蟹我的钳子没了我没钳了。

GLM-4：

文心4.0：

Kimi：

解释的都很不错。

三、GLMs

GPT Store 刚刚发布，智谱清言又来搞事儿啦！不出所料，国内对标的能力果然很强，我们一起来体验下。

之前写过 GPTs 的万字教程，从入门、进阶、实践到防护，受到一众好评，对于 GPTs 感兴趣的可以移步：

一）GLMs 体验

进入链接： https://chatglm.cn/glms 开启你的第一个 GLMs。

1、输入智能体的核心功能。

2、点击“生成智能体配置” 后，自动生成智能体的结构，包含 名称、描述、配置信息、推荐问题。

此外也支持选择模型的调用能力，如 联网能力、AI绘画、代码能力。以及支持知识库文件的配置，界面风格都和 GPTs 差不多。

3、测试智能体

4、点击右上角的发布, 进入发布后的界面。

5、进入智能体中心。还可以看见很多别人创建的智能体。

不过目前创建的智能体不能分享成链接。估计官方后续会优化。

二）总结

整体简单体验下来。与 GPTs 相比，功能差距还是不小的，期待未来有所突破，具体如下：

缺点：

缺少分享功能。其他朋友无法直接使用你的 GLMs
缺少 Actions 功能，少了灵魂，只是基于提示词 + 大模型，自然无法做出差异化。
知识库文件的文件仅支持 3 个，每个 10M，与 GPTs 比起来差距很大。（GPTs：支持 10 个文件，每个最大 512 M）
最重要的一点！没有对话记录，简直要命！

优点：

输入主题，自动构建智能体的速度很快！点赞。
对不起，想不到了…

此外，听说未来也将推出创作者分成计划，这个对于国内用户会是一个利好！希望Action类似的功能也可以跟上步伐！

总的来说，还是挺期待未来可以有所突破的！！！

四、总结

正如张鹏所言，和国外大模型相比，国内的大模型发展起步晚一些，加上高性能算力的限制和数据质量的差距等等，国内研发的大模型无论规模还是核心能力，与世界先进水平还存在一年左右的差距。

但是未来一年，我们将有希望看见国内大模型的崛起之路！

原文地址:https://blog.csdn.net/m0_37996629/article/details/135635486 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1747469306112905216.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部