十四款大型语言模型在《街头霸王III》中一决雌雄

2024-04-09 17:44:01
开发
33

上周在旧金山举办的Mistral AI黑客马拉松上，开发出了一款基于经典街机游戏《街头霸王III》的人工智能（AI）基准测试。这款名为“AI Street Fighter III”的开源基准测试由Stan Girard和Quivr Brain开发，游戏在模拟器中运行，让大型语言模型（LLM）以非传统却壮观的方式展开对决。

AI爱好者Matthew Berman在上面嵌入的视频中介绍了这款基于打斗游戏的新大型语言模型（LLM）竞赛。除了展示街头格斗的激烈场面，Berman的视频还手把手教你如何在个人电脑或Mac上安装这个开源项目，让你亲自试一试。

这并不是一款典型的LLM基准测试。通常情况下，较小的模型在延迟和速度上具有优势，这在本游戏中转化为更多的胜利。人类玩家在打斗游戏中得益于对对手动作的快速反应，而在AI对抗AI的战斗中也是如此。

作为基于文本的模型，LLM在战斗中实时作出决策。它们首先分析游戏状态以获取上下文，然后考虑自己的行动选项，如靠近、远离、发射火球、超级拳击、旋风腿、超级火球等。

视频中可以看到，战斗流畅，玩家似乎在计策性地反击、防守和使用特殊招式。不过，目前该项目仅支持使用角色Ken——这提供了完美的平衡性，但可能观感略显单调。

那么，哪款《街头霸王III》AI最强呢？根据Girard进行的测试，OpenAI的GPT 3.5 Turbo在他们对抗的八款LLM中以适当的优势（ELO评分1776）胜出。在亚马逊高管Banjo Obayomi进行的另一系列测试中，14款LLM进行了314场单独较量，最终Anthropic的claude_3_haiku以ELO评分1613的成绩脱颖而出。

有趣的是，Banjo还注意到，LLM的一些bug或特性（如AI幻觉和AI安全边界）有时会影响特定模型的打斗表现。

原文地址:https://blog.csdn.net/zhuzongpeng/article/details/137410938 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1777633556177227776.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

十四款大型语言模型在《街头霸王III》中一决雌雄

相关推荐

最近更新

热门阅读