【InternLM实战营第二期笔记】07:OpenCompass :是骡子是马,拉出来溜溜

文章目录

课程

评测的意义是什么呢?我最近也在想。看到这节开头的内容后忽然有个顿悟:如果大模型最终也会变成一种基础工具(类比软件),稳定或可预期的效果需要先于用户感知构建出来,评测 case 就需要变成用例的相对充分抽样。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
除了提高效率本身,最近还有一个很好的工作 MixEval,把标准、静态的 benchmarks 跟 elo 表现做了充分关联,使得只测试少量样本就能得到近似 lmsys arena 的打分,也非常厉害。
对了 Opencompass 也开了 arena,感兴趣可以去打打分和体验一些最新模型的效果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

实操

如果有人跟我一样,运行评测命令行时总是提示包没安装,那文档可能写的有问题,pip install -r requirements.txt 是必须的。
在这里插入图片描述
评测完毕。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-11 07:12:02       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-11 07:12:02       106 阅读
  3. 在Django里面运行非项目文件

    2024-06-11 07:12:02       87 阅读
  4. Python语言-面向对象

    2024-06-11 07:12:02       96 阅读

热门阅读

  1. 华为FPGA工程师面试题

    2024-06-11 07:12:02       30 阅读
  2. 深度学习的点云分割

    2024-06-11 07:12:02       32 阅读
  3. ESP32连接xbox手柄

    2024-06-11 07:12:02       28 阅读
  4. OpenCV图像算术位运算

    2024-06-11 07:12:02       33 阅读
  5. rust 1.安装

    2024-06-11 07:12:02       34 阅读
  6. 大学生如何学习node.js?

    2024-06-11 07:12:02       28 阅读
  7. MYSQL

    MYSQL

    2024-06-11 07:12:02      31 阅读
  8. MacOS升级ruby版本

    2024-06-11 07:12:02       32 阅读
  9. GitHub工程git merge出现冲突处理方式

    2024-06-11 07:12:02       33 阅读
  10. PostgreSQL的视图pg_roles

    2024-06-11 07:12:02       31 阅读
  11. bexcel

    2024-06-11 07:12:02       29 阅读
  12. 需要安排几位师傅加工零件?c++

    2024-06-11 07:12:02       29 阅读
  13. [FFmpeg学习]初级的SDL播放mp4测试

    2024-06-11 07:12:02       33 阅读