书生·浦语大模型实战营-学习笔记6

OpenCompass大模型测评

1. 关于评测

在这里插入图片描述

1.1 为什么要评测?

在这里插入图片描述

在这里插入图片描述

1.2 需要评测什么?

在这里插入图片描述
在这里插入图片描述

1.3 如何评测?

在这里插入图片描述

1.3.1 客观评测

在这里插入图片描述
可以基于正则表达式的方式,提取模型的回答,只要在模型的回答中提取到北京这个关键词,就认为模型在客观上答对了这道题。就可以去统计所有题目在客观上的准确率,这样是客观评测的方式。

1.3.2 主观评测

在这里插入图片描述

1.3.3 提示词工程评测

在这里插入图片描述
另一种对模型进行评测的方式:可以使用Prompt Enginnering方法测试模型对Prompt的敏感性。

同一个问题有多种问法,有多种Prompt的表达方式,预期模型在这5种问题下的回答都是一样的,都能答对。如果只是简单的换了一种Prompt的问法,模型就答错了的话,说明模型的鲁棒性很差。

在这里插入图片描述

2. 介绍OpenCompass工具

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 实战演示

https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md

相关推荐

  1. 书生·模型实战学习笔记目录

    2024-01-24 08:56:04       54 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-24 08:56:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-24 08:56:04       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-24 08:56:04       82 阅读
  4. Python语言-面向对象

    2024-01-24 08:56:04       91 阅读

热门阅读

  1. 【笔记】Helm-3 主题-15 SQL存储后端的权限管理

    2024-01-24 08:56:04       46 阅读
  2. vue 项目优化打包时间

    2024-01-24 08:56:04       57 阅读
  3. openssl3.2/test/certs - 018 - trust variants: +anyEKU, -anyEKU

    2024-01-24 08:56:04       57 阅读
  4. C#设计模式教程(22):策略模式

    2024-01-24 08:56:04       57 阅读
  5. 代码随想录算法训练营第十四天|二叉树

    2024-01-24 08:56:04       55 阅读
  6. poi使用

    poi使用

    2024-01-24 08:56:04      53 阅读
  7. 中间件中防止数据上下文并发导致异常

    2024-01-24 08:56:04       60 阅读
  8. 复现NAS with RL时pytorch的相关问题

    2024-01-24 08:56:04       63 阅读
  9. 学习Spark遇到的问题

    2024-01-24 08:56:04       54 阅读
  10. Hudi0.14.0 集成 Spark3.2.3(IDEA编码方式)

    2024-01-24 08:56:04       53 阅读