大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测

在这里插入图片描述

基于OpenCompass大模型评测

关于评测的三个问题Why/What/How

在这里插入图片描述

Why

在这里插入图片描述
在这里插入图片描述

What

在这里插入图片描述
在这里插入图片描述
有许多任务评测,包括垂直领域

How

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

包含客观评测和主观评测,其中主观评测分人工和模型来评估。

提示词工程

在这里插入图片描述

主流评测框架

在这里插入图片描述

OpenCompass 能力框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 模型层
  • 能力层
  • 方法层
  • 工具层

在这里插入图片描述
支持丰富的模型

在这里插入图片描述
评测流水线设计,能切分多个独立执行的任务,最大化利用计算资源。
在这里插入图片描述
大模型能力对比结果输出

前言探索
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
探索性方向涵盖:

  • 多模态
  • 法律
  • 医生

挑战

在这里插入图片描述

实践

创建开发环境和准备数据集

在这里插入图片描述
查看支持的数据集:
在这里插入图片描述

启动评测

客观评测

主要是run.py代码文件
在这里插入图片描述

  • datasets:指定数据集
  • hf-path:模型文件
  • tokenizer-path:tokenizer路径
  • max-seq-len:模型读入的最大长度
  • max-out-len:模型输出的最大长度,客观题设置一般较小
  • –debug:debug模式,打印出所有的过程
    在这里插入图片描述
    在这里插入图片描述
主观评测

主要是eval_sbujective_alignbench.py文件修改,需要注意modelmax_out_len等处的修改。
在这里插入图片描述

最近更新

  1. TCP协议是安全的吗?

    2024-01-22 12:04:04       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-22 12:04:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-22 12:04:04       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-22 12:04:04       20 阅读

热门阅读

  1. STM32WLE5JC学习

    2024-01-22 12:04:04       31 阅读
  2. 如何有效开展网络安全事件调查工作

    2024-01-22 12:04:04       29 阅读
  3. 跟着pink老师前端入门教程-day08

    2024-01-22 12:04:04       30 阅读
  4. vue2 路由守卫讲解。

    2024-01-22 12:04:04       31 阅读
  5. c++设计模式之单例模式

    2024-01-22 12:04:04       28 阅读
  6. linux开机自启动方法

    2024-01-22 12:04:04       25 阅读
  7. GraphicsMagick 的 OpenCL 开发记录(十一)

    2024-01-22 12:04:04       31 阅读
  8. C# 实现 凯撒密码

    2024-01-22 12:04:04       27 阅读