【书生·浦语】大模型实战营——第六课笔记

视频链接:https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库:https://github.com/open-compass/opencompass

关于评测的三个问题

在这里插入图片描述
1、为什么需要评测?
在这里插入图片描述

2、需要测什么?
在这里插入图片描述

3、怎么测?
在这里插入图片描述
客观评测
在这里插入图片描述
有很多东西是客观评测评测不了的,因此只能使用主观评测的方式。
在这里插入图片描述

提示词工程

在这里插入图片描述
如果只是换了一个prompt,模型就回答错了。说明模型对prompt非常敏感,鲁棒性还不够好。

主流大模型评测框架

在这里插入图片描述

OpenCompass能力框架

在这里插入图片描述
OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系
在这里插入图片描述

OpenCompass开源评测平台架构

在这里插入图片描述

OpenCompass评测流水线设计

在这里插入图片描述
进行了推理优化,对评测任务进行了切分。

目前还在探索多模态能力的评测
在这里插入图片描述

同时也在探索垂直领域的评测
法律领域
在这里插入图片描述
医疗领域
在这里插入图片描述

大模型评测领域的挑战

在这里插入图片描述

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-01-24 17:48:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-24 17:48:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-24 17:48:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-24 17:48:02       20 阅读

热门阅读

  1. git提交注释规范

    2024-01-24 17:48:02       40 阅读
  2. [go] 生成器模式

    2024-01-24 17:48:02       36 阅读
  3. Apache Spark中的广播变量分发机制

    2024-01-24 17:48:02       30 阅读
  4. ChatGPT目前的AI一哥

    2024-01-24 17:48:02       34 阅读
  5. ThreadLocal

    2024-01-24 17:48:02       38 阅读
  6. 改变图片颜色

    2024-01-24 17:48:02       36 阅读