OpenCompass 大模型评测实战学习笔记

2024-05-16 01:18:09
开发
33

大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下：

开源可复现：提供公平、公开、可复现的大模型评测方案
全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力
丰富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测
多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能
灵活化拓展：想增加新模型或数据集？想要自定义更高级的任务分割策略，甚至接入新的集群管理系统？OpenCompass 的一切均可轻松扩展
在这里插入图片描述
除此之外还有一些工具支持

在opencompass官网中，还可以看到一些教程

支持的评估指标（部分）

感觉用opencompass这个框架进行评测，会比自己写评测脚本方便一点，因为涉及到不同的指标什么的。

原文地址:https://blog.csdn.net/a61022706/article/details/138755646 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1790793803112779776.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-05-16 01:18:09 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-05-16 01:18:09 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-05-16 01:18:09 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-05-16 01:18:09 100 阅读
NoSQL之Redis非关系型数据库

2024-05-16 01:18:09 101 阅读
2024.7.22 作业

2024-05-16 01:18:09 97 阅读
GDB调试正在运行的程序

2024-05-16 01:18:09 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-05-16 01:18:09 85 阅读
在Django里面运行非项目文件

2024-05-16 01:18:09 82 阅读
SSD基本架构与工作原理

2024-05-16 01:18:09 87 阅读
在誉天学习完HCIE就业吗？

2024-05-16 01:18:09 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-05-16 01:18:09 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-05-16 01:18:09 85 阅读
go 协程池的实现

2024-05-16 01:18:09 88 阅读
Shell脚本循环语句与函数

2024-05-16 01:18:09 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-05-16 01:18:09 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-05-16 01:18:09 85 阅读
四大引用——强软弱虚

2024-05-16 01:18:09 86 阅读
Python语言-面向对象

2024-05-16 01:18:09 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-05-16 01:18:09 85 阅读
网站安全-CDN篇

2024-05-16 01:18:09 88 阅读

热门阅读

路径优化算法 | 基于遗传算法求解多式联运运输问题

2024-05-16 01:18:09 36 阅读
数据结构------二叉树经典习题1

2024-05-16 01:18:09 38 阅读
Spring-Bean 作用域

2024-05-16 01:18:09 29 阅读
antv x6实现ER图

2024-05-16 01:18:09 34 阅读
【图神经网络——消息传递】

2024-05-16 01:18:09 32 阅读
详解绝对路径和相对路径的区别

2024-05-16 01:18:09 31 阅读
【嵌入式大赛应用赛道】机械手臂

2024-05-16 01:18:09 38 阅读
新时代高速数据中心800G DR8光模块解决方案

2024-05-16 01:18:09 41 阅读
数据结构：栈和队列

2024-05-16 01:18:09 30 阅读
springboot报错‘url’ attribute is not specified and no embedded datasource could

2024-05-16 01:18:09 38 阅读
第十一周学习笔记DAY.1-MySQL

2024-05-16 01:18:09 35 阅读
mysql中utf8字符集中文字节长度统计如何统计到2个字节一个汉字

2024-05-16 01:18:09 41 阅读
mysql 索引失效的原因

2024-05-16 01:18:09 31 阅读
【Shell脚本】Shell编程之数组

2024-05-16 01:18:09 37 阅读
玩转Matlab-Simscape（初级）- 03 - 单摆模型的分析

2024-05-16 01:18:09 32 阅读
2024中国(重庆)商旅文化川渝美食暨消费品博览会8月举办

2024-05-16 01:18:09 38 阅读
Linux下安装JDK并配置环境变量

2024-05-16 01:18:09 35 阅读
设计模式：备忘录模式

2024-05-16 01:18:09 32 阅读
基于springboot的校园周边美食探索及分享平台源码数据库

2024-05-16 01:18:09 34 阅读
低空经济：无人机竞赛详解

2024-05-16 01:18:09 33 阅读
必应bing广告开户费用介绍，必应搜索广告推广开户服务！

2024-05-16 01:18:09 37 阅读
springsecurity原理

2024-05-16 01:18:09 39 阅读
数据特征降维 | 主成分分析（PCA）附Python代码

2024-05-16 01:18:09 34 阅读
20240511每日运维----聊聊nignx改配置所有的nginx改完unknow

2024-05-16 01:18:09 34 阅读
数据结构之——队列详解

2024-05-16 01:18:09 35 阅读
$图形网络的自适应扩散笔记$

图形网络的自适应扩散笔记

2024-05-16 01:18:09 35 阅读
scrum项目管理系统，免费scrum管理工具

2024-05-16 01:18:09 35 阅读
HTML常见标签-段落标签

2024-05-16 01:18:09 36 阅读
抽空学学go

2024-05-16 01:18:09 36 阅读
sophgo sdk v23.03.01

2024-05-16 01:18:09 34 阅读