【书生·浦语】大模型实战营——第六课笔记

2024-01-24 17:48:02
开发
31

视频链接：https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档：https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库：https://github.com/open-compass/opencompass

关于评测的三个问题

在这里插入图片描述
1、为什么需要评测？

2、需要测什么？
在这里插入图片描述

3、怎么测？
在这里插入图片描述
客观评测

有很多东西是客观评测评测不了的，因此只能使用主观评测的方式。

提示词工程

在这里插入图片描述
如果只是换了一个prompt，模型就回答错了。说明模型对prompt非常敏感，鲁棒性还不够好。

主流大模型评测框架

在这里插入图片描述

OpenCompass能力框架

在这里插入图片描述
OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系

OpenCompass开源评测平台架构

在这里插入图片描述

OpenCompass评测流水线设计

在这里插入图片描述
进行了推理优化，对评测任务进行了切分。

目前还在探索多模态能力的评测
在这里插入图片描述

同时也在探索垂直领域的评测
法律领域
在这里插入图片描述
医疗领域

大模型评测领域的挑战

在这里插入图片描述

原文地址:https://blog.csdn.net/m0_50123831/article/details/135727188 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1750093089105645568.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

Linux之快速入门（CentOS 7）

2024-01-24 17:48:02 32 阅读
第一章：MySQL的概述（MySQL基础）

2024-01-24 17:48:02 36 阅读
[Android] Android文件系统中存储的内容有哪些？

2024-01-24 17:48:02 33 阅读
10. 第10章使用一等函数实现设计模式

2024-01-24 17:48:02 28 阅读
SpringCloud Alibaba 深入源码 - Nacos 分级存储模型、支撑百万服务注册压力、解决并发读写问题（CopyOnWrite）

2024-01-24 17:48:02 32 阅读
Confluence6+mysql5.7破j安装避坑详细记录

2024-01-24 17:48:02 29 阅读
Spring扩展点在微服务应用(待完善)

2024-01-24 17:48:02 34 阅读
Linux新手起步--文件分享，安装Linux，简单调试

2024-01-24 17:48:02 29 阅读
git提交注释规范

2024-01-24 17:48:02 40 阅读
你读过的最有力量的一段文字是什么？

2024-01-24 17:48:02 39 阅读
Redis持久化和集群架构

2024-01-24 17:48:02 32 阅读
微信小程序从入门到进阶（二）

2024-01-24 17:48:02 35 阅读
传统企业和数字化企业的关系及优劣势

2024-01-24 17:48:02 29 阅读
【漏洞复现】SpringBlade export-user接口SQL注入漏洞

2024-01-24 17:48:02 31 阅读
Zookeeper集群 + Kafka集群

2024-01-24 17:48:02 26 阅读
[go] 生成器模式

2024-01-24 17:48:02 36 阅读
Apache Spark中的广播变量分发机制

2024-01-24 17:48:02 30 阅读
ChatGPT目前的AI一哥

2024-01-24 17:48:02 34 阅读
切换pycharm光标类型（解决pycharm光标变粗）

2024-01-24 17:48:02 32 阅读
新作力压网易叠纸，心动互娱能靠《纸嫁衣》吃一辈子吗？

2024-01-24 17:48:02 27 阅读
15：00面试，15：06就出来了，问的问题有点变态。。。

2024-01-24 17:48:02 34 阅读
你画我猜。canvas

2024-01-24 17:48:02 29 阅读
企业IT基础资源管理的“帮帮团”上线啦——源启云原生基础设施管理平台

2024-01-24 17:48:02 31 阅读
vue中图片不显示问题 - vue中静态资源加载

2024-01-24 17:48:02 37 阅读
CSS基本知识总结

2024-01-24 17:48:02 54 阅读
ThreadLocal

2024-01-24 17:48:02 38 阅读
改变图片颜色

2024-01-24 17:48:02 36 阅读
01-TiDB概述

2024-01-24 17:48:02 38 阅读
Cortex-M3与M4权威指南

2024-01-24 17:48:02 37 阅读
如何使用Docker本地部署Jupyter Notebook并结合内网穿透实现远程访问

2024-01-24 17:48:02 34 阅读