大语言模型微调数据集(2)

CLUE 数据集
CLUE 是一个中文语言理解测评基准,包括分类、命名实体识别和机器阅读理解任务。CLUE中的数据集为JSON格式。对于分类和命名实体识别数据集,我们将JSON格式转换为TSV格式,以便TencentPretrain可以直接加载它们;对于机器阅读理解数据集,我们保留原始格式,并将数据集预处理相关代码放在项目中。

分类:

数据集 链接
TNEWS--------------- https://share.weiyun.com/maExfIeO
CSL--------------- https://share.weiyun.com/LftIGlIT
CMNLI--------------- https://share.weiyun.com/hn3kTeKm
OCNLI --------------- https://share.weiyun.com/wkltwNwg
AFQMC--------------- https://share.weiyun.com/CdlEKMON
IFLYTEK--------------- https://share.weiyun.com/ldiLjnZJ
CLUEWSC2020--------------- https://share.weiyun.com/RLL1ShBi
机器阅读理解:

数据集 链接
CMRC2018--------------- https://share.weiyun.com/KwAbnX60
C3--------------- https://share.weiyun.com/JDpgczdp
ChID--------------- https://share.weiyun.com/8KJE3NOz
命名实体识别:

数据集 链接
CLUENER2020--------------- https://share.weiyun.com/smSMtLkn
百度 ERNIE

相关推荐

  1. 语言模型微调数据2

    2024-02-07 10:54:03       35 阅读
  2. 详解模型微调数据构建方法(持续更新)

    2024-02-07 10:54:03       10 阅读
  3. 模型微调-数据部分

    2024-02-07 10:54:03       16 阅读
  4. 语言模型训练数据

    2024-02-07 10:54:03       37 阅读
  5. 语言模型训练数据(1)

    2024-02-07 10:54:03       35 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-02-07 10:54:03       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-07 10:54:03       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-07 10:54:03       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-07 10:54:03       18 阅读

热门阅读

  1. js获取当前时间

    2024-02-07 10:54:03       36 阅读
  2. 练习题解(关于最小生成树)

    2024-02-07 10:54:03       37 阅读
  3. C语言学习(6)—— 指针

    2024-02-07 10:54:03       31 阅读
  4. 课时16:本地变量_普通变量

    2024-02-07 10:54:03       32 阅读
  5. 机器学习-朴素贝叶斯【手撕】

    2024-02-07 10:54:03       28 阅读
  6. Python生成模拟数据、随机文本-Faker库

    2024-02-07 10:54:03       32 阅读
  7. Vue3实现响应式编程

    2024-02-07 10:54:03       29 阅读
  8. C语言探索:选择排序的实现与解读

    2024-02-07 10:54:03       31 阅读
  9. Docker Arthas 实战指南

    2024-02-07 10:54:03       33 阅读
  10. 每天一个数据分析题(一百五十四)

    2024-02-07 10:54:03       35 阅读
  11. leetcode 1539.第k个缺失的正整数

    2024-02-07 10:54:03       34 阅读