大语言模型训练数据集(1)

CLUECorpusSmall
CLUECorpusSmall包含新闻、社区互动、维基百科、评论语料。原始数据和细节描述在这里

语料 链接
CLUECorpusSmall---- https://share.weiyun.com/sC6PMhxx
CLUECorpusSmall (BERT格式)---- https://share.weiyun.com/9SPPGUOK
News Commentary v13 (ZH-EN)
News Commentary v13包括平行语料。原始数据和细节描述在这里

语料 链接
news-Commentary-v13-en-zh---- https://share.weiyun.com/PLMxw6ae
news-Commentary-v13-zh-en---- https://share.weiyun.com/5rMwRhDi
news-Commentary-v13-en-zh_sampled---- https://share.weiyun.com/1KTxq3Dc
CIFAR100_nolabel
CIFAR100_nolabel 包括50000张没有标注的图片,可以用作无监督的预训练。原始数据在这里

语料 链接
CIFAR100_nolabel---- https://share.weiyun.com/M2tA9P8p

相关推荐

  1. 语言模型训练数据1

    2024-02-07 06:52:01       37 阅读
  2. 语言模型训练数据

    2024-02-07 06:52:01       37 阅读
  3. 语言模型微调数据(2)

    2024-02-07 06:52:01       37 阅读
  4. [网络安全]-059-安全模型以及训练数据

    2024-02-07 06:52:01       14 阅读
  5. 2.3.1 语言模型的预训练

    2024-02-07 06:52:01       13 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-02-07 06:52:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-07 06:52:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-07 06:52:01       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-07 06:52:01       20 阅读

热门阅读

  1. 【STAT4052】Introduction to Statistical Learning

    2024-02-07 06:52:01       24 阅读
  2. swift结算体系

    2024-02-07 06:52:01       35 阅读
  3. 14.Swift函数

    2024-02-07 06:52:01       28 阅读
  4. ChatGPT学习大纲

    2024-02-07 06:52:01       34 阅读
  5. 数据结构刷题 -- 客房预约

    2024-02-07 06:52:01       29 阅读
  6. 动态数据源

    2024-02-07 06:52:01       27 阅读
  7. CGAL::2D Arrangements-2

    2024-02-07 06:52:01       28 阅读
  8. vscode代码快捷键

    2024-02-07 06:52:01       27 阅读
  9. 【Kotlin】自定义Json反序列化

    2024-02-07 06:52:01       32 阅读
  10. 学习笔记:正则表达式

    2024-02-07 06:52:01       26 阅读