datasets的一些使用技巧

2024-01-21 20:32:03
开发
33

#加载某类文件作为数据集

dataset = load_dataset("json", data_files="./train_pair_1w.json", split="train")

#加载数据集中的子数据集

datasets = load_dataset("clue",name="afqmc",#trust_remote_code=True)

train_dataset=datasets[“train”]

#load_dataset加载某类文件（json,csv,text）

ds=load_dataset(“json”,data_files=”path.json”)

data_files = {"train": "train.csv", "test": "test.csv"}

dataset = load_dataset("dataset_name", data_files=data_files)

#构造数据集

try_dataset=train_dataset[:10]

dataset = Dataset.from_dict(try_dataset)

dataset_dict = DatasetDict({'train': dataset})

Dataset_dict才可以使用map方法

#用脚本的方式加载dataset：

from datasets import load_dataset

ds = load_dataset('path/to/local/loading_script/loading_script.py', split='train')

#使用save_to_disk之后的加载方式：（必须是save_to_disk保存过的，不然不能这样加载，用load_datset加载）

ds.save_to_disk("path/to/dataset/directory")

ds = load_from_disk('path/to/dataset/directory')

#如果文件夹里面有train,test等多个文件夹，那么就需要用DatasetDict

c3 = DatasetDict.load_from_disk("./c3/")

更多加载方式以及参数：

https://huggingface.co/docs/datasets/v2.16.1/en/package_reference/main_classes#datasets.Dataset.save_to_disk

原文地址:https://blog.csdn.net/weixin_72100405/article/details/135722052 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1749047200551407616.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

【智驾未来】低代码开发：加速创新交融的利器

2024-01-21 20:32:03 30 阅读
第五章漏洞评估 - 《骇客修成秘籍》

2024-01-21 20:32:03 29 阅读
软件开发架构

2024-01-21 20:32:03 23 阅读
C# 程序结构

2024-01-21 20:32:03 30 阅读
黑客（网络安全）技术自学30天

2024-01-21 20:32:03 31 阅读
AI对比：ChatGPT与文心一言的异同与未来

2024-01-21 20:32:03 29 阅读
命令行参数环境变量和进程空间地址

2024-01-21 20:32:03 36 阅读
【cucumber】cucumber-reporting生成测试报告

2024-01-21 20:32:03 27 阅读
《WebKit 技术内幕》之七（4）：渲染基础

2024-01-21 20:32:03 29 阅读
开源项目_大模型应用_Chat2DB

2024-01-21 20:32:03 31 阅读
【工业智能】VSB Power Line Fault Detection-chapter2

2024-01-21 20:32:03 32 阅读
生产告警JVM内存使用率超过80%告警问题排查

2024-01-21 20:32:03 34 阅读
【排序算法】五、冒泡排序（C/C++）

2024-01-21 20:32:03 27 阅读
CCC数字钥匙设计【NFC基础】--LPCD相关介绍

2024-01-21 20:32:03 31 阅读
设计模式篇---中介者模式

2024-01-21 20:32:03 32 阅读
VC++中使用OpenCV进行颜色检测

2024-01-21 20:32:03 42 阅读
设计模式-工厂模式

2024-01-21 20:32:03 38 阅读
postgresql（Windows）初始化数据库教程

2024-01-21 20:32:03 38 阅读
竞赛保研机器视觉人体跌倒检测系统 - opencv python

2024-01-21 20:32:03 37 阅读
python求解特殊回文数

2024-01-21 20:32:03 31 阅读
html Canvas粒子文字特效

2024-01-21 20:32:03 34 阅读
基于springboot+vue的校园周边美食探索及分享平台系统(前后端分离)

2024-01-21 20:32:03 34 阅读
面试2024.1.20

2024-01-21 20:32:03 28 阅读
RHCE作业

2024-01-21 20:32:03 34 阅读
从零开始搭建个人博客——WordPress 博客

2024-01-21 20:32:03 25 阅读
bash 5.2中文修订1

2024-01-21 20:32:03 33 阅读
数据结构：非完全二叉树（递归实现）

2024-01-21 20:32:03 26 阅读
设计模式——装饰者模式

2024-01-21 20:32:03 35 阅读
再回首之SpringMVC深入解析

2024-01-21 20:32:03 30 阅读
QTForAndroid环境搭建

2024-01-21 20:32:03 28 阅读