Pandas加载大数据集

Scaling to large datasets — pandas 2.1.4 documentationicon-default.png?t=N7T8https://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。

pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column

data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用

print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-01-17 19:58:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-17 19:58:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-17 19:58:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-17 19:58:02       20 阅读

热门阅读

  1. GNU Tools使用笔记

    2024-01-17 19:58:02       22 阅读
  2. C#基础-资源清理-终结器与IDisposable

    2024-01-17 19:58:02       33 阅读
  3. ssh免密登录

    2024-01-17 19:58:02       39 阅读
  4. RecycleView基本使用及常见问题汇总

    2024-01-17 19:58:02       35 阅读
  5. 用c语言写一个抖音点赞系统

    2024-01-17 19:58:02       29 阅读
  6. 4、python列表Lists

    2024-01-17 19:58:02       33 阅读
  7. MYSQL主键,索引,外键

    2024-01-17 19:58:02       33 阅读