从 Pandas 到 Polars 二十五：在Polars中，关于IPC文件

2024-07-18 20:38:03
开发
19

通过简单的工作流程变更，实现了1000倍的加速——连我都对此感到惊讶！

我从Pandas切换到Polars，并将数据集从CSV格式转换为IPC格式。但是，我们需要深入了解这在实践中意味着什么。

什么是IPC文件？

首先，IPC格式是什么？它是一种磁盘格式，反映了Apache Arrow在内存中存储数据的方式。它也被称为Arrow格式或Feather格式。

IPC读取速度非常快，因为它只需要极少的序列化操作。但IPC不止于此，因为Polars中的IPC支持内存映射。

通过内存映射，Polars不会将整个文件读入内存——它知道数据在磁盘上的位置。

这使得Polars中的pl.read_ipc操作非常快，因为它不需要将数据读入内存。但与read_csv相比，不在内存中的数据可能会对性能造成一定的拖累。

（说明：IPC文件通常指的是用于进程间通信的文件格式，特别是Apache Arrow的IPC格式。Apache Arrow是一种跨平台的开发平台，用于在内存中高效表示平面列式数据。Polars是一个Python数据分析库，其底层数据结构与Apache Arrow紧密集成，因此Polars能够利用Arrow的IPC格式来存储和交换数据。使用IPC文件，Polars可以在多个进程之间快速、高效地传输和共享数据，而无需将数据转换为其他格式或进行昂贵的序列化和反序列化操作。这可以显著提高数据处理的性能和效率。）

测试完整查询

我们可以通过执行完整查询来测试实际性能——在这种情况下，是在纽约出租车数据上。我们按乘客数量获取平均距离。

So in practice: Polars with IPC is 100x faster than Pandas with CSV. Not bad.

所以在实践中：使用IPC格式的Polars比使用CSV格式的Pandas快100倍。这很不错。

Pandas 当然也支持 IPC，通过 pd.read_feather。在这种比较中，Polars 大约比 Pandas 快 5 倍。

IPC 的主要缺点是文件大小可能比 CSV 大。然而，在许多情况下，为了更快的查询而增加存储空间是一个很好的权衡。

无论如何，使用 IPC 的 Polars 都可以通过流式计算处理大于内存的文件。

我认为 IPC 格式的使用并不普遍，尤其是当你需要从本地文件系统或快速云连接中读取大文件时——想象一下，你可以在具有 10ms 延迟的 Streamlit 应用程序中做什么！

原文地址:https://blog.csdn.net/sosogod/article/details/140523785 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813916138225143808.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-18 20:38:03 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-18 20:38:03 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-18 20:38:03 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-18 20:38:03 71 阅读
NoSQL之Redis非关系型数据库

2024-07-18 20:38:03 74 阅读
2024.7.22 作业

2024-07-18 20:38:03 74 阅读
GDB调试正在运行的程序

2024-07-18 20:38:03 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-18 20:38:03 60 阅读
在Django里面运行非项目文件

2024-07-18 20:38:03 58 阅读
SSD基本架构与工作原理

2024-07-18 20:38:03 64 阅读
在誉天学习完HCIE就业吗？

2024-07-18 20:38:03 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-18 20:38:03 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-18 20:38:03 65 阅读
go 协程池的实现

2024-07-18 20:38:03 64 阅读
Shell脚本循环语句与函数

2024-07-18 20:38:03 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-18 20:38:03 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-18 20:38:03 62 阅读
四大引用——强软弱虚

2024-07-18 20:38:03 67 阅读
Python语言-面向对象

2024-07-18 20:38:03 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-18 20:38:03 64 阅读
网站安全-CDN篇

2024-07-18 20:38:03 64 阅读

热门阅读

TCP/IP网络模型详解

2024-07-18 20:38:03 22 阅读
短视频是如何一步步“蚕食”我们大脑的？

2024-07-18 20:38:03 21 阅读
Linux 安装多个jdk，切换使用

2024-07-18 20:38:03 20 阅读
科普文：深入理解Redis

2024-07-18 20:38:03 20 阅读
【ffmpeg命令基础】过滤处理

2024-07-18 20:38:03 20 阅读
51单片机学习（4）

2024-07-18 20:38:03 22 阅读
pandas库学习之read_excel函数

2024-07-18 20:38:03 16 阅读
构建实用的NLP应用程序：重塑人类与计算机的协同工作方式

2024-07-18 20:38:03 16 阅读
【C语言】结构体，枚举，联合超详解！！！

2024-07-18 20:38:03 19 阅读
Qt支持LG高级汽车内容平台

2024-07-18 20:38:03 21 阅读
opengl入门之环境配置

2024-07-18 20:38:03 24 阅读
Lua基础知识入门

2024-07-18 20:38:03 21 阅读
Android Studio 输出信息出现乱码

2024-07-18 20:38:03 18 阅读
【echarts】tooltip 增加单位

2024-07-18 20:38:03 23 阅读
Springboot3.0整合RocketMq消费端，实现消息流控(配置消息拉取频率、拉取数量)

2024-07-18 20:38:03 24 阅读
QTableView

2024-07-18 20:38:03 18 阅读
node解析Excel中的考试题并实现在线做题功能

2024-07-18 20:38:03 21 阅读
Spring MVC-什么是Spring MVC?

2024-07-18 20:38:03 23 阅读
全网最全的Python入门教程(教程+课件)，从零基础入门到精通

2024-07-18 20:38:03 20 阅读
nginx高可用实例

2024-07-18 20:38:03 22 阅读
Python在气象学中的应用：预测与分析

2024-07-18 20:38:03 22 阅读
都是“垫图”，img2img 和ipadapter,instandID

2024-07-18 20:38:03 21 阅读
解决 uiautomator2 测试公众号、小程序无法定位元素

2024-07-18 20:38:03 19 阅读
Mysql知识点合集2

2024-07-18 20:38:03 20 阅读
抖音运营_选品

2024-07-18 20:38:03 16 阅读
【基于C++与OpenCV实现魔方图像识别和还原算法】魔方色块识别

2024-07-18 20:38:03 18 阅读
crontab文件只能有一个吗

2024-07-18 20:38:03 22 阅读
【Python】Python中面向对象编程(OOP)的深入理解与实践

2024-07-18 20:38:03 18 阅读
Nginx 和 PHP（特别是使用 Swoole 扩展）的配置和调优

2024-07-18 20:38:03 20 阅读
Qt QProcess 进程间通信读写数据通信

2024-07-18 20:38:03 19 阅读