【pandas 不同文件读取和存储】

一、Pandas 文件读取和存储概览

Pandas 支持的文件类型包括但不限于 CSV、Excel、JSON、HTML 和 SQL。

二、读取不同类型的文件

1. CSV文件的读取与存储

CSV(逗号分隔值)文件是数据存储的一种常见格式,特别适合存储表格数据。

代码及解释:

import pandas as pd

# 读取CSV文件
data_csv = pd.read_csv('example.csv')
print(data_csv.head())

# 存储为CSV文件
data_csv.to_csv('output.csv', index=False)

pd.read_csv 函数用于读取 CSV 文件,而 to_csv 方法用于将 DataFrame 存储回 CSV 文件。index=False 参数防止将行索引作为单独一列写入文件。

2. Excel文件的读取与存储

Excel 文件是办公室中常用的数据记录和分析工具。Pandas 通过内置的函数支持读取和写入 Excel 文件。

代码及解释:

# 读取Excel文件
data_excel = pd.read_excel('example.xlsx')
print(data_excel.head())

# 存储为Excel文件
data_excel.to_excel('output.xlsx', index=False)

pd.read_excelto_excel 分别用于读取和写入 Excel 文件。同样,index=False 防止行索引被写入。

3. JSON文件的读取与存储

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,常用于网络数据传输。

代码及解释:

# 读取JSON文件
data_json = pd.read_json('example.json')
print(data_json.head())

# 存储为JSON文件
data_json.to_json('output.json')

pd.read_json 用于读取 JSON 文件,而 to_json 方法将 DataFrame 转换为 JSON 格式。

4. SQL数据库的读取与存储

SQL 数据库是存储和管理数据的重要工具。Pandas 可以与 SQL 数据库交互,执行数据的读取和存储操作。

代码及解释:

from sqlalchemy import create_engine

# 创建数据库连接
engine = create_engine('sqlite:///example.db')

# 读取SQL数据
data_sql = pd.read_sql('SELECT * FROM table_name', engine)
print(data_sql.head())

# 存储到SQL数据库
data_sql.to_sql('table_name', engine, if_exists='replace', index=False)

在这里,create_engine 用于创建与数据库的连接。pd.read_sql 从数据库中读取数据,而 to_sql 方法将数据写入数据库。

5. 其他格式文件的读取与存储

除了上述格式,Pandas 还支持多种其他格式,例如 HTML、HDF5 等。

HTML文件的读取

# 读取HTML中的表格数据
data_html = pd.read_html('http://example.com')
print(data_html[0].head())

pd.read_html 读取 HTML 文件中的表格数据。

HDF5文件的读取和写入

# 读取HDF5文件
data_hdf5 = pd.read_hdf('data.h5', 'key')
print(data_hdf5.head())

# 写入HDF5文件
data_hdf5.to_hdf('output.h5', 'key')

HDF5 是用于存储大量科学数据的一种文件格式。pd.read_hdfto_hdf 分别用于读取和写入 HDF5 文件。

相关推荐

  1. pandas 不同文件读取存储

    2024-02-18 09:04:05       28 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-02-18 09:04:05       17 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-18 09:04:05       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-18 09:04:05       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-18 09:04:05       18 阅读

热门阅读

  1. C语言:国家名称按字母表排序

    2024-02-18 09:04:05       29 阅读
  2. 精通Nmap:网络扫描与安全的终极武器

    2024-02-18 09:04:05       24 阅读
  3. 探索XGBoost:深度集成与迁移学习

    2024-02-18 09:04:05       26 阅读
  4. pytorch神经网络入门代码

    2024-02-18 09:04:05       27 阅读
  5. 流畅的Python(十)-序列的修改、散列和切片

    2024-02-18 09:04:05       30 阅读
  6. 关于预训练模型的一点感悟

    2024-02-18 09:04:05       27 阅读
  7. 23种设计模式之:命令模式

    2024-02-18 09:04:05       24 阅读
  8. DAY52:动态规划(打家劫舍系列)

    2024-02-18 09:04:05       32 阅读
  9. 力扣热题100_滑动窗口_3_无重复字符的最长子串

    2024-02-18 09:04:05       31 阅读
  10. 掘根宝典之C++类模板大全

    2024-02-18 09:04:05       17 阅读
  11. 【设计模式】观察者模式Observer Pattern

    2024-02-18 09:04:05       25 阅读
  12. 在Ubuntu-12.04环境下使用新的Rust开发工具

    2024-02-18 09:04:05       28 阅读
  13. UI自动化-(web入门示例)

    2024-02-18 09:04:05       26 阅读
  14. ValueError check_hostname requires server_hostname 报错

    2024-02-18 09:04:05       24 阅读