【Pandas】pd.read_csv() 函数：读取 CSV 文件

pandas.read_csv() 用于读取 CSV（逗号分隔值）文件，并将其转换为 DataFrame，适用于数据分析、数据清洗、机器学习等任务。pd.read_csv() 是 Pandas 最常用的数据读取方法，支持各种格式、数据过滤、编码处理，适用于大规模数据分析。

正义的彬彬侠

7379人浏览 · 2025-03-11 15:29:01

正义的彬彬侠 · 2025-03-11 15:29:01 发布

`pd.read_csv()` —— 读取 CSV 文件

pandas.read_csv() 用于读取 CSV（逗号分隔值）文件，并将其转换为 DataFrame，适用于 数据分析、数据清洗、机器学习 等任务。

1. 语法

import pandas as pd

df = pd.read_csv(filepath, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None)

常用参数

参数	作用
`filepath`	CSV 文件路径（本地路径或 URL）
`sep`	分隔符（默认 `,`，支持 `\t`（TSV）、`
`header`	指定标题行（`header=None` 表示无表头）
`names`	设定列名（适用于无标题 CSV）
`index_col`	设置索引列（`index_col=0` 代表第一列为索引）
`usecols`	选择要读取的列（`usecols=["col1", "col2"]`）
`dtype`	指定列的数据类型（`dtype={"col1": str, "col2": float}`）
`nrows`	读取前 `n` 行数据
`skiprows`	跳过前 `n` 行（`skiprows=10` 跳过前 10 行）
`encoding`	指定编码格式（如 `utf-8`，`latin1`，`gbk`）

2. 读取 CSV 文件

2.1 读取标准 CSV

import pandas as pd

df = pd.read_csv("data.csv")
print(df.head())  # 查看前 5 行

如果 data.csv 内容如下：

name,age,score
Alice,25,90
Bob,30,85
Charlie,22,95

输出

     name  age  score
0   Alice   25     90
1     Bob   30     85
2  Charlie   22     95

2.2 读取无表头 CSV

df = pd.read_csv("data.csv", header=None, names=["Name", "Age", "Score"])
print(df.head())

作用

header=None：告诉 Pandas 这个 CSV 没有列名
names=["Name", "Age", "Score"]：指定列名

2.3 读取指定列

df = pd.read_csv("data.csv", usecols=["name", "age"])
print(df.head())

作用

usecols=["name", "age"]：只读取指定的列，忽略 score 列

2.4 设定索引列

df = pd.read_csv("data.csv", index_col="name")
print(df.head())

作用

index_col="name"：将 name 设为索引列

2.5 处理不同分隔符（TSV、管道分隔）

df = pd.read_csv("data.tsv", sep="\t")  # 读取 TSV 文件
df = pd.read_csv("data.txt", sep="|")   # 读取 | 分隔文件

作用

sep="\t"：读取制表符（TSV 文件）
sep="|"：读取 | 分隔的文件

2.6 处理缺失值

df = pd.read_csv("data.csv", na_values=["?", "N/A", "NULL"])
print(df.isnull().sum())  # 查看缺失值

作用

na_values=["?", "N/A", "NULL"]：将 ?、N/A、NULL 识别为 NaN

2.7 只读取前 `n` 行

df = pd.read_csv("data.csv", nrows=10)
print(df)

作用

nrows=10：只读取前 10 行

2.8 跳过前 `n` 行

df = pd.read_csv("data.csv", skiprows=5)
print(df)

作用

skiprows=5：跳过前 5 行，不读取

2.9 设定数据类型

df = pd.read_csv("data.csv", dtype={"age": int, "score": float})
print(df.dtypes)

作用

dtype={"age": int, "score": float}：指定 age 为整数，score 为浮点数

2.10 读取 URL CSV

url = "https://people.sc.fsu.edu/~jburkardt/data/csv/hw_200.csv"
df = pd.read_csv(url)
print(df.head())

作用

直接读取在线 CSV 文件

3. 解决常见问题

3.1 UnicodeDecodeError（编码问题）

df = pd.read_csv("data.csv", encoding="latin1")  # 或 encoding="gbk"

原因

CSV 可能不是 UTF-8 编码（如 GBK、Latin-1）

3.2 Pandas 解析速度慢

df = pd.read_csv("data.csv", low_memory=False)  # 适用于大文件

作用

low_memory=False 加速解析大文件

3.3 CSV 文件带 `#` 开头的注释

df = pd.read_csv("data.csv", comment="#")

作用

comment="#" 忽略 # 开头的注释行

4. 总结

用法	代码
读取标准 CSV	`pd.read_csv("data.csv")`
读取无表头 CSV	`pd.read_csv("data.csv", header=None, names=["A", "B"])`
读取指定列	`pd.read_csv("data.csv", usecols=["col1", "col2"])`
设定索引列	`pd.read_csv("data.csv", index_col="name")`
处理缺失值	`pd.read_csv("data.csv", na_values=["?", "N/A"])`
设定数据类型	`pd.read_csv("data.csv", dtype={"age": int})`
读取前 `n` 行	`pd.read_csv("data.csv", nrows=10)`
跳过前 `n` 行	`pd.read_csv("data.csv", skiprows=5)`
解决编码错误	`pd.read_csv("data.csv", encoding="latin1")`

pd.read_csv() 是 Pandas 最常用的数据读取方法，支持 各种格式、数据过滤、编码处理，适用于 大规模数据分析。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

CNSH通用翻译引擎 | 全语言互译+AI鉴定+来源追溯

《CNSH通用翻译引擎v1.0》摘要：该神经网络式翻译系统采用类脑架构设计，核心包含智能路由中枢（决策前额叶）和模块神经网络。具备多语言互译、AI伪代码识别、代码溯源三大功能，支持动态路径调整和双向反馈学习。系统通过特征感知、智能路由、并行处理实现高效翻译，并采用DNA追溯和三色审计确保可靠性。相比传统流水线架构，新设计具有神经网络的自适应优势，各模块可互相激活协作，实现更接近人类思维的翻译过程。