Python中按行和列索引访问CSV文件数据：两种高效方法详解

花韻仙語

发布时间：2025-09-22 11:17:14

459人浏览过

来源于php中文网

原创

Python中按行和列索引访问CSV文件数据：两种高效方法详解

本教程详细介绍了在Python中如何根据行和列索引访问CSV文件中的特定数据。我们将探讨两种主要方法：一是利用Python内置的csv模块结合enumerate函数进行迭代式访问，适用于基础场景；二是借助强大的pandas库，特别是DataFrame.iloc方法，实现更高效、便捷的数据定位与处理，尤其适用于大规模数据分析任务。文章将提供详细代码示例及选择指南。

在处理csv（逗号分隔值）文件时，经常需要根据其在文件中的行和列位置来精确地访问或修改数据。无论是进行逐个单元格的比较、排序，还是进行更复杂的数值计算，了解如何高效地通过索引定位数据是至关重要的。本文将介绍两种python中常用的方法来实现这一目标。

方法一：使用Python内置csv模块进行逐行逐列访问

Python的csv模块提供了一个简洁且无需外部依赖的方式来处理CSV文件。通过结合enumerate函数，我们可以轻松地在迭代文件内容时获取当前的行和列索引。

1. 读取CSV文件并获取数据

首先，我们需要打开CSV文件并使用csv.reader对象来迭代其内容。为了方便通过索引访问，通常我们会将整个CSV文件内容读取到一个列表的列表中（即一个二维列表）。

import csv

def read_csv_to_list(file_path):
    """
    读取CSV文件内容到二维列表。
    每一行是一个列表，每个元素是字符串。
    """
    data = []
    try:
        with open(file_path, 'r', newline='', encoding='utf-8') as csvfile:
            csv_reader = csv.reader(csvfile)
            for row in csv_reader:
                data.append(row)
        return data
    except FileNotFoundError:
        print(f"错误：文件 '{file_path}' 未找到。")
        return None
    except Exception as e:
        print(f"读取CSV文件时发生错误：{e}")
        return None

# 假设你的CSV文件名为 'data.csv'
# 示例：创建一个虚拟的CSV文件
with open('data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow([f"{i}.{j}" for j in range(5)]) # Header row
    for i in range(10):
        writer.writerow([f"{i*10 + j}.5" for j in range(5)])

csv_data = read_csv_to_list('data.csv')

if csv_data:
    print("CSV文件内容（前5行）：")
    for i, row in enumerate(csv_data[:5]):
        print(f"行 {i}: {row}")

2. 通过行和列索引访问特定值

一旦数据被读取到二维列表中，我们就可以使用标准的列表索引data[row_index][col_index]来访问任何单元格。如果需要在循环中获取索引，enumerate函数将非常有用。

if csv_data:
    # 访问特定单元格 (例如：第3行，第2列的值，索引从0开始)
    # 假设CSV有标题行，那么实际数据从索引1开始
    target_row_index = 2 # 实际CSV的第3行
    target_col_index = 1 # 实际CSV的第2列

    if target_row_index < len(csv_data) and target_col_index < len(csv_data[target_row_index]):
        value = csv_data[target_row_index][target_col_index]
        print(f"\n访问特定单元格：第 {target_row_index} 行，第 {target_col_index} 列的值是：'{value}'")

        # 注意：从CSV读取的值默认是字符串类型，如果需要进行数值运算，需要手动转换
        try:
            float_value = float(value)
            print(f"转换为浮点数：{float_value}")
        except ValueError:
            print(f"无法将 '{value}' 转换为浮点数。")
    else:
        print(f"\n指定索引 ({target_row_index}, {target_col_index}) 超出数据范围。")

    # 遍历所有数据并按索引访问
    print("\n遍历所有数据并打印（仅打印数值类型）：")
    for row_idx, row in enumerate(csv_data):
        for col_idx, cell_value in enumerate(row):
            try:
                # 尝试转换为浮点数进行处理
                num_value = float(cell_value)
                # 示例：在这里可以进行比较、排序等操作
                # if num_value > 50:
                #     print(f"({row_idx}, {col_idx}): {num_value} (大于50)")
                print(f"({row_idx}, {col_idx}): {num_value}")
            except ValueError:
                # print(f"({row_idx}, {col_idx}): '{cell_value}' (非数值)")
                pass # 忽略非数值单元格

注意事项：

数据类型转换： csv模块读取的所有数据都是字符串。如果你的CSV文件包含数字（整数或浮点数），你需要使用int()或float()手动进行类型转换才能进行数值运算。
内存消耗： 对于非常大的CSV文件，一次性将所有数据加载到内存中可能会消耗大量内存。在这种情况下，可以考虑逐行处理，或者使用pandas库。
错误处理： 确保处理文件不存在、CSV格式错误或数据类型转换失败等异常情况。

方法二：利用pandas库实现高效数据索引与处理

pandas是一个功能强大的数据分析库，特别适合处理表格型数据（如CSV文件）。它提供了DataFrame结构，可以高效地存储和操作数据，并提供了多种灵活的索引方式。对于通过行和列索引访问数据，DataFrame.iloc是首选方法。

立即学习“Python免费学习笔记（深入）”；

1. 使用pandas读取CSV文件

pandas的read_csv函数可以轻松地将CSV文件加载到DataFrame对象中。它会自动推断数据类型，这比csv模块方便得多。

import pandas as pd

# 假设你的CSV文件名为 'data.csv'
# 再次确保 'data.csv' 存在，内容与之前相同
try:
    df = pd.read_csv('data.csv')
    print("\n使用pandas读取CSV文件（前5行）：")
    print(df.head())
except FileNotFoundError:
    print("错误：文件 'data.csv' 未找到。")
    df = None
except Exception as e:
    print(f"使用pandas读取CSV文件时发生错误：{e}")
    df = None

2. 通过DataFrame.iloc进行整数位置索引

DataFrame.iloc允许你使用整数位置（从0开始）来选择行和列。它的语法是df.iloc[row_index, col_index]。

访问单个单元格：df.iloc[row_idx, col_idx]

魔珐星云
无需昂贵GPU，一键解锁超写实/二次元等多风格3D数字人，跨端适配千万级并发的具身智能平台。

下载
访问一行：df.iloc[row_idx] (返回一个Series)
访问一列：df.iloc[:, col_idx] (返回一个Series)
访问多行或多列（切片）：df.iloc[start_row:end_row, start_col:end_col]

if df is not None:
    # 访问特定单元格 (例如：第3行，第2列的值，索引从0开始)
    # 注意：pandas默认将第一行识别为标题，所以iloc[0]是实际的第1行数据
    target_row_index_pandas = 2 # DataFrame中的第3行数据 (假设没有标题行，或者iloc已经处理了标题行)
    target_col_index_pandas = 1 # DataFrame中的第2列数据

    if target_row_index_pandas < len(df) and target_col_index_pandas < len(df.columns):
        value_pandas = df.iloc[target_row_index_pandas, target_col_index_pandas]
        print(f"\n使用pandas访问特定单元格：第 {target_row_index_pandas} 行，第 {target_col_index_pandas} 列的值是：{value_pandas}")
        print(f"数据类型：{type(value_pandas)}") # pandas会自动推断数据类型
    else:
        print(f"\n指定索引 ({target_row_index_pandas}, {target_col_index_pandas}) 超出DataFrame范围。")

    # 遍历所有数据并按索引访问
    print("\n使用pandas遍历所有数据并打印（仅打印数值类型）：")
    for row_idx in range(len(df)):
        for col_idx in range(len(df.columns)):
            cell_value = df.iloc[row_idx, col_idx]
            # pandas通常会自动处理数据类型，可以直接进行数值运算
            if pd.api.types.is_numeric_dtype(type(cell_value)):
                # 示例：在这里可以进行比较、排序等操作
                # if cell_value > 50:
                #     print(f"({row_idx}, {col_idx}): {cell_value} (大于50)")
                print(f"({row_idx}, {col_idx}): {cell_value}")
            # else:
            #     print(f"({row_idx}, {col_idx}): '{cell_value}' (非数值)")

    # 访问一整行数据
    print(f"\n访问第 {target_row_index_pandas} 行数据：")
    print(df.iloc[target_row_index_pandas])

    # 访问一整列数据
    print(f"\n访问第 {target_col_index_pandas} 列数据：")
    print(df.iloc[:, target_col_index_pandas])

优势：

自动类型推断： pandas在读取数据时会尝试推断列的数据类型（如整数、浮点数、字符串），省去了手动转换的麻烦。
性能优异： pandas底层使用NumPy进行优化，对于大型数据集的处理速度远超纯Python循环。
功能丰富： 除了基本的索引，pandas还提供了强大的数据清洗、转换、分析和可视化功能。
便捷性： 提供了多种灵活的索引方式（除了iloc还有loc基于标签的索引），以及各种内置的数据操作方法。

两种方法的选择与应用场景

选择哪种方法取决于你的具体需求和数据集的特点：

csv模块：
- 适用场景： 文件较小（几MB到几十MB），对内存占用敏感；无需复杂的数据清洗和分析；项目中不希望引入外部依赖；仅需简单地逐行逐列读取或修改数据。
- 特点： 轻量级，Python标准库自带，学习曲线平缓，但需要手动处理数据类型转换。
pandas库：
- 适用场景： 文件较大（几十MB到GB级别），需要高性能的数据处理；需要进行复杂的数据清洗、转换、聚合、统计分析等操作；需要与数据库、其他数据源集成；追求代码的简洁性和可读性。
- 特点： 功能强大，性能卓越，自动处理数据类型，但需要安装外部库，对内存消耗相对较高（但通常更高效地利用内存）。

共同注意事项：

索引从0开始： 无论是csv模块还是pandas，行和列的索引都从0开始计数。
文件路径： 确保提供的CSV文件路径是正确的。
编码： 处理CSV文件时，指定正确的编码（如encoding='utf-8'）可以避免乱码问题。
标题行： 如果CSV文件包含标题行，在处理数据时要考虑是否跳过或将其作为列名。pandas.read_csv默认会把第一行当作标题。

总结

通过本教程，我们学习了在Python中根据行和列索引访问CSV文件数据的两种主要方法：使用内置的csv模块进行基础迭代，以及利用强大的pandas库进行高效数据处理。csv模块适合轻量级、简单的数据访问任务，而pandas则凭借其DataFrame结构和iloc方法，为大规模数据分析和复杂操作提供了无与伦比的便利性和性能。理解这两种方法的优缺点和适用场景，将帮助你根据项目需求做出明智的选择，从而更高效地处理CSV数据。

使用正则表达式中的反向引用精确匹配重复内容

Python多线程和多进程的区别_Python线程与进程核心差异对比

Python 面向对象是否一定要建模？

Python 如何写出可测试的代码？

Python 设计哲学如何影响工程实践？