使用 Datetime 索引在函数中正确切片 DataFrame

花韻仙語

发布时间：2025-10-24 17:04:01

975人浏览过

来源于php中文网

原创

使用 datetime 索引在函数中正确切片 dataframe

本文介绍了如何使用 `datetime` 索引在 Pandas DataFrame 中进行切片操作，尤其是在函数中处理可选的起始和结束日期时。重点讲解了如何使用 `.loc` 进行基于标签的切片，以及如何利用 `pd.read_parquet` 的 `filters` 参数优化 Parquet 文件的读取，避免加载不必要的数据。同时，针对 `mypy` 静态类型检查器的报错，提供了相应的解决方案，确保代码的健壮性和可维护性。

在使用 Pandas 处理时间序列数据时，经常需要在 DataFrame 中根据日期时间范围进行切片。当这些操作被封装到函数中，并且需要处理可选的起始和结束日期时，可能会遇到一些问题，例如类型检查器的报错，以及性能上的考量。本文将介绍几种处理这种情况的有效方法。

使用 .loc 进行切片

最直接的方法是使用 Pandas DataFrame 的 .loc 属性，它允许我们使用标签进行切片。.loc 可以接受字符串形式的日期作为索引，从而方便地进行时间范围的选择。

以下是一个使用 .loc 进行切片的示例：

import pandas as pd
from typing import Optional

def load_data_between_dates(
    file_path: str,
    start_date: Optional[str] = None,
    end_date: Optional[str] = None,
) -> pd.DataFrame:
    """
    从 Parquet 文件加载数据，并根据给定的日期范围进行切片。

    Args:
        file_path: Parquet 文件的路径。
        start_date: 可选的起始日期字符串 (YYYY-MM-DD)。
        end_date: 可选的结束日期字符串 (YYYY-MM-DD)。

    Returns:
        切片后的 DataFrame。
    """
    df = pd.read_parquet(file_path)
    df = df.loc[start_date:end_date]
    return df

在这个例子中，load_data_between_dates 函数接收一个 Parquet 文件路径，以及可选的起始和结束日期。它首先读取 Parquet 文件到 DataFrame 中，然后使用 .loc 根据提供的日期范围进行切片。如果 start_date 或 end_date 为 None，则 .loc 会自动处理，返回包含所有数据的 DataFrame。

注意事项：

确保 DataFrame 的索引是 datetime 类型。如果不是，需要先将其转换为 datetime 类型，例如使用 pd.to_datetime。
.loc 包括起始和结束日期，也就是说，df.loc['2023-01-01':'2023-01-05'] 会包含 2023 年 1 月 1 日到 2023 年 1 月 5 日的所有数据。

使用 filters 参数优化 Parquet 文件读取

当处理大型 Parquet 文件时，加载整个文件然后进行切片可能效率较低。pd.read_parquet 函数提供了一个 filters 参数，允许我们在读取文件时就进行过滤，从而只加载我们需要的数据。

以下是一个使用 filters 参数的示例：

神采PromeAI

将涂鸦和照片转化为插画，将线稿转化为完整的上色稿。

下载

import pandas as pd
from typing import Optional

def load_data_between_dates_optimized(
    file_path: str,
    start_date: Optional[str] = None,
    end_date: Optional[str] = None,
) -> pd.DataFrame:
    """
    从 Parquet 文件加载数据，并使用 filters 参数根据给定的日期范围进行过滤。

    Args:
        file_path: Parquet 文件的路径。
        start_date: 可选的起始日期字符串 (YYYY-MM-DD)。
        end_date: 可选的结束日期字符串 (YYYY-MM-DD)。

    Returns:
        过滤后的 DataFrame。
    """
    filters = []

    if start_date is not None:
        filters.append(("index", ">=", pd.Timestamp(start_date)))

    if end_date is not None:
        filters.append(("index", "<=", pd.Timestamp(end_date)))

    df = pd.read_parquet(file_path, filters=filters or None)

    return df

在这个例子中，我们首先创建一个空的 filters 列表。然后，如果 start_date 和 end_date 不为 None，我们分别将对应的过滤条件添加到 filters 列表中。最后，我们将 filters 列表传递给 pd.read_parquet 函数。注意，如果 filters 列表为空，我们需要将其设置为 None，否则 pd.read_parquet 会报错。

注意事项：

filters 参数接收一个列表，列表中的每个元素是一个元组，包含列名、运算符和值。
列名必须是字符串类型。如果 DataFrame 的索引没有名称，则需要指定为 "index"。
值必须是与列的数据类型匹配的类型。在这个例子中，我们使用 pd.Timestamp 将日期字符串转换为 datetime 对象。

解决 mypy 报错

在使用 mypy 进行静态类型检查时，可能会遇到 error: Slice index must be an integer or None 报错。这是因为 mypy 无法推断 .loc 的参数类型。为了解决这个问题，我们可以使用类型注解来明确指定参数类型。

在上面的示例中，我们已经使用了类型注解来指定 start_date 和 end_date 的类型为 Optional[str]。这告诉 mypy 这些参数可以是字符串或 None。

另外，确保 pandas 和 typing 包的版本是最新的，因为旧版本可能存在类型注解的问题。

总结

本文介绍了两种在使用 datetime 索引在函数中进行 DataFrame 切片的方法：使用 .loc 进行切片，以及使用 filters 参数优化 Parquet 文件读取。同时，我们还讨论了如何解决 mypy 报错。通过掌握这些方法，可以更有效地处理时间序列数据，并编写出更健壮和可维护的代码。

PythonFlask系统学习路线第266讲_核心原理与实战案例详解【技巧】

Python FastAPI依赖注入_Python FastAPI依赖注入系统如何简化代码

python如何处理掉12306的验证码

Python爬虫实现APP接口抓取与反调试对抗的关键技术【技巧】

Kivy应用界面不显示？理解并正确使用build()方法返回根部件

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

299

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1463

2023.10.24

Go语言中的运算符有哪些

Go语言中的运算符有：1、加法运算符；2、减法运算符；3、乘法运算符；4、除法运算符；5、取余运算符；6、比较运算符；7、位运算符；8、按位与运算符；9、按位或运算符；10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

228

2024.02.23

php三元运算符用法

本专题整合了php三元运算符相关教程，阅读专题下面的文章了解更多详细内容。

2025.10.17

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

187

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

271

2023.10.25

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12

热门下载

网站特效

网站源码

网站素材

前端模板