PostgreSQL 循环插入数据：优化ID生成与防范SQL注入的教程

霞舞

发布时间：2025-08-31 23:30:02

714人浏览过

来源于php中文网

原创

PostgreSQL 循环插入数据：优化ID生成与防范SQL注入的教程

本教程旨在解决在PostgreSQL中使用Python循环插入数据时常见的两个问题：不正确的ID生成逻辑和潜在的SQL注入风险。我们将详细讲解如何修正循环内ID重置的错误，并强调使用参数化查询来确保数据插入的安全性和稳定性，最终提供规范的代码示例以实现高效且安全的批量数据插入。

在数据库操作中，尤其是在需要批量插入数据时，循环是一个常用的编程结构。然而，如果不正确地处理循环内的变量状态和查询构建方式，可能会导致数据插入失败、重复或引发严重的安全漏洞。本文将围绕一个常见的python-postgresql数据插入场景，深入探讨如何避免这些问题。

1. 识别并修正循环计数器问题

在循环中为每条记录生成唯一ID是常见需求。原始代码示例中存在一个关键逻辑错误，导致每次循环迭代时ID都被重置，从而只有第一条记录被成功插入。

问题分析：

考虑以下不正确的代码片段：

artist_name = ['Madonna', 'Slayer', 'Disturbed', 'Michael Jackson', 'Katty Parry']
with conn.cursor() as cur:
    for artists in artist_name:
        id_num = 0  # 每次循环都将id_num重置为0
        id_num += 1 # 然后再加1，所以id_num永远是1
        cur.execute(f"""INSERT INTO Artist (Id, Name) 
                   VALUES ('{id_num}', '{artists}') 
                   ON CONFLICT DO NOTHING""");

这里的核心问题在于 id_num = 0 这行代码被放置在 for 循环内部。这意味着在每次迭代开始时，id_num 都会被重新初始化为 0，紧接着被 id_num += 1 语句递增到 1。因此，所有尝试插入的记录都将使用 Id = 1。由于 ON CONFLICT DO NOTHING 子句的存在，只有第一次插入（即针对 Madonna 的插入）会成功，后续尝试插入 Id = 1 的操作都会被忽略。

解决方案：

要解决此问题，只需将 id_num 的初始化移到循环之外，确保它在整个循环过程中能够累积递增。

artist_name = ['Madonna', 'Slayer', 'Disturbed', 'Michael Jackson', 'Katty Parry']
with conn.cursor() as cur:
    id_num = 0  # 将id_num的初始化移到循环外部
    for artists in artist_name:
        id_num += 1 # 每次循环递增，确保ID唯一
        # ... 后续的execute语句 ...

通过这种方式，id_num 将按预期从 1 递增到 2，3，依此类推，为每条记录分配一个唯一的ID。

2. 避免SQL注入：参数化查询的最佳实践

除了逻辑错误，原始代码还存在一个更严重的安全隐患：使用f-string直接拼接SQL查询。这种做法极易导致SQL注入攻击。

SQL注入风险：

当用户输入（或任何非硬编码的变量）直接嵌入到SQL查询字符串中时，攻击者可以通过构造恶意的输入来改变查询的意图，从而访问、修改或删除未授权的数据。尽管在当前示例中 artist_name 是一个内部列表，但养成使用安全实践的习惯至关重要，以防未来代码修改或需求变化时引入外部数据源。

解决方案：参数化查询

参数化查询是防止SQL注入的标准方法。它将SQL语句的结构与数据分离。数据库驱动程序负责将数据安全地传递给数据库，确保数据不会被解释为SQL代码的一部分。

MedPeer科研绘图

生物医学领域的专业绘图解决方案，告别复杂绘图，专注科研创新

下载

在Python中，许多数据库驱动（如 psycopg2 for PostgreSQL）支持多种参数化风格。常见的包括：

命名参数： 使用字典将参数名映射到值（例如 :{key} 或 %(key)s）。
位置参数： 使用元组或列表按顺序传递参数（例如 %s）。

以下是使用命名参数进行参数化查询的示例，这与原始问题中尝试使用的f-string命名方式更为接近：

artist_name = ['Madonna', 'Slayer', 'Disturbed', 'Michael Jackson', 'Katty Parry']
with conn.cursor() as cur:
    id_num = 0
    for artist in artist_name:
        id_num += 1
        cur.execute(
            """
            INSERT INTO Artist (Id, Name) 
            VALUES (:id_num, :artist_name_val) 
            ON CONFLICT DO NOTHING
            """,
            {'id_num': id_num, 'artist_name_val': artist} # 使用字典传递命名参数
        )
    conn.commit() # 提交事务以保存更改

注意事项：

请注意，SQL查询字符串中的参数占位符（例如 :id_num, :artist_name_val）是数据库驱动程序识别的特定语法。
cur.execute() 的第二个参数是一个字典，键与SQL查询中的占位符名称对应。
在 with conn.cursor() as cur: 块结束后，通常需要调用 conn.commit() 来提交事务，使更改永久生效。否则，即使 execute 调用成功，数据也可能不会被保存。

3. 进一步优化：批量插入与事务管理

对于大量数据的插入，逐条执行 INSERT 语句效率较低。大多数数据库驱动都提供了批量插入的方法，例如 executemany。

使用 executemany 进行批量插入：

executemany 允许你一次性向数据库发送多组参数，数据库驱动会优化这些操作。

artist_name = ['Madonna', 'Slayer', 'Disturbed', 'Michael Jackson', 'Katty Parry']
data_to_insert = []
id_num = 0
for artist in artist_name:
    id_num += 1
    data_to_insert.append({'id_num': id_num, 'artist_name_val': artist})

with conn.cursor() as cur:
    # SQL语句保持不变，但execute方法改为executemany
    cur.executemany(
        """
        INSERT INTO Artist (Id, Name) 
        VALUES (:id_num, :artist_name_val) 
        ON CONFLICT DO NOTHING
        """,
        data_to_insert # 传递一个包含所有参数字典的列表
    )
    conn.commit()

executemany 通常能显著提升插入性能，因为它减少了与数据库的往返通信次数。

事务管理：

在进行任何数据库写入操作时，事务管理至关重要。使用 with conn.cursor() as cur: 语句通常会自动处理游标的创建和关闭，但事务的提交或回滚需要显式调用 conn.commit() 或 conn.rollback()。在批量操作中，将所有插入操作放在一个事务中，可以确保数据的一致性：要么所有数据都成功插入，要么所有操作都回滚。