
本文旨在解决从Python DataFrame向Amazon Redshift数据库插入大量数据时效率低下的问题。我们将探讨并对比两种主要的高速插入策略:优化的SQL批量插入(通过psycopg2.extras.execute_values)和Redshift官方推荐的COPY命令(结合S3作为中间存储),提供详细的实现代码和最佳实践,帮助用户显著提升数据加载性能,避免长时间等待和超时错误。
在处理大规模数据时,将Python DataFrame中的数据高效地导入到Amazon Redshift等列式存储数据库是一个常见的挑战。传统的逐行插入或使用executemany的批量插入方法,对于Redshift这类针对批量加载优化的数据库而言,效率往往低下,容易导致长时间运行甚至超时错误。Redshift的设计哲学是利用并行处理能力,一次性处理大量数据,而非频繁的小事务。
用户尝试的两种方法,无论是将DataFrame转换为字典列表后使用executemany,还是转换为元组列表后循环execute,都未能达到理想的速度。这主要是因为这些方法在底层可能仍然导致数据库执行了大量独立的INSERT语句,或者未能充分利用Redshift的并行加载优势。对于数十万甚至数百万行的数据,我们需要更专业的策略。
Redshift官方文档明确指出:“如果COPY命令不是一个选项,并且您需要SQL插入,请尽可能使用多行插入。当您一次只添加一行或几行数据时,数据压缩效率低下。” 这强调了两种核心优化方向:多行SQL插入和更高效的COPY命令。
虽然Redshift推荐使用COPY命令进行大规模数据加载,但在某些场景下,如果数据量不是极端巨大(例如数十万到数百万行),或者不希望引入S3作为中间存储的复杂性,优化的SQL批量插入仍然是一个可行的选择。这里的“优化”指的是使用数据库驱动程序提供的、能够将多行数据打包成单个SQL语句的机制,而不是发送多个独立的INSERT语句。
psycopg2库提供了psycopg2.extras.execute_values函数,它能够高效地构建一个包含多组VALUES的多行INSERT语句,并一次性发送给数据库。这比循环执行单行插入或简单的executemany(在某些情况下可能仍然分解为多个语句)效率更高。
import pandas as pd
import psycopg2
from psycopg2.extras import execute_values
from datetime import date
# 假设这是你的DataFrame数据
data = [
(69370, 'subject', 'working', 1, date(2023, 12, 15)),
(69370, 'subject', 'scenes', 1, date(2023, 12, 15)),
(69370, 'subject', 'intended', 1, date(2023, 12, 15)),
(69371, 'subject', 'redirected', 1, date(2023, 12, 15)),
(69371, 'subject', 'ge', 2, date(2023, 12, 15)),
(69371, 'subject', 'sensor', 1, date(2023, 12, 15)),
(69371, 'subject', 'flush', 1, date(2023, 12, 15)),
(69371, 'subject', 'motion', 1, date(2023, 12, 15)),
(69371, 'subject', 'led', 1, date(2023, 12, 15)),
(69371, 'subject', 'fixture', 1, date(2023, 12, 15)),
(69371, 'subject', 'contact', 1, date(2023, 12, 15)),
# ... 更多数据,假设有60万条记录
]
# 为了演示,我们生成更多数据
for i in range(100000): # 模拟大量数据
data.append((70000 + i, 'subject_new', f'text_{i}', i % 5 + 1, date(2023, 12, 15)))
df = pd.DataFrame(data, columns=['case_id', 'column_name', 'split_text', 'split_text_cnt', 'load_ts'])
# Redshift连接参数
REDSHIFT_HOST = 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com'
REDSHIFT_DB = '*****'
REDSHIFT_USER = '****'
REDSHIFT_PASSWORD = '*****'
REDSHIFT_PORT = '5439'
conn = None
cur = None
try:
conn = psycopg2.connect(
host=REDSHIFT_HOST,
database=REDSHIFT_DB,
user=REDSHIFT_USER,
password=REDSHIFT_PASSWORD,
port=REDSHIFT_PORT
)
conn.autocommit = False # 确保在事务中操作
print("成功连接到 RedShift")
cur = conn.cursor()
table_name = "odey.sfc_ca_sit_di"
columns = "(case_id, column_name, split_text, split_text_cnt, load_ts)"
# 将DataFrame转换为元组列表
# 注意:日期对象需要被psycopg2正确处理,通常直接传递date对象即可
rows_to_insert = [tuple(row) for row in df.itertuples(index=False)]
# 定义批量大小,可以根据网络、数据库性能调整
batch_size = 10000
total_inserted_rows = 0
print(f"开始批量插入 {len(rows_to_insert)} 条记录...")
for i in range(0, len(rows_to_insert), batch_size):
batch = rows_to_insert[i:i + batch_size]
sql = f"INSERT INTO {table_name} {columns} VALUES %s"
execute_values(cur, sql, batch)
total_inserted_rows += len(batch)
print(f"已插入 {total_inserted_rows} / {len(rows_to_insert)} 条记录")
conn.commit()
print(f"所有 {total_inserted_rows} 条记录成功插入 (批量插入方式)")
except psycopg2.Error as e:
if conn:
conn.rollback()
print(f"批量插入失败: {e}")
except Exception as e:
print(f"发生未知错误: {e}")
finally:
if cur:
cur.close()
if conn:
conn.close()
print("数据库连接已关闭。")
对于真正大规模的数据加载(数百万行甚至TB级别),Redshift官方强烈推荐使用COPY命令。COPY命令是Redshift专门为高速数据加载设计的,它能够直接从Amazon S3、Amazon DynamoDB或Amazon EMR等数据源并行加载数据,效率远超任何基于SQL的INSERT方法。
其核心思想是:将DataFrame数据导出为文件(如CSV、Parquet),上传到Amazon S3,然后指示Redshift从S3读取这些文件并加载到表中。
import pandas as pd
import boto3
import io
import psycopg2
from datetime import date
import os
# 假设这是你的DataFrame数据
data = [
(69370, 'subject', 'working', 1, date(2023, 12, 15)),
(69370, 'subject', 'scenes', 1, date(2023, 12, 15)),
(69370, 'subject', 'intended', 1, date(2023, 12, 15)),
(69371, 'subject', 'redirected', 1, date(2023, 12, 15)),
(69371, 'subject', 'ge', 2, date(2023, 12, 15)),
(69371, 'subject', 'sensor', 1, date(2023, 12, 15)),
(69371, 'subject', 'flush', 1, date(2023, 12, 15)),
(69371, 'subject', 'motion', 1, date(2023, 12, 15)),
(69371, 'subject', 'led', 1, date(2023, 12, 15)),
(69371, 'subject', 'fixture', 1, date(2023, 12, 15)),
(69371, 'subject', 'contact', 1, date(2023, 12, 15)),
# ... 更多数据
]
# 为了演示,我们生成更多数据 (约60万条)
for i in range(600000):
data.append((70000 + i, 'subject_new', f'text_{i}', i % 5 + 1, date(2023, 12, 15)))
df = pd.DataFrame(data, columns=['case_id', 'column_name', 'split_text', 'split_text_cnt', 'load_ts'])
# 将日期列转换为字符串,以匹配CSV格式
df['load_ts'] = df['load_ts'].astype(str)
# S3配置
S3_BUCKET_NAME = 'your-s3-bucket-for-redshift-data' # 替换为你的S3桶名
S3_KEY_PREFIX = 'redshift_temp_data/' # S3上的路径前缀
IAM_ROLE_ARN = 'arn:aws:iam::YOUR_ACCOUNT_ID:role/YourRedshiftIAMRole' # 替换为具有S3读权限的IAM角色ARN
AWS_REGION = 'us-east-1' # S3桶和Redshift集群所在的AWS区域
# Redshift连接参数
REDSHIFT_HOST = 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com'
REDSHIFT_DB = '*****'
REDSHIFT_USER = '****'
REDSHIFT_PASSWORD = '*****'
REDSHIFT_PORT = '5439'
conn = None
cur = None
s3_client = boto3.client('s3', region_name=AWS_REGION)
try:
# 1. DataFrame导出为CSV并上传到S3
print("开始将DataFrame导出为CSV并上传到S3...")
file_name = f"data_{pd.Timestamp.now().strftime('%Y%m%d%H%M%S')}.csv"
s3_full_key = S3_KEY_PREFIX + file_name
csv_buffer = io.StringIO()
# 注意:header=False, index=False 是COPY命令的常见要求
df.to_csv(csv_buffer, index=False, header=False, sep=',', encoding='utf-8')
s3_client.put_object以上就是Redshift大数据量DataFrame高速插入策略的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号