
循环读取excel 并写入mysql 的性能优化
背景:
在处理大量数据时,循环读取excel文件并将其写入mysql 数据库是一个常见的操作。但是,随着文件数量的增加,插入速度可能会显着降低。
问题:
使用 for 循环打开多个 excel 文件并写入数据库时,初始执行速度较快,但随后速度会越来越慢。
分析:
根据问题描述,可以推测缓慢的根源可能是以下原因之一:
- 数据库连接延迟:每次循环打开一个数据库连接可能会导致时间开销。
- 打印输出:打印数据到控制台或日志文件会减慢程序执行速度。
- 文件处理开销:反复加载和关闭 excel 文件也可能导致性能问题。
解决方案:
1. 优化数据库连接:
- 使用上下文管理器( with 语句) 来管理连接,从而避免每次循环都建立和关闭连接。
- 考虑使用连接池来管理数据库连接,以减少建立和关闭连接的开销。
2. 禁用打印输出:
- 注释掉所有调试或日志打印语句,以便仅执行必要的操作。
3. 优化文件处理:
- 避免多次加载和关闭 excel 文件。使用单个 load_workbook() 实例来加载所有文件,并使用 ws.iter_rows() 方法迭代行,而不是读取每个单独的单元格。
示例代码:
from openpyxl import load_workbook
import pymysql
# 建立数据库连接
db = pymysql.connect(host="localhost", port=3306, user="test",
password="123456", database="test", charset="utf8")
cur = db.cursor()
wb = load_workbook(r'E:\整理数据\4月\1 (17).xlsx')
ws = wb.active
# 定义需要插入的字段
fields = ["d", "fb", "kh", "wdzl", "zxzl", "jpzl", "jszl", "jpinfo", "ywtime"]
# 遍历文件中的所有行
for row in ws.iter_rows(min_row=2):
values = [cell.value for cell in row]
# 构建插入语句
sql = "INSERT INTO testdata ({}) VALUES ({})".format(
",".join(fields), ",".join(["%s"] * len(fields))
)
# 执行插入操作
cur.execute(sql, values)
db.commit()
# 关闭数据库连接
cur.close()
db.close()其他建议:
- 确保数据库索引已建立,以提高查询性能。
- 根据需要调整 mysql 配置,例如增加 innodb_buffer_pool_size。
- 考虑使用多线程或多进程来并行处理文件。











