使用 SQLite 和 Python 处理大量 CSV 文件：最佳实践指南

碧海醫心

发布时间：2025-06-30 16:46:01

283人浏览过

来源于php中文网

原创

使用 sqlite 和 python 处理大量 csv 文件：最佳实践指南

问题背景

在数据处理工作中，经常需要应对大量 CSV 文件的整合任务。这些文件通常具有相同的结构，需合并到一个统一的数据源中进行查询和分析。SQLite 是一款轻量级嵌入式数据库，特别适合此类场景，尤其是在数据规模适中、无需复杂数据库服务器的情况下。

解决方案：将多个 CSV 文件导入 SQLite 并构建主表

下面是一个完整的操作流程，展示如何借助 Python 和 SQLite 来处理大批量的 CSV 文件，并建立一个汇总所有数据的主表。

1. 环境准备

首先确认是否已安装必要的 Python 模块：pandas 和 sqlite3。如未安装，可通过 pip 命令安装：

pip install pandas sqlite3

2. 编写执行代码

import pandas as pd
import sqlite3
import os
import re
设置 CSV 文件所在路径
csv_directory = r"path/to/your/csv/files" # 将 "path/to/your/csv/files" 替换为实际路径
立即学习“Python免费学习笔记（深入）”；
连接或创建 SQLite 数据库
conn = sqlite3.connect("db.db")
cursor = conn.cursor()
获取目录下所有 CSV 文件
csv_files = [file for file in os.listdir(csv_directory) if file.endswith(".csv")]
定义主表名称
master_bus = "master_table"
清理主表名中的非法字符
master_bus = re.sub(r'\W ', '', master_bus) # 移除非字母数字字符
遍历每个 CSV 文件并导入数据库
for csv_file in csv_files:
table_name = os.path.splitext(csv_file)[0]
csv_path = os.path.join(csv_directory, csv_file)
# 使用 pandas 读取 CSV 文件
df = pd.read_csv(csv_path)

# 添加记录来源文件名的新列
df['filename'] = os.path.basename(csv_file)

# 将 DataFrame 写入数据库，表名为文件名
df.to_sql(table_name, conn, index=False, if_exists='replace')  # 若表存在则替换
获取当前数据库中所有表名

cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tables = cursor.fetchall()
tables = [table[0] for table in tables]
创建主表
先检查是否存在同名主表，如有则删除
cursor.execute(f"DROP TABLE IF EXISTS {master_bus}")
根据第一个子表结构创建空主表
if tables: # 确保有子表存在
cursor.execute(f"CREATE TABLE {master_bus} AS SELECT * FROM {tables[0]} WHERE 0;")
# 将所有子表数据插入主表
for table in tables:
    cursor.execute(f"INSERT INTO {master_bus} SELECT * FROM {table};")
else:
print("没有发现可用子表，无法创建主表。")
提交事务并关闭连接
conn.commit()
conn.close()
print("数据处理完成！")

							
								
								
									HIX Translate
									由 ChatGPT 提供支持的智能AI翻译器
								
								下载 
							
						
3. 代码说明


模块引入: 导入 pandas 用于加载 CSV 数据，sqlite3 用于数据库交互，os 用于文件操作，re 用于清理表名。

路径配置与数据库连接: 设定 CSV 文件存储路径，并建立与 SQLite 的连接。

获取文件列表: 利用 os.listdir 函数列出目标目录下的所有 CSV 文件。

定义主表名: 设置一个统一的主表名，便于后续合并数据。

逐个处理 CSV 文件:
用 pandas 读取文件内容生成 DataFrame。
新增一列记录文件名，方便后期识别数据来源。
将数据写入 SQLite 表，表名基于原始 CSV 文件名。if_exists='replace' 参数确保不会因重复建表报错。



构建主表:
检查主表是否已存在，若存在则先清除。
从第一个子表复制结构创建一个空的主表。
循环遍历所有子表，把数据合并进主表。



提交变更并断开连接: 执行 commit 提交所有更改，然后关闭数据库连接。

4. 处理 OperationalError: near "-": syntax error 错误
该错误多由表名含特殊字符（如 -）导致。解决办法是通过正则表达式移除非法字符：
master_bus = re.sub(r'\W ', '', master_bus)
此行代码利用正则表达式匹配所有非字母数字字符并替换为空，以保证表名合法。
5. 注意事项及优化建议

异常处理: 实际应用时应加入 try...except 结构来捕获可能发生的异常，比如文件找不到、读取失败等。

性能调优: 面对超大体积的 CSV 文件，可采用分批读取方式，并配合 chunksize 参数：
  for chunk in pd.read_csv(csv_path, chunksize=10000):
chunk.to_sql(table_name, conn, index=False, if_exists='append')
此方式每次处理 10000 行数据，避免内存溢出。


索引设置: 如需频繁查询主表，建议添加索引提升效率。例如：
  cursor.execute(f"CREATE INDEX idx_filename ON {master_bus}(filename);")
字段类型控制: 默认情况下，pandas 会自动推断字段类型。如需精确控制，可在 to_sql 方法中通过 dtype 参数指定各列类型。

事务管理: 对大规模数据写入操作，启用事务可显著提升性能。示例：
  conn.execute("BEGIN TRANSACTION")
try:
执行批量写入操作
  conn.commit()
except:
conn.rollback()
raise



6. 总结
本文详细讲解了如何结合 Python 与 SQLite 来处理大量 CSV 文件，并最终生成一个整合所有数据的主表。通过清理无效字符、增加异常处理机制、优化性能参数等方式，能够更加高效地完成数据整合工作。在具体项目中，应根据实际情况灵活调整和优化实现方案。


					
													
								相关文章
							
							
																	
										PythonJSON数据解析教程_序列化反序列化实践解析
									
																	
										Python命令行工具开发指南_Click与argparse实战讲解
									
																	
										PythonHTTP网络请求进阶教程_超时重试与Session管理
									
																	
										Python性能监控项目教程_PrometheusGrafana结合实践
									
																	
										Python并发异常处理_隔离与恢复解析【教程】
									
															
													
								相关标签:
								
									python ai Python 正则表达式 pandas pip print if for select try Error 循环 table sqlite 数据库								
							
						
						本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn
						
													上一篇：使用 Python 和 SQLite 处理大量 CSV 文件：构建主表
													下一篇：Python中如何实现观察者模式？观察者模式如何解耦？
												
					

					
													
								
									 
										作者最新文章
									
								
																	
										
											
												Laravel Sail 数据库驱动错误解决方案（Mac M1/M2 环境）
											
											
												2025-12-27 21:21
											
										
								
																	
										
											
												JAX梯度计算中链式布尔表达式的正确写法
											
											
												2025-12-27 22:13
											
										
								
																	
										
											
												如何在 Vaadin 23 中监听页面后退操作并弹出确认对话框
											
											
												2025-12-27 22:21
											
										
								
																	
										
											
												如何在 Pipfile 中正确引用本地 Git 仓库的指定分支
											
											
												2025-12-27 22:46
											
										
								
																	
										
											
												如何在 Go 中正确使用 exec.Command 调用 awk 命令
											
											
												2025-12-27 22:52
											
										
								
																	
										
											
												如何在 Go 中实现 SoundCloud 音频流播放
											
											
												2025-12-27 23:01
											
										
								
																	
										
											
												如何在 Vaadin 23 中拦截浏览器后退按钮并显示确认对话框
											
											
												2025-12-27 23:04
											
										
								
																	
										
											
												如何在 Pipfile 中正确引用本地 Git 仓库的特定分支
											
											
												2025-12-27 23:05
											
										
								
																	
										
											
												如何仅用纯 CSS 实现 HTML 多语言切换（无需 JavaScript）
											
											
												2025-12-27 23:31
											
										
								
																	
										
											
												如何通过点击将列表项移至顶部
											
											
												2025-12-27 23:52
											
										
								
															
						
						
							
								 
									热门AI工具
								
								更多
							

							
																	
										
											
											
												DeepSeek
												幻方量化公司旗下的开源大模型平台
																									
																												AI大模型
																													开放平台
																											
																							
										
									
																	
										
											
											
												豆包大模型
												字节跳动自主研发的一系列大型语言模型
																									
																												AI大模型
																											
																							
										
									
																	
										
											
											
												通义千问
												阿里巴巴推出的全能AI助手
																									
																												AI大模型
																											
																							
										
									
																	
										
											
											
												腾讯元宝
												腾讯混元平台推出的AI助手
																									
																												文档处理
																													Excel 表格
																											
																							
										
									
																	
										
											
											
												文心一言
												文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。
																									
																												AI大模型
																													中文写作
																											
																							
										
									
																	
										
											
											
												讯飞写作
												基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿
																									
																												中文写作
																													写作工具
																											
																							
										
									
																	
										
											
											
												即梦AI
												一站式AI创作平台，免费AI图片和视频生成。
																									
																												图片拼接
																													图画生成
																											
																							
										
									
																	
										
											
											
												ChatGPT
												最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
																									
																												AI大模型
																													中文写作
																											
																							
										
									
																	
										
											
											
												智谱清言 - 免费全能的AI助手
												智谱清言 - 免费全能的AI助手
																									
																												AI大模型
																													PDF 文档


			
				
                    
                
				
					
						 
							相关专题
						
						更多
					
					
													
								
								
									python开发工具
									php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。
									
										 
											713
										
										 
											2023.06.15
										
									
								
							
													
								
								
									python打包成可执行文件
									本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。
									
										 
											625
										
										 
											2023.07.20
										
									
								
							
													
								
								
									python能做什么
									python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。
									
										 
											738
										
										 
											2023.07.25
										
									
								
							
													
								
								
									format在python中的用法
									Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。
									
										 
											617
										
										 
											2023.07.31
										
									
								
							
													
								
								
									python教程
									Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。
									
										 
											1235
										
										 
											2023.08.03
										
									
								
							
													
								
								
									python环境变量的配置
									Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。
									
										 
											547
										
										 
											2023.08.04
										
									
								
							
													
								
								
									python eval
									eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。
									
										 
											574
										
										 
											2023.08.04
										
									
								
							
													
								
								
									scratch和python区别
									scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。
									
										 
											696
										
										 
											2023.08.11
										
									
								
							
													
								
								
									俄罗斯搜索引擎Yandex最新官方入口网址
									Yandex官方入口网址是https://yandex.com；用户可通过网页端直连或移动端浏览器直接访问，无需登录即可使用搜索、图片、新闻、地图等全部基础功能，并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。
									
										 
											1
										
										 
											2025.12.29
										
									
								
							
											
				

				
					
						 
							热门下载
						
						更多
					
					
						
							网站特效   /
							网站源码  /
							网站素材  /
							前端模板 
						
						
															
									
										
										[图片特效]css3伸缩条形图
									
								
															
									
										
										[菜单导航]响应式网站导航栏ui布局代码
									
								
															
									
										
										[窗口特效]创意的图标键盘ui布局
									
								
															
									
										
										[文字特效]Css文字渐变动画特效代码
									
								
															
									
										
										[选项卡TAB]带数字的图文tab切换代码
									
								
															
									
										
										[图片特效]jquery带定位按钮幻灯片
									
								
															
									
										
										[菜单导航]实用的侧边下拉收缩菜单ui特效
									
								
															
									
										
										[表单按钮]三款jQuery表单验证申请代码
									
								
															
									
										
										[窗口特效]jQuery右侧悬浮固定qq在线客服特效代码下载
									
								
															
									
										
										[文字特效]CSS3实现3D折叠字体效果代码
									
								
													
						
															
									
										
										[企业站源码]雅龙智能装备工业设备类WordPress主题1.0 
									
								
															
									
										
										[电商源码]威发卡自动发卡系统 
									
								
															
									
										
										[电商源码]卡密分发系统 
									
								
															
									
										
										[电商源码]中华陶瓷网 
									
								
															
									
										
										[电商源码]简洁粉色食品公司网站 
									
								
															
									
										
										[电商源码]极速网店系统 
									
								
															
									
										
										[电商源码]淘宝妈妈_淘客推广系统 
									
								
															
									
										
										[电商源码]积客B2SCMS商城系统 
									
								
															
									
										
										[电商源码]CODEC2I 众筹系统 
									
								
															
									
										
										[电商源码]ieshop超级网店系统 
									
								
													
						
															
									
										
										[网站素材]复古红色咖啡促销海报矢量模板 
									
								
															
									
										
										[网站素材]2026新年快乐竖版海报PSD模板设计下载 
									
								
															
									
										
										[网站素材]孟菲斯几何2026新年贺卡矢量 
									
								
															
									
										
										[网站素材]珠宝饰品折扣感谢卡ps素材下载 
									
								
															
									
										
										[网站素材]2026新年创意剪影海报矢量素材 
									
								
															
									
										
										[网站素材]极简线条女子美容护肤矢量素材 
									
								
															
									
										
										[网站素材]2026年日历表设计源文件下载 
									
								
															
									
										
										[网站素材]欧式复古西餐厅菜单设计矢量 
									
								
															
									
										
										[网站素材]绘画艺术活动折扣票券设计下载 
									
								
															
									
										
										[网站素材]国潮复古肌理灯笼矢量素材 
									
								
													
						
															
									
										
										[前端模板]驾照考试驾校HTML5网站模板 
									
								
															
									
										
										[前端模板]驾照培训服务机构宣传网站模板 
									
								
															
									
										
										[前端模板]HTML5房地产公司宣传网站模板 
									
								
															
									
										
										[前端模板]新鲜有机肉类宣传网站模板 
									
								
															
									
										
										[前端模板]响应式天气预报宣传网站模板 
									
								
															
									
										
										[前端模板]房屋建筑维修公司网站CSS模板 
									
								
															
									
										
										[前端模板]响应式志愿者服务网站模板 
									
								
															
									
										
										[前端模板]创意T恤打印店网站HTML5模板 
									
								
															
									
										
										[前端模板]网页开发岗位简历作品展示网页模板 
									
								
															
									
										
										[前端模板]响应式人力资源机构宣传网站模板 
									
								
													
					
					

				

				
					
                



				
					
						 
							相关下载
						
						更多
					
					
											php商城系统
											淘源码商城PHP淘宝查信誉
											PHP房产程序[BBWPS]
											PHP简约自动发卡平台个人版
											ERMEB域名PHP离线网络授权系统
											Difeye-敏捷的轻量级PHP框架
											大泉州汽车网PHP整站程序
										

				

				
					
						 
							精品课程
						
						更多
					
					
						
							相关推荐   /
							热门推荐  /
							最新课程 
						
						
													
								
									
								
								
									最新Python教程 从入门到精通

									
										共4课时 | 0.6万人学习
									
								
							
													
								
									
								
								
									Django 教程

									
										共28课时 | 2.5万人学习
									
								
							
													
								
									
								
								
									SciPy 教程

									
										共10课时 | 0.9万人学习
									
								
							
												

						
															
									
										
									
									
										phpStudy极速入门视频教程

										
											共6课时 | 53.3万人学习
										
									
								
															
									
										
									
									
										独孤九贱(4)_PHP视频教程

										
											共89课时 | 125.9万人学习
										
									
								
															
									
										
									
									
										PHP实战天龙八部之仿爱奇艺电影网站

										
											共49课时 | 77.5万人学习
										
									
								
													

						
															
										
											
										
										
											RunnerGo从入门到精通

											
												共22课时 | 1.7万人学习
											
										
									
																
										
											
										
										
											Apipost从入门到精通

											
												共31课时 | 2.3万人学习
											
										
									
																
										
											
										
										
											WordPress零基础新手搭建个人博客及企业网站

											
												共28课时 | 3万人学习
											
										
									
														
						

					
				

				
					
						 
							最新文章
						
						更多
					
					
													Python异步编程协程_事件循环解析【教程】
													PythonPlotly交互项目教程_仪表盘与动态图表实现
													如何解决 torchtext 导入报错 KeyError: ‘SP_DIR’
													Python网络程序调试_请求分析解析【教程】
													Python工程配置管理_env环境变量解析【教程】
													Python临时文件处理_tempfile解析【教程】
													Python函数文档规范化_自动化说明【指导】
													解决 torchtext 导入失败：KeyError ‘SP_DIR’ 问题
													Python工程能力提升_系统化成长说明【指导】
													Python协程系统学习路线第18讲_核心原理与实战案例详解【指导】