使用pymongo连接mongodb时,认证可通过在连接uri中指定用户名、密码、认证数据库和机制(如scram-sha-1)来实现,推荐此方式以集中管理连接信息;2. 连接池由mongoclient默认管理,可通过maxpoolsize、minpoolsize、waitqueuetimeoutms等参数配置,以优化高并发下的性能和稳定性;3. 高级查询可使用$gt、$in、$regex等操作符结合sort()、limit()等链式方法实现复杂筛选;4. 聚合操作通过aggregate()方法构建包含$match、$group、$project等阶段的管道,支持强大的数据处理能力;5. 错误处理需捕获connectionfailure和operationfailure等异常以确保应用健壮性;6. 性能优化关键在于创建索引、使用批量操作、合理投影字段、重用mongoclient实例以及避免skip()分页性能问题,从而提升查询效率和系统吞吐量。

使用Python连接MongoDB,
pymongo
要开始使用
pymongo
pip install pymongo
接着,最基本的连接和操作流程通常是这样的:
立即学习“Python免费学习笔记(深入)”;
from pymongo import MongoClient
from pymongo.errors import ConnectionFailure
# 1. 建立连接
# 默认连接到 localhost:27017
# 如果MongoDB运行在其他地方,需要指定主机和端口
try:
client = MongoClient('localhost', 27017)
# 或者 client = MongoClient('mongodb://username:password@host:port/authSource?authMechanism=SCRAM-SHA-1')
print("成功连接到MongoDB!")
except ConnectionFailure as e:
print(f"连接MongoDB失败: {e}")
exit() # 连接失败直接退出,后续操作无法进行
# 2. 选择数据库
# 如果数据库不存在,MongoDB会在你第一次插入数据时自动创建
db = client.mydatabase # 访问名为 'mydatabase' 的数据库
# 3. 选择集合 (相当于关系型数据库的表)
# 同样,如果集合不存在,会在第一次插入数据时自动创建
collection = db.mycollection # 访问名为 'mycollection' 的集合
# --- 常用操作 ---
# 插入单条文档 (document)
def insert_one_example():
post = {"author": "Mike",
"text": "My first blog post!",
"tags": ["mongodb", "python", "pymongo"],
"date": "2023-10-26"}
result = collection.insert_one(post)
print(f"插入单条文档ID: {result.inserted_id}")
# 插入多条文档
def insert_many_example():
new_posts = [
{"author": "John",
"text": "Another post by John.",
"tags": ["mongodb", "python"],
"date": "2023-10-27"},
{"author": "Jane",
"text": "Jane's thoughts.",
"date": "2023-10-28"}
]
result = collection.insert_many(new_posts)
print(f"插入多条文档ID: {result.inserted_ids}")
# 查询单条文档
def find_one_example():
# 查询 author 为 "Mike" 的文档
mike_post = collection.find_one({"author": "Mike"})
print("查询到Mike的文档:", mike_post)
# 查询多条文档
def find_many_example():
# 查询所有文档
print("\n所有文档:")
for post in collection.find():
print(post)
# 查询 tags 包含 "python" 的文档
print("\n包含 'python' 标签的文档:")
for post in collection.find({"tags": "python"}):
print(post)
# 更新单条文档
def update_one_example():
# 将 author 为 "Mike" 的文档的 text 字段更新
result = collection.update_one(
{"author": "Mike"},
{"$set": {"text": "Updated text for Mike's post."}}
)
print(f"更新了 {result.modified_count} 条文档。")
# 更新多条文档
def update_many_example():
# 将所有 text 包含 "post" 的文档添加一个新字段 "status": "processed"
result = collection.update_many(
{"text": {"$regex": "post"}},
{"$set": {"status": "processed"}}
)
print(f"批量更新了 {result.modified_count} 条文档。")
# 删除单条文档
def delete_one_example():
# 删除 author 为 "Jane" 的文档
result = collection.delete_one({"author": "Jane"})
print(f"删除了 {result.deleted_count} 条文档。")
# 删除多条文档
def delete_many_example():
# 删除所有 status 为 "processed" 的文档
result = collection.delete_many({"status": "processed"})
print(f"批量删除了 {result.deleted_count} 条文档。")
# 清空集合 (删除所有文档)
def delete_all_example():
result = collection.delete_many({})
print(f"清空集合,删除了 {result.deleted_count} 条文档。")
# 运行示例
# insert_one_example()
# insert_many_example()
# find_one_example()
# find_many_example()
# update_one_example()
# update_many_example()
# delete_one_example()
# delete_many_example()
# delete_all_example()
# 4. 关闭连接 (通常在应用程序生命周期结束时才关闭)
# client.close()在生产环境中,处理好数据库的认证和连接池是至关重要的,这直接关系到应用程序的安全性和性能。
认证 (Authentication)
当MongoDB启用了认证功能后,你不能直接连接,需要提供用户名和密码。
pymongo
client = MongoClient('mongodb://username:password@host:port/authSource?authMechanism=SCRAM-SHA-1')
# authSource 是认证数据库的名称,通常是 'admin' 或存储用户信息的数据库
# authMechanism 是认证机制,常用的有 SCRAM-SHA-1 或 SCRAM-SHA-256client = MongoClient(host='localhost', port=27017, username='myuser', password='mypassword', authSource='admin')
client = MongoClient('localhost', 27017)
db = client.admin
db.authenticate('myuser', 'mypassword')选择哪种方式取决于你的应用架构和安全策略,但核心思想是确保你的凭据以安全的方式传递。
连接池 (Connection Pool)
pymongo
MongoClient
pymongo
你可以通过
MongoClient
maxPoolSize
minPoolSize
maxIdleTimeMS
waitQueueTimeoutMS
ConnectionFailure
# 配置连接池,例如最大连接数20,最小连接数5,等待超时时间1秒
client = MongoClient('localhost', 27017, maxPoolSize=20, minPoolSize=5, waitQueueTimeoutMS=1000)我个人觉得,连接池这东西,初学可能觉得麻烦,但真到了生产环境,它就是性能和稳定性的定海神针。正确配置连接池能有效避免“连接数过多”或“连接建立缓慢”这类问题,让你的应用在面对高并发时依然游刃有余。
MongoDB的强大之处不仅在于其灵活的文档模型,还在于其丰富的查询能力,特别是聚合框架。
pymongo
高级查询 (Advanced Queries)
除了简单的键值对查询,你还可以使用操作符进行更复杂的筛选:
$gt
$lt
$gte
$lte
$ne
$in
$nin
# 查询年龄大于25的用户
collection.find({"age": {"$gt": 25}})
# 查询标签包含 "python" 或 "mongodb" 的文档
collection.find({"tags": {"$in": ["python", "mongodb"]}})$and
$or
$not
$nor
# 查询年龄大于20且状态为 "active" 的用户
collection.find({"$and": [{"age": {"$gt": 20}}, {"status": "active"}]})
# 查询年龄小于18或状态为 "inactive" 的用户
collection.find({"$or": [{"age": {"$lt": 18}}, {"status": "inactive"}]})$exists
$type
# 查询存在 email 字段的文档
collection.find({"email": {"$exists": True}})
# 查询 name 字段类型为字符串的文档
collection.find({"name": {"$type": "string"}})$all
$size
# 查询 tags 数组同时包含 "mongodb" 和 "python" 的文档
collection.find({"tags": {"$all": ["mongodb", "python"]}})
# 查询 tags 数组大小为 2 的文档
collection.find({"tags": {"$size": 2}})$regex
# 查询 author 字段以 "J" 开头的文档
collection.find({"author": {"$regex": "^J"}})limit()
sort()
skip()
projection()
# 查询所有文档,按日期降序排列,只取前10条,且只返回 author 和 text 字段
for doc in collection.find({}, {"author": 1, "text": 1, "_id": 0}).sort("date", -1).limit(10):
print(doc)数据聚合 (Aggregation Framework)
聚合框架是MongoDB处理复杂数据分析和转换的利器。它通过一系列“管道”(pipeline)阶段来处理文档流,每个阶段对文档进行转换,然后将结果传递给下一个阶段。
pymongo
aggregate()
说实话,刚接触聚合管道的时候,我也有点懵,感觉像是在搭乐高积木,一步步把数据塑造成想要的样子。但一旦掌握了,那简直是数据分析的利器。
以下是一些常用的聚合阶段:
$match
WHERE
$group
$project
$sort
$limit
$unwind
# 假设集合中有如下文档:
# {"_id": 1, "item": "A", "price": 10, "quantity": 2, "date": "2023-01-01"}
# {"_id": 2, "item": "B", "price": 15, "quantity": 1, "date": "2023-01-01"}
# {"_id": 3, "item": "A", "price": 10, "quantity": 3, "date": "2023-01-02"}
# 示例:按商品 (item) 分组,计算每个商品的销售总量和总金额
pipeline = [
{"$match": {"date": {"$gte": "2023-01-01"}}}, # 筛选日期
{"$group": {
"_id": "$item", # 按 item 字段分组
"totalQuantity": {"$sum": "$quantity"}, # 计算 quantity 的总和
"totalAmount": {"$sum": {"$multiply": ["$price", "$quantity"]}} # 计算 price * quantity 的总和
}},
{"$sort": {"totalAmount": -1}}, # 按总金额降序
{"$project": { # 重新组织输出字段
"product": "$_id",
"salesQuantity": "$totalQuantity",
"salesAmount": "$totalAmount",
"_id": 0 # 不显示 _id 字段
}}
]
results = collection.aggregate(pipeline)
print("\n聚合查询结果:")
for doc in results:
print(doc)掌握聚合管道能够让你在Python中对MongoDB数据进行极其灵活和强大的分析,远超简单的CRUD操作。
在实际开发中,除了实现功能,妥善处理错误和优化性能同样重要。
错误处理 (Error Handling)
pymongo
pymongo.errors
ConnectionFailure
from pymongo.errors import ConnectionFailure
try:
client = MongoClient('localhost', 27017, serverSelectionTimeoutMS=5000) # 设置连接超时
client.admin.command('ping') # 尝试ping服务器确认连接
print("MongoDB连接成功!")
except ConnectionFailure as e:
print(f"MongoDB连接失败或服务器不可达: {e}")OperationFailure
from pymongo.errors import OperationFailure
try:
# 尝试一个可能失败的操作,例如在没有权限的数据库上创建索引
db.some_collection.create_index("non_existent_field", unique=True)
except OperationFailure as e:
print(f"MongoDB操作失败: {e}")
if "E11000 duplicate key error" in str(e):
print("可能是唯一索引冲突。")
elif "not authorized" in str(e):
print("权限不足,请检查用户角色。")其他Python内置异常: 比如
TypeError
ValueError
一个好的实践是使用
try-except
性能考量 (Performance Considerations)
索引 (Indexing): 这是MongoDB性能优化的基石,没有之一。为经常查询的字段(特别是用于
find()
sort()
aggregate
$match
$sort
# 为 'author' 字段创建升序索引
collection.create_index("author")
# 创建复合索引,先按 'date' 降序,再按 'author' 升序
collection.create_index([("date", -1), ("author", 1)])
# 确保索引创建一次即可,重复创建不会报错但无意义我发现很多初学者,包括我自己当年,都容易忽略索引的重要性。数据量小的时候没感觉,一旦上去了,没索引的查询简直是噩梦。所以,建立合适的索引,真的是性能优化的重中之重。
批量操作 (Batch Operations): 尽可能使用
insert_many()
update_many()
delete_many()
bulk_write()
# 批量插入
documents = [{"name": f"doc_{i}"} for i in range(1000)]
collection.insert_many(documents)
# 批量更新 (使用 bulk_write 更灵活)
from pymongo import UpdateOne
requests = [UpdateOne({"name": f"doc_{i}"}, {"$set": {"status": "processed"}}) for i in range(500)]
collection.bulk_write(requests)投影 (Projection): 只查询你需要的字段,而不是整个文档。这减少了网络传输的数据量和客户端内存消耗。
# 只获取 author 和 text 字段,不获取 _id
for doc in collection.find({}, {"author": 1, "text": 1, "_id": 0}):
print(doc)MongoClient
MongoClient
MongoClient
合理使用skip()
limit()
skip()
_id
通过综合考虑这些方面,你的Python-MongoDB应用将更加稳定、高效。
以上就是Python如何连接MongoDB?pymongo操作指南的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号