
python 的 asyncio 库是构建并发应用程序的强大工具,它通过协程(coroutines)和事件循环(event loop)实现单线程内的并发。在处理 i/o 密集型任务,如网络请求、文件读写时,asyncio 能够显著提高程序的效率,因为它允许程序在等待 i/o 完成时切换到其他任务,而不是阻塞。
asyncio.gather() 是一个常用的函数,用于并发地运行多个协程,并等待它们全部完成。它的设计目标是最大化并行度,即同时启动所有给定的协程,并在所有协程都完成后返回它们的结果。然而,这也就意味着 asyncio.gather() 并不保证这些协程的完成顺序与它们在列表中出现的顺序一致,而是取决于每个协程内部的 I/O 等待时间。
考虑以下一个模拟从多个网站抓取数据的场景:
import asyncio
async def fetch_data(url):
"""模拟从指定URL抓取数据的异步操作"""
# 模拟网络延迟或数据处理时间
await asyncio.sleep(2)
print(f"数据已从 {url} 获取")
return f"Data from {url}"
async def main_concurrent():
"""使用 asyncio.gather() 并发执行任务"""
websites = ["site1.com", "site2.com", "site3.com"]
print("--- 启动并发数据抓取 ---")
tasks = [fetch_data(url) for url in websites]
# gather 会同时启动所有任务
await asyncio.gather(*tasks)
print("--- 并发数据抓取完成 ---")
if __name__ == "__main__":
asyncio.run(main_concurrent())运行上述代码,你会发现输出的顺序可能不是 site1.com、site2.com、site3.com 严格按序排列。例如,site2.com 的数据可能在 site1.com 之前打印,或者它们的完成时间交错。这是 asyncio.gather() 预期中的行为,它旨在并发执行,而非保证顺序。
在异步编程中,理解“并发”与“顺序执行”的区别至关重要。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
如果你的项目需求是数据抓取过程对每个网站必须是顺序的,例如,从 site2.com 抓取的数据处理需要依赖 site1.com 抓取到的某些信息,那么 asyncio.gather() 的并发特性将无法满足这种严格的顺序要求。
当异步任务之间存在强烈的顺序依赖,或者业务逻辑要求它们必须按特定顺序执行时,我们不能依赖 asyncio.gather() 的并发调度。此时,最直接且有效的方法是利用 await 关键字,在循环中逐个等待每个异步任务完成。
以下是实现严格顺序执行的示例代码:
import asyncio
async def fetch_data(url):
"""模拟从指定URL抓取数据的异步操作"""
# 模拟网络延迟或数据处理时间
await asyncio.sleep(2)
print(f"数据已从 {url} 获取")
return f"Data from {url}"
async def main_sequential():
"""通过循环 await 实现任务的顺序执行"""
websites = ["site1.com", "site2.com", "site3.com"]
print("--- 启动顺序数据抓取 ---")
for url in websites:
# 每次循环都会等待当前的 fetch_data 协程完全执行完毕
# 然后才会进入下一次循环,启动下一个协程
await fetch_data(url)
print("--- 顺序数据抓取完成 ---")
if __name__ == "__main__":
asyncio.run(main_sequential())代码解释:
在这个修改后的 main_sequential 函数中,我们不再使用 asyncio.gather()。取而代之的是,我们遍历 websites 列表,并在循环内部对每一个 fetch_data(url) 协程直接使用 await 关键字。
await 关键字的作用是暂停当前协程(main_sequential),直到它所等待的另一个协程(fetch_data(url))完成执行并返回结果。一旦 fetch_data(url) 完成,main_sequential 协程会从 await 的位置恢复执行,然后进入循环的下一个迭代,启动并等待下一个 fetch_data 协程。
通过这种方式,我们强制保证了 fetch_data("site1.com") 必须完全执行完毕,包括其内部的 asyncio.sleep(2) 和 print 语句,之后 fetch_data("site2.com") 才会开始执行,以此类推。因此,输出将严格按照 site1.com、site2.com、site3.com 的顺序打印。
在 asyncio 编程中,选择并发还是顺序执行取决于你的具体需求和任务特性:
何时使用 asyncio.gather() (并发):
何时使用循环 await (顺序):
理解 asyncio 的核心在于区分并发和顺序执行。asyncio.gather() 是实现并发的利器,适用于相互独立的任务,以提高整体效率。然而,当异步任务之间存在严格的顺序依赖时,必须通过在循环中逐个 await 任务来强制实现串行执行。正确选择任务执行策略,是高效且健壮地使用 asyncio 进行异步编程的关键。
以上就是Python asyncio 异步编程:理解与实现任务的顺序执行的详细内容,更多请关注php中文网其它相关文章!
编程怎么学习?编程怎么入门?编程在哪学?编程怎么学才快?不用担心,这里为大家提供了编程速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号