
python的asyncio库是用于编写并发代码的强大工具,它允许程序在等待i/o操作(如网络请求、文件读写)完成时,切换到执行其他任务,从而提高程序的整体效率。这种并发是通过事件循环(event loop)和协程(coroutines)实现的,而非传统的操作系统线程或进程。
当使用asyncio.gather()时,其核心目的是并发地运行多个协程,并等待它们全部完成。这意味着这些任务会被调度到事件循环中,并尽可能地同时执行。例如,在一个网络爬虫项目中,如果你需要同时从多个网站抓取数据,asyncio.gather()是一个理想的选择,因为它能显著缩短总的抓取时间。然而,并发执行并不保证任务的完成顺序与它们在gather列表中出现的顺序一致。任何一个任务都可能因为其自身的I/O等待时间、系统调度或其他因素而提前或延后完成。
很多初学者可能会误解asyncio.gather(),认为它会按照传入任务的顺序来执行和完成。然而,如下面的示例所示,当多个异步任务被asyncio.gather()包裹并运行时,它们的输出顺序往往是不可预测的。
考虑以下模拟网络数据抓取的场景:
import asyncio
async def fetch_data(url):
"""
模拟从指定URL抓取数据,并引入2秒延迟。
"""
await asyncio.sleep(2)
print(f"数据已从 {url} 获取")
async def main_concurrent():
"""
使用 asyncio.gather() 并发抓取数据。
"""
websites = ["site1.com", "site2.com", "site3.com"]
# 将所有抓取任务放入一个列表中,然后并发执行
tasks = [fetch_data(url) for url in websites]
await asyncio.gather(*tasks)
print("所有并发任务完成。")
if __name__ == "__main__":
print("--- 启动并发抓取 ---")
asyncio.run(main_concurrent())
print("--- 并发抓取结束 ---")运行上述代码,你可能会看到类似以下但不完全一致的输出:
立即学习“Python免费学习笔记(深入)”;
--- 启动并发抓取 --- 数据已从 site2.com 获取 数据已从 site1.com 获取 数据已从 site3.com 获取 所有并发任务完成。 --- 并发抓取结束 ---
或者:
--- 启动并发抓取 --- 数据已从 site1.com 获取 数据已从 site3.com 获取 数据已从 site2.com 获取 所有并发任务完成。 --- 并发抓取结束 ---
这充分说明了asyncio.gather()仅保证所有任务都会被执行并等待其完成,但对它们的完成顺序不作任何保证。如果你的项目要求一个网站的数据必须在获取下一个网站数据之前完成(例如,因为后续请求依赖于前一个请求的结果),那么这种不确定的顺序将导致逻辑错误。
当任务之间存在严格的依赖关系,或者你需要确保它们按照特定的顺序逐个完成时,解决方案非常直接:不要使用asyncio.gather()来并发执行它们,而是通过在一个循环中逐个await每个任务。这样,一个任务必须完全执行完毕并返回控制权,下一个任务才能开始。
以下是实现严格顺序执行的修正示例:
import asyncio
async def fetch_data(url):
"""
模拟从指定URL抓取数据,并引入2秒延迟。
"""
await asyncio.sleep(2)
print(f"数据已从 {url} 获取")
return f"Processed data from {url}" # 假设有返回结果
async def main_sequential():
"""
通过循环逐个 await 任务,实现串行抓取数据。
"""
websites = ["site1.com", "site2.com", "site3.com"]
results = []
for url in websites:
# 逐个 await 任务,确保前一个任务完成后才开始下一个
data = await fetch_data(url)
results.append(data)
print(f"已处理 {url} 的数据,结果:{data}")
print("所有串行任务完成。")
print(f"最终结果列表: {results}")
if __name__ == "__main__":
print("--- 启动串行抓取 ---")
asyncio.run(main_sequential())
print("--- 串行抓取结束 ---")运行上述代码,输出将严格按照websites列表中的顺序显示:
--- 启动串行抓取 --- 数据已从 site1.com 获取 已处理 site1.com 的数据,结果:Processed data from site1.com 数据已从 site2.com 获取 已处理 site2.com 的数据,结果:Processed data from site2.com 数据已从 site3.com 获取 已处理 site3.com 的数据,结果:Processed data from site3.com 所有串行任务完成。 最终结果列表: ['Processed data from site1.com', 'Processed data from site2.com', 'Processed data from site3.com'] --- 串行抓取结束 ---
在这个修正后的main_sequential函数中,for循环会迭代websites列表。在每次迭代中,await fetch_data(url)会暂停当前协程的执行,直到fetch_data协程完全完成。只有当fetch_data返回结果后,循环才会继续执行下一轮迭代,从而保证了严格的顺序执行。
通过理解asyncio的设计哲学以及asyncio.gather()和逐个await之间的区别,你可以更准确地构建满足项目需求的异步Python应用。
以上就是掌握Python asyncio中任务的顺序执行:从并发到串行的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号