如何使用 Python 逐行读取并解析 URL 列表中的每个网页

聖光之護

发布时间：2026-01-17 14:07:17

504人浏览过

来源于php中文网

原创

如何使用 Python 逐行读取并解析 URL 列表中的每个网页

本文详解如何修正 `readlines()` 后仅处理最后一个 url 的常见错误，通过将请求与解析逻辑正确嵌入 for 循环，实现对文本文件中所有 url 的批量抓取与结构化提取。

在使用 file.readlines() 读取 URL 列表时，一个典型误区是将 requests.get()、BeautifulSoup 解析及文件写入等核心逻辑写在循环外部——这会导致只有最后一次迭代赋值的 url（即列表末尾的 URL）被实际处理。你提供的代码中，for link in linksList: url = link 仅更新变量，而后续的 requests.get(url) 等操作却位于循环之外，因此只执行一次，且作用于最后一个链接。

✅ 正确做法是：将整个 HTTP 请求、状态校验、HTML 解析和结果写入逻辑全部包裹在 for 循环内，确保每个 URL 独立完成完整流程。

以下是优化后的完整可运行代码（含关键改进说明）：

import requests
from bs4 import BeautifulSoup

def news():
    # 使用 with 语句安全打开文件，自动关闭
    with open('list.txt', 'r', encoding='utf-8') as f:
        links_list = [line.strip() for line in f if line.strip()]  # 去除换行符和空行

    # 为每个 URL 单独处理
    for link in links_list:
        print(f"Processing: {link}")

        try:
            # 发起 GET 请求（建议添加超时和 headers 防止被拒）
            resp = requests.get(link, timeout=10, headers={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
            })

            if resp.status_code == 200:
                soup = BeautifulSoup(resp.text, 'html.parser')

                # 查找目标 div 容器（注意：若页面无此结构，find 返回 None）
                container = soup.find("div", {"class": "m-exhibitor-entry__item__body__contacts__additional__website"})
                if container:
                    # 提取所有  标签的文本内容
                    websites = [a.get_text(strip=True) for a in container.find_all("a")]
                    if websites:
                        # 追加写入结果文件（每 URL 结果后加空行便于区分）
                        with open("Websites.txt", "a", encoding='utf-8') as out_f:
                            out_f.write(f"# Source: {link}\n")
                            out_f.writelines(f"{site}\n" for site in websites)
                            out_f.write("\n")
                        print(f"✓ Extracted {len(websites)} website(s) from {link}")
                    else:
                        print(f"⚠ No  tags found in target div at {link}")
                else:
                    print(f"⚠ Target div not found at {link}")
            else:
                print(f"✗ HTTP {resp.status_code} for {link}")

        except requests.exceptions.RequestException as e:
            print(f"❌ Request failed for {link}: {e}")
        except Exception as e:
            print(f"❌ Unexpected error parsing {link}: {e}")

if __name__ == "__main__":
    news()

? 关键改进点说明：

Live PPT

一款AI智能化生成演示内容的在线工具。只需输入一句话、粘贴一段内容、或者导入文件，AI生成高质量PPT。

下载

立即学习“Python免费学习笔记（深入）”；

✅ 循环范围正确：所有网络请求与解析逻辑均在 for link in links_list: 内部，确保每个 URL 被独立处理；
✅ 健壮性增强：添加 try/except 捕获网络异常（如超时、连接拒绝）和解析异常（如目标元素不存在）；
✅ 资源安全：使用 with open() 自动管理文件句柄，避免文件未关闭风险；
✅ 数据清洗：line.strip() 去除每行末尾换行符及首尾空白，if line.strip() 过滤空行；
✅ 可读性优化：为每个 URL 的结果添加来源注释（# Source: ...），便于后期溯源；
✅ 反爬基础防护：设置 User-Agent 头，降低被服务器拦截概率。

⚠️ 注意事项：

若 list.txt 中的 URL 包含多余空格或换行符（如 https://example.com\n），不清理会直接导致 requests.get() 报错；
目标 HTML 结构（如 div.m-exhibitor-entry__item__body__contacts__additional__website）可能随网站改版失效，建议先用 print(soup.prettify()[:1000]) 调试确认实际 DOM；
高频请求可能触发反爬机制，生产环境应添加 time.sleep(1) 间隔，并考虑使用代理池或异步请求（如 aiohttp）提升效率。

通过以上重构，你的爬虫将真正实现「一链一解析」，稳定高效地批量提取多页面中的结构化链接数据。

Python 如何安全地在多线程环境下累加计数器（不加锁）

解析 Python 类型注解字符串以提取泛型参数（如 Tuple 中的子类型）

Python 列表为空？警惕循环中意外重置变量的常见陷阱

Python 如何在不安装额外包的情况下实现颜色进度条

Python 中列表为空？警惕循环内意外重置变量

相关标签:

python html windows app ai win apple 爬虫数据清洗 Python html beautifulsoup print if for try 循环 dom 异步 http https 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何强制退出异步上下文管理器下一篇：如何绕过纽约时报的 JavaScript 验证，高效提取文章正文内容

作者最新文章

如何安全移除 Elementor 生成的 HTML 标签，仅保留内部文本内容

2026-01-16 22:04

如何在 Cypress 中正确处理外部文件下载而不导致测试卡死

2026-01-16 22:19

标题：将评分范围按不等长区间划分并映射到消息数组的高效算法实现

2026-01-16 22:19

如何实现 HTML 下拉菜单中的嵌套子菜单（二级下拉）

2026-01-16 22:29

Cypress 中正确处理文件下载的完整实践指南

2026-01-16 22:32

如何在 Go 程序中正确使用 os/exec 调用 go build 命令

2026-01-16 22:35

如何在 Go Web 应用中正确托管 CSS 文件并解决 404 错误

2026-01-16 22:40

如何在 Go Web 应用中正确托管 CSS 静态资源避免 404 错误

2026-01-16 22:40

标题：装饰器模式的适用边界与类型兼容性约束

2026-01-16 22:59

如何使用 cURL 正确发送 JSON 数据到 PHP 接口

2026-01-16 23:36

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

758

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1264

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

548

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

708

2023.08.11