优化BeautifulSoup选择器：避免网络爬虫返回空数据

碧海醫心

发布时间：2025-10-11 13:30:37

396人浏览过

来源于php中文网

原创

优化BeautifulSoup选择器：避免网络爬虫返回空数据

本教程旨在解决使用beautifulsoup进行网页抓取时遇到的常见“空列表”问题。核心在于指导用户如何通过精确的css选择器定位目标数据，避免因选择器不当导致`find()`或`find_all()`返回`none`。文章将详细解析错误原因，并提供一个优化的解决方案，通过遍历文章容器来稳定提取新闻标题和内容，确保数据抓取的准确性和可靠性。

理解问题：为何列表为空？

在使用BeautifulSoup进行网页数据抓取时，一个常见的问题是最终得到一个空列表。这通常不是因为网页没有数据，而是因为我们的选择器未能准确地定位到目标元素。

以以下原始代码为例：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    if headlines and articles and len(headlines) == len(articles):
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data)

这段代码尝试通过soup.find('div', class_=['news-card-title', 'news-right-box'])和soup.find('div', class_=['news-card-content', 'news-right-box'])来获取新闻标题和文章内容。然而，问题在于soup.find()方法只会返回第一个匹配的元素，如果找不到则返回None。更重要的是，这里使用的class_参数期望的是一个字符串或一个列表，但find方法返回的单个元素（如果找到）或None，当它们是None时，随后的条件if headlines and articles将评估为假，导致news_data保持为空。即使找到了单个元素，len(headlines)或len(articles)也会报错，因为None或单个Tag对象不具备len()属性。

正确的做法是使用find_all()来获取所有匹配的元素列表，但即使如此，如果选择器不够精确，也可能导致列表为空或包含非预期的元素。

核心挑战：选择器的精确性

网页结构复杂多变，选择器是定位元素的关键。一个好的选择器应该足够具体，能够唯一或准确地标识出目标元素。当find()或find_all()返回空结果时，通常意味着：

选择器不匹配： 提供的类名、ID、标签等与HTML结构不符。
选择器过于宽泛： 选择了包含目标元素的父级容器，但未能进一步深入到具体的数据点。
动态加载内容： 目标内容是通过JavaScript动态加载的，BeautifulSoup无法直接解析。

对于本例，问题在于news-card-title和news-right-box等类名可能并非直接对应新闻标题和内容的独立容器，或者它们被用于更复杂的布局中，导致直接查找它们无法获取到所有新闻条目。

解决方案：利用CSS选择器精准定位数据

为了解决上述问题，我们可以采用更强大的CSS选择器来精准定位数据。BeautifulSoup提供了select()和select_one()方法，它们允许我们使用CSS选择器语法来查找元素，这在处理复杂网页结构时非常有效。

核心思路是：

Haiper

一个感知模型驱动的AI视频生成和重绘工具，提供文字转视频、图片动画化、视频重绘等功能

下载

定位单个文章容器： 找到每个独立新闻文章的父级容器。通常这些容器会有一些独特的属性（如itemtype、特定的class或id）。
遍历容器： 对每个文章容器进行迭代。
在容器内部提取数据： 在每个文章容器内部，使用更具体的CSS选择器来提取标题、内容等信息。

以下是优化后的代码示例：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位所有新闻文章的父级容器
    # [itemtype="http://schema.org/NewsArticle"] 是一种属性选择器，
    # 用于匹配所有具有指定itemtype属性的元素，这通常是新闻文章的语义化标记
    for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        # 在每个文章容器内部，使用select_one定位标题和内容
        # itemprop="headline" 和 itemprop="articleBody" 是微数据属性，
        # 用于语义化地标记新闻标题和文章主体
        headline_element = article_container.select_one('[itemprop="headline"]')
        article_body_element = article_container.select_one('[itemprop="articleBody"]')

        news_headline = headline_element.get_text(strip=True) if headline_element else None
        news_article = article_body_element.get_text(strip=True) if article_body_element else None

        if news_headline and news_article: # 确保提取到了有效数据
            news_data.append(
                {
                    'news_headline': news_headline,
                    'news_article': news_article,
                    'news_category': news_category
                }
            )

print(news_data)

代码解析与最佳实践

定位文章容器：soup.select('[itemtype="http://schema.org/NewsArticle"]')
- soup.select()方法接收一个CSS选择器字符串，并返回所有匹配元素的列表。
- [itemtype="http://schema.org/NewsArticle"]是一个属性选择器，它会查找HTML中所有具有itemtype属性且其值为"http://schema.org/NewsArticle"的元素。这种选择器通常非常精确，因为它利用了网页的语义化标记。
- 通过这种方式，我们获取了一个包含所有独立新闻文章容器的列表，为后续的迭代提供了基础。
提取子元素：article_container.select_one('[itemprop="headline"]')
- 在for循环中，article_container代表了每一个独立的新闻文章容器。
- select_one()方法类似于find()，但它使用CSS选择器，并且只返回第一个匹配的元素。这在确定某个元素只出现一次时非常有用（例如，一篇文章只有一个标题）。
- [itemprop="headline"]和[itemprop="articleBody"]同样是属性选择器，它们在各自的文章容器内部查找具有这些微数据属性的元素，从而精确地获取标题和内容。
获取文本内容：element.get_text(strip=True)
- 原始代码使用了.string来获取文本内容。然而，.string属性只有当标签内不包含其他子标签时才有效。如果标签内有、等子标签，.string会返回None。
- get_text()方法则更为健壮，它会提取标签及其所有子标签中的文本内容。
- strip=True参数可以去除文本开头和结尾的空白字符，使提取的文本更整洁。
- 在提取文本之前，建议添加条件判断（if headline_element else None），以防select_one未能找到元素而返回None，避免在None对象上调用get_text()引发错误。
数据结构优化：
- 直接在循环内部构建字典，并将每个新闻条目添加到news_data列表中，这种方式逻辑清晰，易于理解和维护。

注意事项

选择器调试： 在编写爬虫代码时，强烈建议使用浏览器（如Chrome、Firefox）的开发者工具来检查网页的HTML结构。通过“检查元素”功能，可以方便地查看元素的标签、类名、ID、属性等，并实时测试CSS选择器，确保它们能够准确地定位到目标数据。
页面结构变化： 网站的HTML结构可能会随时更新。如果你的爬虫代码突然失效，首先应该检查目标网站的HTML结构是否发生了变化，并相应地调整你的选择器。
错误处理： 即使使用了精确的选择器，也可能存在某些文章缺少特定字段（如标题或内容）的情况。在实际应用中，应加入更健壮的错误处理机制，例如使用try-except块或在提取数据后进行None值检查，以防止程序崩溃。
爬虫礼仪： 在进行网页抓取时，请务必遵守网站的robots.txt协议，不要对网站造成过大负担，并注意法律法规。

总结

通过本教程，我们了解了BeautifulSoup中出现空列表的常见原因，并掌握了如何通过精确的CSS选择器和迭代父级容器的方法来解决这一问题。核心在于理解find()、find_all()、select()和select_one()的区别与适用场景，并善用get_text()来稳健地提取文本内容。掌握这些技巧将显著提升你使用BeautifulSoup进行网页抓取时的效率和成功率。

从绝对定位Div布局到CSS Grid：构建表格化视图的现代方法

从CSS定位Div布局到HTML表格或Grid布局的转换策略

将基于CSS样式将Div布局转换为HTML表格

使用Selenium抓取动态隐藏内容的策略与实践

从CSS定位Div布局到HTML表格或CSS Grid的转换策略

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python脚本中无限循环与键盘控制的正确姿势下一篇：使用 tqdm 库在 Python 递归循环中显示进度

作者最新文章

Laravel Sail 数据库驱动错误解决方案（Mac M1/M2 环境）

2025-12-27 21:21

JAX梯度计算中链式布尔表达式的正确写法

2025-12-27 22:13

如何在 Vaadin 23 中监听页面后退操作并弹出确认对话框

2025-12-27 22:21

如何在 Pipfile 中正确引用本地 Git 仓库的指定分支

2025-12-27 22:46

如何在 Go 中正确使用 exec.Command 调用 awk 命令

2025-12-27 22:52

如何在 Go 中实现 SoundCloud 音频流播放

2025-12-27 23:01

如何在 Vaadin 23 中拦截浏览器后退按钮并显示确认对话框

2025-12-27 23:04

如何在 Pipfile 中正确引用本地 Git 仓库的特定分支

2025-12-27 23:05

如何仅用纯 CSS 实现 HTML 多语言切换（无需 JavaScript）

2025-12-27 23:31

如何通过点击将列表项移至顶部

2025-12-27 23:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

541

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

372

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

727

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

470

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

391

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

990

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

653

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

544

2023.09.20