解决BeautifulSoup网页抓取空列表问题：精准选择器与结构化提取指南-Python教程-PHP中文网

解决BeautifulSoup网页抓取空列表问题：精准选择器与结构化提取指南

碧海醫心

发布： 2025-10-11 10:01:17

原创

484人浏览过

解决beautifulsoup网页抓取空列表问题：精准选择器与结构化提取指南

本教程深入探讨使用BeautifulSoup进行网页抓取时，因选择器不当导致返回空列表的常见问题。我们将分析传统find()方法可能遇到的陷阱，并重点介绍如何利用CSS选择器进行精确元素定位，通过迭代文章容器实现结构化数据提取，从而有效解决数据抓取失败的问题。

引言：BeautifulSoup抓取空列表的常见原因

在使用BeautifulSoup进行网页数据抓取时，一个常见的困扰是最终得到一个空列表。这通常不是因为网站反爬虫机制过于严苛（尽管这也会发生），而是由于HTML元素选择器未能准确匹配到目标内容。当BeautifulSoup无法根据提供的选择器找到任何匹配的元素时，它会返回None或者一个空的列表/结果集，进而导致后续的数据提取操作失败。理解并正确使用选择器是解决此类问题的关键。

原代码问题分析

我们首先来看一个导致空列表的典型代码示例及其潜在问题：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/91.0.4472.124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    if headlines and articles and len(headlines) == len(articles):
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data)

登录后复制

上述代码旨在从inshorts.com抓取新闻标题和文章内容。然而，它常常返回一个空列表。分析其原因，主要有以下几点：

find() 方法的局限性： soup.find() 只会返回第一个匹配的元素。如果页面上有多个新闻卡片，它只会找到第一个新闻标题和第一个文章内容，而不是所有。这与我们期望抓取多条新闻的意图不符。
选择器不精确： class_=['news-card-title', 'news-right-box'] 这种选择器组合可能无法准确匹配到包含所有标题和文章内容的父级元素。更常见的情况是，news-card-title和news-right-box是不同的类，或者它们不是同一层级的元素。如果选择器未能匹配到任何元素，headlines和articles将为None。
条件判断错误： 当headlines或articles为None时，len(headlines)或len(articles)会导致错误。即使它们不是None，如果find()只返回单个元素，那么len()操作也不是获取列表长度的正确方式。
文本提取方式： find_all(...).string 是一个常见误区。find_all() 返回的是一个列表（可能包含零个、一个或多个元素），直接在其上调用 .string 会失败。正确的做法是先从列表中取出元素（如果只有一个，可以使用 [0] 或 find()），再调用 .string 或 get_text()。

解决方案：利用CSS选择器进行精确提取

为了解决上述问题，我们推荐使用更强大、更灵活的CSS选择器。BeautifulSoup通过select()和select_one()方法支持CSS选择器，它们可以帮助我们更精确地定位元素。核心思路是：

AI建筑知识问答

用人工智能ChatGPT帮你解答所有建筑问题

查看详情

定位父级容器： 首先找到页面上每个独立新闻项的父级容器。通常，这些容器会有一个独特的类名、ID或属性来标识。
迭代父级容器： 使用select()方法获取所有父级容器的列表，然后遍历这个列表。
在子级中提取： 在每个父级容器内部，使用select_one()或find()方法进一步定位新闻标题和文章内容等子元素。

示例代码与详细解释

以下是优化后的代码，展示了如何利用CSS选择器高效地提取数据：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/91.0.4472.124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位所有新闻文章的父级容器
    # 根据inshorts网站结构，每个新闻文章通常有一个itemtype属性
    for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        headline_element = article_container.select_one('[itemprop="headline"]')
        article_body_element = article_container.select_one('[itemprop="articleBody"]')

        # 确保元素存在，避免NoneType错误
        if headline_element and article_body_element:
            news_data.append(
                {
                    'news_headline': headline_element.get_text(strip=True),
                    'news_article': article_body_element.get_text(strip=True),
                    'news_category': news_category
                }
            )

print(news_data)

登录后复制

代码解释：

soup.select('[itemtype="http://schema.org/NewsArticle"]')：
- 这是最关键的改进。我们不再尝试直接寻找标题和文章内容，而是首先寻找它们的共同父级容器。
- 通过观察inshorts.com的HTML结构，我们发现每个新闻文章卡片都带有一个itemtype="http://schema.org/NewsArticle"的属性。这是一个非常精确且稳定的CSS选择器，它能选择所有具有该特定属性的元素。
- select()方法返回一个匹配所有元素的列表。
for article_container in ...：
- 我们遍历select()返回的每个article_container（即每个新闻文章的父级元素）。
article_container.select_one('[itemprop="headline"]') 和 article_container.select_one('[itemprop="articleBody"]')：
- 在每个article_container内部，我们再次使用CSS选择器select_one()来定位具体的标题和文章内容。
- [itemprop="headline"]和[itemprop="articleBody"]是基于HTML语义化标签（Schema.org微数据）的属性选择器，它们能够精确地指向新闻标题和文章主体。
- select_one()方法只会返回第一个匹配的元素，如果不存在则返回None。
if headline_element and article_body_element:：
- 这是一个重要的错误处理步骤。在尝试提取文本之前，我们检查headline_element和article_body_element是否为None。这可以有效防止在某些元素缺失时程序崩溃。
.get_text(strip=True)：
- get_text()方法用于提取元素的纯文本内容。
- strip=True参数会自动移除文本开头和结尾的空白字符，使提取的数据更整洁。
- 相比于.string，get_text()更加健壮，它能处理包含子标签的文本内容，而.string只有当元素只有一个子节点且该子节点是文本时才有效。

注意事项与最佳实践

深入理解HTML结构： 在编写爬虫代码之前，务必使用浏览器的开发者工具（F12）仔细检查目标网站的HTML结构。这是选择正确选择器的基础。
选择器的优先级：
- ID选择器 (#id_name)： 最高优先级，ID在页面中应是唯一的。
- 属性选择器 ([attribute="value"])： 如本例所示，非常有效且具体。
- 类选择器 (.class_name)： 常用，但要注意类名是否具有唯一性或是否会动态变化。
- 标签选择器 (tag_name)： 最不具体，通常需要与其他选择器结合使用。
- 组合选择器： 例如 div.news-card a.title 表示div标签下类名为news-card的元素内部，再选择类名为title的a标签。
find() vs find_all() vs select() vs select_one()：
- find(tag, attrs)：返回第一个匹配的元素。
- find_all(tag, attrs)：返回所有匹配元素的列表。
- select(css_selector)：使用CSS选择器，返回所有匹配元素的列表。
- select_one(css_selector)：使用CSS选择器，返回第一个匹配的元素。
- 在需要抓取多个相同结构的数据时，优先使用select()或find_all()来获取所有容器，然后遍历它们。
错误处理： 始终对可能返回None的选择器结果进行判断，例如 if element:，以避免程序运行时出现AttributeError: 'NoneType' object has no attribute 'get_text'等错误。
文本清洗： 提取到的文本可能包含多余的空格、换行符等。使用.get_text(strip=True)或Python的字符串方法（如.strip(), .replace('\n', '')）进行清洗。
动态内容： BeautifulSoup只能处理静态HTML内容。如果目标数据是通过JavaScript动态加载的（例如，滚动到底部加载更多内容），则需要结合Selenium等工具来模拟浏览器行为。