如何在Python requests_html 网页抓取中处理多语言内容与翻译

碧海醫心

发布时间：2025-11-23 12:59:18

379人浏览过

来源于php中文网

原创

如何在python requests_html 网页抓取中处理多语言内容与翻译

针对`requests_html`抓取内容语言不符预期的问题，本教程解释了`Accept-Language`请求头的局限性，并提供了一种通过`googletrans`库对抓取文本进行翻译的解决方案。文章将详细介绍如何安装`googletrans`，并结合`requests_html`的抓取结果，实现内容的自动翻译，确保获取所需语言的数据，提升数据处理的灵活性。

网页抓取中的语言挑战

在进行网页抓取（Web Scraping）时，经常会遇到目标网站内容以非预期语言显示的问题，尤其是在处理国际化网站时。即使在HTTP请求头中设置了 Accept-Language: en 等偏好语言，服务器也可能不会返回指定语言的内容。这通常是因为 Accept-Language 只是一个偏好指令，服务器有权决定响应的语言，这取决于其内容可用性、用户IP地址的地理位置、或其他内部逻辑。因此，仅仅依靠请求头来控制抓取内容的语言往往是不够的。

理解 Accept-Language 请求头

Accept-Language 请求头用于告知服务器客户端偏好的语言。例如，Accept-Language: en-US,en;q=0.9 表示客户端首选美式英语，其次是任何形式的英语。服务器会根据这个偏好，尝试返回相应语言的内容。然而，如果服务器没有请求的语言版本，或者其内部逻辑（如根据IP地址识别用户位置）优先级更高，它可能会返回其他语言的内容，例如网站的默认语言或用户所在地区的语言。在这种情况下，我们需要采取额外的步骤来处理抓取到的多语言内容。

利用 googletrans 库进行内容翻译

当 Accept-Language 请求头无法满足我们的语言需求时，最有效的解决方案是在抓取到内容之后，对其进行翻译。Python 生态系统中有多个库可以实现这一功能，其中 googletrans 是一个流行的选择，它利用 Google Translate 服务进行文本翻译。

立即学习“Python免费学习笔记（深入）”；

googletrans 库的安装

googletrans 库可以通过 pip 进行安装。需要注意的是，该库的某些版本可能存在稳定性问题，因此建议尝试最新预发布版本或稳定版本。

ClipDrop

Stability.AI出品的图片处理系列工具（背景移除、图片放大、打光）

下载

首先，尝试安装 4.0.0-rc1 预发布版本：

pip install googletrans==4.0.0-rc1

如果在安装或使用过程中遇到问题，可以尝试卸载当前版本并安装 3.0.0 稳定版本：

pip uninstall googletrans==4.0.0-rc1
pip install googletrans==3.0.0

集成 requests_html 与 googletrans 进行内容翻译

以下示例演示了如何结合 requests_html 抓取网页内容，并使用 googletrans 将特定元素（如网页标题）翻译成英文。

import pandas
from requests_html import HTMLSession
import time
import requests
from requests import get
from requests_html import HTMLSession
import re
from googletrans import Translator # 导入 Translator 类

# 目标 URL
url = 'https://pcpalace.com.sa/products/ASUS-Vivobook-GO-E1504GA'

# 尝试设置 Accept-Language 头，尽管它可能不总是有效
headers = {"Accept-Language": "en"}

# 使用 requests.get 发送请求
# 对于 requests_html，通常会通过 session.get 或 session.html.render()
# 但为了保持与原始问题的上下文一致，我们先用 requests.get 获取响应
try:
    r = requests.get(url, headers=headers)
    r.raise_for_status() # 检查请求是否成功
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")
    exit()

# 如果需要使用 requests_html 的解析功能，可以将响应文本传递给 HTML 对象
# 或者直接使用 HTMLSession 获取响应
session = HTMLSession()
response_html = session.get(url, headers=headers)
response_html.raise_for_status() # 确保请求成功

# 提取标题元素
# 使用 response_html.html.find() 来查找元素
title_element = response_html.html.find('title', first=True)

# 提取标题文本，如果元素不存在则返回默认值
title_text = title_element.text if title_element else 'Title not found'

print(f"原始标题: {title_text}")

# 初始化 Google Translator
translator = Translator()

# 翻译标题到英文
try:
    translated_title = translator.translate(title_text, dest='en').text
    print(f"翻译后的标题 (英文): {translated_title}")
except Exception as e:
    print(f"翻译失败: {e}")
    print(f"无法翻译，返回原始标题: {title_text}")

# 示例：如果您需要从 r.text (原始 requests.get 响应) 中提取并翻译其他内容
# 假设 r.text 中第51行是您想翻译的另一段内容
# makestr = str(r.text)
# if len(makestr.splitlines()) > 50:
#     another_line_text = makestr.splitlines()[50]
#     print(f"\n原始第51行内容: {another_line_text}")
#     try:
#         translated_another_line = translator.translate(another_line_text, dest='en').text
#         print(f"翻译后的第51行内容 (英文): {translated_another_line}")
#     except Exception as e:
#         print(f"第51行内容翻译失败: {e}")
# else:
#     print("\n原始响应文本不足51行，无法提取第51行内容。")

代码解析：

导入 Translator： 从 googletrans 库中导入 Translator 类。
获取 HTML 响应： 示例中使用了 requests.get 和 HTMLSession().get 两种方式获取响应。推荐使用 HTMLSession().get，因为它返回的 response_html 对象可以直接使用 .html.find() 等 requests_html 的强大解析功能。
提取目标文本： 使用 response_html.html.find('title', first=True) 来定位并提取网页的元素。.text 属性用于获取元素的纯文本内容。
初始化翻译器： 创建 Translator 类的实例。
执行翻译： 调用 translator.translate(text, dest='en') 方法。
- text 参数是需要翻译的字符串。
- dest='en' 指定了目标语言为英文。您可以根据需要修改 dest 参数为其他语言代码（如 zh-cn 代表简体中文，fr 代表法语等）。
- .text 属性用于获取翻译结果的纯文本。
错误处理： 使用 try-except 块来捕获翻译过程中可能发生的异常，例如网络问题或 googletrans 服务暂时不可用。

注意事项与最佳实践

googletrans 的稳定性： googletrans 是一个非官方的 Google Translate API 包装器，它的稳定性可能会受到 Google Translate 服务自身变化的影响。在生产环境中使用时，请密切关注其维护情况和潜在的 API 变更。
请求频率限制： 频繁的翻译请求可能会触发 Google Translate 的请求限制。如果需要处理大量文本，请考虑引入延迟、批量翻译或探索付费的翻译 API 服务。
错误处理： 在实际应用中，务必对网页元素提取和翻译过程进行全面的错误处理，以应对元素不存在、网络中断或翻译失败等情况。
目标语言选择： 确保正确指定 dest 参数为所需的语言代码。
内容清洗： 在翻译之前，对抓取到的文本进行适当的清洗（如去除多余空格、HTML 标签等），可以提高翻译的准确性。
性能考量： 对于大规模的抓取和翻译任务，应评估翻译操作对整体性能的影响。如果翻译是瓶颈，可以考虑异步处理或将翻译任务卸载到专门的服务。

总结

当 requests_html 抓取网页内容时，Accept-Language 请求头仅能表达语言偏好，并不能保证服务器一定会返回指定语言的内容。为了确保获取所需语言的数据，最可靠的方法是在内容抓取后，利用 googletrans 等第三方库对文本进行翻译。通过本教程，您应该能够有效地在 Python 网页抓取项目中集成翻译功能，从而更灵活地处理多语言数据。

如何将本地文件内容插入 MySQL 数据表

如何在Python中结合if语句与while循环实现动态列表输入

Python 为什么不推荐复杂继承体系？

Python 并发程序为何难以测试？

Python 数据结构如何影响算法复杂度？