使用Pandas从Django本地服务器正确读取HTML表格：协议的重要性-Python教程-PHP中文网

使用Pandas从Django本地服务器正确读取HTML表格：协议的重要性

霞舞

发布： 2025-11-13 15:12:20

原创

236人浏览过

使用Pandas从Django本地服务器正确读取HTML表格：协议的重要性

本文探讨了在使用pandas的`read_html`函数从django本地服务器获取html表格数据时遇到的常见错误——`valueerror: no tables found`。该问题通常源于url缺少http协议前缀。教程将详细解释`read_html`的工作原理，指出未指定协议时pandas如何误将url视为html字符串进行解析，并提供通过添加`http://`协议来正确读取远程html内容的解决方案，确保数据顺利提取。

在数据分析和Web抓取任务中，pandas.read_html()函数是用于从HTML页面中提取表格数据的强大工具。然而，当尝试从本地开发服务器（例如运行在127.0.0.1:8000的Django项目）获取数据时，开发者经常会遇到ValueError: No tables found的错误，并伴随着FutureWarning和MarkupResemblesLocatorWarning。本教程将深入分析此问题的根本原因，并提供一个可靠的解决方案。

理解pd.read_html的工作机制

pandas.read_html()函数旨在解析HTML内容并识别其中的<table>标签，将表格数据提取并转换为Pandas DataFrame列表。它的io参数可以接受多种类型的输入：一个URL、一个文件路径，或者一个字面HTML字符串。

关键在于Pandas如何区分URL和字面HTML字符串。当一个字符串，例如'127.0.0.1:8000/shop/'，被传递给read_html()时，如果该字符串没有包含一个已知的URL协议前缀（如http://、https://、ftp://），Pandas会将其解释为原始的HTML标记内容。由于'127.0.0.1:8000/shop/'本身并非有效的HTML结构，更不包含任何<table>标签，因此解析会失败，最终抛出ValueError: No tables found。

伴随的警告信息也提供了线索：

立即学习“前端免费学习笔记（深入）”；

MarkupResemblesLocatorWarning提示输入内容更像文件名而非标记语言，暗示Pandas可能误判了输入类型。
FutureWarning: Passing literal html to 'read_html' is deprecated...则进一步强化了Pandas最初将输入视为字面HTML字符串的判断。

解决方案：明确指定URL协议

要正确地指示pandas.read_html()通过网络请求从指定的Web地址获取内容，至关重要的是在URL前加上合适的协议前缀。对于本地开发服务器，通常使用http://即可。

降重鸟

要想效果好，就用降重鸟。AI改写智能降低AIGC率和重复率。

113

查看详情

错误示例代码： 以下代码是导致ValueError: No tables found的常见错误用法，因为它缺少了URL协议。

import pandas as pd

# 错误：缺少协议，Pandas会将其视为HTML字符串解析
# 这将导致 ValueError: No tables found
tables = pd.read_html('127.0.0.1:8000/shop/')

print(f"找到的表格数量: {len(tables)}")

登录后复制

运行上述代码将产生如下错误输出：

c:\Users\kadzutokun\Desktop\tables.py:3: FutureWarning: Passing literal html to 'read_html' is deprecated and will be removed in a future version. To read from a literal string, wrap it in a 'StringIO' object.
  tables = pd.read_html(
C:\Users\kadzutokun\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\html.py:666: MarkupResemblesLocatorWarning: The input looks more like a filename than markup. You may want to open this file and pass the filehandle into Beautiful Soup.
  soup = BeautifulSoup(udoc, features="html5lib", from_encoding=from_encoding)
Traceback (most recent call last):
    ...
ValueError: No tables found

登录后复制

正确解决方案： 通过在URL前添加http://协议，我们明确告诉Pandas这是一个需要通过HTTP网络请求获取内容的URL。

import pandas as pd
import io # 用于处理字面HTML字符串的建议

# 正确：添加http://协议，Pandas将发送HTTP请求获取内容
try:
    tables = pd.read_html('http://127.0.0.1:8000/shop/')
    print(f"成功找到 {len(tables)} 个表格。")

    # 示例：打印第一个表格的前几行数据
    if tables:
        print("\n第一个表格内容（前5行）：")
        print(tables[0].head())
    else:
        print("指定URL下未找到任何表格。")

except ValueError as e:
    print(f"发生错误: {e}")
    print("请确保Django服务器正在运行，并且指定URL下存在HTML表格。")
except Exception as e:
    print(f"发生未知错误: {e}")

# 补充：如果需要解析字面HTML字符串，应使用io.StringIO
# html_content = "<html><body><table><tr><td>Data</td></tr></table></body></html>"
# try:
#     literal_tables = pd.read_html(io.StringIO(html_content))
#     print(f"\n从字面HTML字符串找到 {len(literal_tables)} 个表格。")
#     if literal_tables:
#         print("字面HTML表格内容：")
#         print(literal_tables[0])
# except Exception as e:
#     print(f"解析字面HTML字符串时发生错误: {e}")

登录后复制

Pandas read_html 官方文档说明

根据Pandas官方文档对read_html函数io参数的描述，其行为是明确定义的：

io (str, path object, or file-like object) String, path object (implementing os.PathLike[str]), or file-like object implementing a string read() function. The string can represent a URL or the HTML itself. Note that lxml only accepts the http, ftp and file url protocols. If you have a URL that starts with 'https' you might try removing the 's'.

这段说明强调了io参数可以是一个URL字符串，但同时指出底层解析库（如lxml）仅支持特定的URL协议（http, ftp, file）。这意味着，当输入是URL时，它必须是一个包含协议的完整URL字符串。

注意事项

协议完整性： 始终确保提供给read_html()的URL包含完整的协议前缀（http://或https://）。这是Pandas正确识别输入类型并进行网络请求的关键。
服务器状态与内容： 在尝试读取数据之前，请确认目标Web服务器（例如您的Django开发服务器）正在运行，并且您指定的URL路径（如127.0.0.1:8000/shop/）是可访问的，并且该页面确实返回了包含<table>标签的HTML内容。如果页面不存在或不包含表格，即使URL正确，ValueError: No tables found也可能发生。
HTTPS处理： 如果目标URL是https协议，并且在读取时遇到SSL证书相关的错误，您可以尝试以下方法：
- 确保您的Python环境信任该网站的SSL证书。
- 在开发环境中，如果安全性要求不高，可以暂时尝试使用http://（如果服务器同时支持）。
- 对于更复杂的场景，可能需要配置请求库（Pandas底层使用的如requests）来忽略SSL验证，但这通常不推荐用于生产环境。
读取字面HTML字符串： 如果您确实需要解析一个已经存储在字符串变量中的字面HTML内容，为了遵循FutureWarning的建议并提高代码清晰度，建议使用io.StringIO对其进行封装，例如：pd.read_html(io.StringIO(html_string))。

总结

在利用Pandas的read_html()功能从Web源（尤其是本地开发服务器）提取数据时，理解其对URL格式的要求至关重要。核心在于，URL必须通过明确的协议前缀（如http://或https://）来标识，以便Pandas能够正确地发起网络请求。忽略这一细节会导致函数将URL误识别为字面HTML，进而引发“No tables found”的错误。遵循本文提供的指导，您将能够高效且准确地从各类HTML源中提取表格数据。

以上就是使用Pandas从Django本地服务器正确读取HTML表格：协议的重要性的详细内容，更多请关注php中文网其它相关文章！