脚本如何获取html_脚本(JavaScript/Python)获取HTML内容方法

爱谁谁
发布: 2025-11-05 18:03:24
原创
976人浏览过
答案:JavaScript通过DOM操作获取HTML内容,Python则用requests或Selenium等库抓取。具体为:1. JavaScript使用outerHTML、innerHTML等属性获取页面或元素内容;2. Python用requests获取静态页面源码,Selenium或Playwright获取动态渲染内容;3. 配合BeautifulSoup解析提取数据。

脚本如何获取html_脚本(javascript/python)获取html内容方法

脚本获取HTML内容的方法取决于使用的语言和运行环境。以下是JavaScript和Python中常用的方式,适用于不同场景如网页开发、爬虫或自动化操作。

JavaScript 获取 HTML 内容

浏览器环境中,JavaScript 可直接操作 DOM 来获取页面内容。

1. 获取整个页面的 HTML

使用 document.documentElement.outerHTML 可获取完整的页面结构:

const htmlContent = document.documentElement.outerHTML;

立即学习Java免费学习笔记(深入)”;

2. 获取某个元素内的 HTML

innerHTML 获取指定元素内部的 HTML 字符串:

const divHtml = document.getElementById('myDiv').innerHTML;

3. 获取包含标签本身的 HTML

使用 outerHTML 包括元素自身:

const fullElementHtml = document.getElementById('myDiv').outerHTML;

如此AI员工
如此AI员工

国内首个全链路营销获客AI Agent

如此AI员工 71
查看详情 如此AI员工
4. 动态加载内容(如 AJAX)

通过 fetch 请求获取远程 HTML 片段:

fetch('/page.html')<br>
  .then(response => response.text())<br>
  .then(html => {<br>
    console.log(html);<br>
  });
登录后复制

Python 获取 HTML 内容

Python 通常用于服务器端或爬虫,需借助第三方库发送请求并解析响应。

1. 使用 requests 库获取网页源码

最常见方式是通过 requests.get() 获取目标页面的 HTML 源代码:

import requests<br><br>
url = 'https://example.com'<br>
response = requests.get(url)<br>
html_content = response.text
登录后复制

2. 处理动态渲染页面(含 JavaScript)

若页面内容由 JS 动态生成,requests 无法获取渲染后的内容,应使用 SeleniumPlaywright

Selenium 示例:

from selenium import webdriver<br><br>
driver = webdriver.Chrome()<br>
driver.get('https://example.com')<br>
html_content = driver.page_source<br>
driver.quit()
登录后复制

Playwright 示例(推荐,更现代高效):

from playwright.sync_api import sync_playwright<br><br>
with sync_playwright() as p:<br>
  browser = p.chromium.launch()<br>
  page = browser.new_page()<br>
  page.goto('https://example.com')<br>
  html_content = page.content()<br>
  browser.close()
登录后复制

3. 解析 HTML 结构(可选)

获取 HTML 后,可用 BeautifulSoup 提取特定部分:

from bs4 import BeautifulSoup<br><br>
soup = BeautifulSoup(html_content, 'html.parser')<br>
title = soup.find('title').text
登录后复制

选择合适方法的关键点

根据实际需求决定使用哪种方式:

  • 静态页面 → Python + requests
  • JS 渲染页面 → Selenium / Playwright
  • 浏览器内脚本 → JavaScript DOM API
  • 需要提取结构化数据 → 配合 BeautifulSouplxml
基本上就这些。根据运行环境和页面类型选择对应方案即可。

以上就是脚本如何获取html_脚本(JavaScript/Python)获取HTML内容方法的详细内容,更多请关注php中文网其它相关文章!

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号