jsoup解析html

舞夢輝影

发布时间：2025-11-16 20:58:02

1033人浏览过

来源于php中文网

原创

jsoup是Java中解析HTML的常用工具，提供类似CSS选择器的API，支持从字符串或URL加载页面，可提取元素、属性和文本。它适用于静态网页抓取，但无法执行JavaScript，对动态内容需结合其他工具或调用接口，并需注意遵守网站规则与设置合理请求参数。

jsoup解析html

使用 jsoup 解析 HTML 是 Java 开发中处理网页内容的常用方式。它提供了非常简洁的 API 来提取和操作 HTML 数据，支持类似 CSS 选择器的语法，还能处理不规范的 HTML 结构。

1. 引入 jsoup 依赖

如果你使用 Maven，在 pom.xml 中添加以下依赖：


    org.jsoup
    jsoup
    1.16.1

Gradle 用户则在 build.gradle 添加：

implementation 'org.jsoup:jsoup:1.16.1'

2. 从字符串或 URL 加载 HTML

jsoup 可以直接解析 HTML 字符串，也可以从网络加载页面。

立即学习“前端免费学习笔记（深入）”；

从 URL 加载：

Document doc = Jsoup.connect("https://example.com").get();
String title = doc.title();

设置请求参数（如超时、User-Agent）：

Document doc = Jsoup.connect("https://example.com")
        .userAgent("Mozilla/5.0")
        .timeout(3000)
        .get();

解析本地 HTML 字符串：

Memories.ai

专注于视频解析的AI视觉记忆模型

下载

String html = "Hello jsoup!";
Document doc = Jsoup.parse(html);

3. 使用选择器提取元素

jsoup 支持类似 CSS 选择器的方式查找元素。

获取标题： doc.title()
通过标签名获取： doc.select("p")
通过 class 获取： doc.select(".content")
通过 id 获取： doc.select("#header")
组合选择器： doc.select("div.content p")
获取属性值： element.attr("href")
获取文本内容： element.text()

示例：提取所有链接的文本和地址

Elements links = doc.select("a[href]");
for (Element link : links) {
    System.out.println("Text: " + link.text());
    System.out.println("URL: " + link.attr("href"));
}

4. 处理动态内容与注意事项

jsoup 是基于静态 HTML 解析的，无法执行 JavaScript。如果目标页面内容由 AJAX 动态加载，直接用 jsoup 可能拿不到完整数据。

应对方法：

查看是否可通过 API 接口获取数据（如 JSON）
结合 Selenium 或 HtmlUnit 模拟浏览器行为
分析网络请求，模拟获取真实数据接口

另外注意遵守网站的 robots.txt 和服务条款，避免高频请求。

基本上就这些。jsoup 上手快，适合抓取静态网页内容，写爬虫或做内容提取都很方便。关键在于熟悉选择器语法和文档结构遍历方式。不复杂但容易忽略细节，比如编码、超时设置等。

WooCommerce页面特定元素隐藏指南：PHP与CSS条件判断

WooCommerce特定页面元素条件隐藏指南

解决PHP会话Cookie跨域或源不匹配导致不持久化问题

PHP与JavaScript Fetch POST请求数据交互指南

解决PHP会话Cookie在跨域请求中不保留的问题

相关标签:

php java css javascript html js json ajax 编码浏览器工具爬虫 Java JavaScript json css ajax html maven select xml 字符串接口 class href 选择器 gradle

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：JS深浅拷贝实现_对象复制技巧对比下一篇：JavaScript与Spring缓存Evict配合使用的实现方法

作者最新文章

签证和护照有什么区别

2026-01-02 08:38

抖音赚钱任务入口在哪

2026-01-02 08:45

无人机驾驶证就业方向及前景

2026-01-02 09:41

Linux日志收集项目教程_FilebeatLogstashELK整合实践

2026-01-02 10:13

Python文件系统监控工具_变更解析【教程】

2026-01-02 10:23

photoshop修改图片中物体形状_photoshop变形物体形状详细方法

2026-01-02 10:26

坐飞机的流程详细步骤

2026-01-02 11:17

Linux系统维护周期管理_持续优化思路说明【指导】

2026-01-02 12:02

Linux日志分析项目教程_ELK日志可视化与告警配置

2026-01-02 12:54

小红书网页版怎么编辑资料

2026-01-02 14:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

java

Java是一个通用术语，用于表示Java软件及其组件，包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

826

2023.06.15

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

727

2023.07.05

java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言，有着较为简洁和易读的语法，本专题为大家提供java自学难吗相关的文章，大家可以免费体验。

732

2023.07.31

java配置jdk环境变量

Java是一种广泛使用的高级编程语言，用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码，需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

396

2023.08.01

java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中，保留两位小数是指在进行数值计算或输出时，限制小数部分只有两位有效数字，并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

398

2023.08.02

java基本数据类型

java基本数据类型有：1、byte；2、short；3、int；4、long；5、float；6、double；7、char；8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容，供大家免费下载体验。

445

2023.08.02

java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容，供大家免费下载体验。

429

2023.08.02

java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来，随着Java语言在软件开发领域的广泛应用，越来越多的人对Java编程感兴趣，并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章，欢迎大家前来学习阅读和下载。

16884

2023.08.03

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

177

2025.12.31

热门下载

网站特效

网站源码

网站素材

前端模板