Java中如何解析HTML 掌握Jsoup库使用

穿越時空

发布时间：2025-06-26 09:49:02

860人浏览过

来源于php中文网

原创

1.使用jsoup.parse()方法解析html字符串、url或文件，获取document对象；2.利用select()方法结合css选择器精准提取元素；3.通过指定字符编码、设置超时时间避免解析错误；4.采用流式解析、异步处理优化大型文档性能。例如从字符串解析：document doc = jsoup.parse(html)；选择class为"news"的div元素用div.news选择器；处理乱码需明确指定字符集如jsoup.parse(html, "utf-8")；解析大型文档时可使用jsoup.parsebodyfragment()减少内存消耗。

Java中如何解析HTML 掌握Jsoup库使用

Java中解析HTML，核心在于选择合适的解析工具，并掌握其使用方法。Jsoup是一个非常流行的选择，因为它简单易用，功能强大。

Jsoup库使用

Jsoup的核心在于Jsoup.parse()方法，它可以将HTML字符串、URL或文件解析成一个Document对象，这个对象代表了整个HTML文档的结构。

立即学习“Java免费学习笔记（深入）”；

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class JsoupExample {

    public static void main(String[] args) throws IOException {
        // 从字符串解析HTML
        String html = "Example"
                + "Parsed HTML into a doc.";
        Document doc = Jsoup.parse(html);
        System.out.println(doc.title()); // 输出: Example

        // 从URL解析HTML
        Document doc2 = Jsoup.connect("https://www.example.com").get();
        System.out.println(doc2.title()); // 输出: Example Domain

        // 选择元素
        Elements paragraphs = doc2.select("p");
        for (Element p : paragraphs) {
            System.out.println(p.text());
        }
    }
}

这段代码演示了如何使用Jsoup从字符串和URL解析HTML，并选择特定的元素。select()方法使用CSS选择器来查找元素，非常灵活。

如何处理复杂的HTML结构？

复杂的HTML结构往往嵌套很深，而且可能包含大量的属性和样式。Jsoup提供了强大的选择器功能，可以根据标签名、ID、class、属性等多种条件来选择元素。

// 选择所有class为"news"的div元素
Elements newsDivs = doc.select("div.news");

// 选择id为"article"的元素
Element article = doc.getElementById("article");

// 选择所有包含href属性的a元素
Elements links = doc.select("a[href]");

// 遍历链接并获取href属性
for (Element link : links) {
    String url = link.attr("href");
    System.out.println(url);
}

此外，还可以使用组合选择器来选择更复杂的元素。例如，div.news > p 选择所有class为"news"的div元素的直接子元素p。

Jsoup的另一个优点是它能够处理不规范的HTML。即使HTML代码存在错误，Jsoup也能尽可能地解析它，并生成一个有效的Document对象。当然，在处理非常糟糕的HTML时，可能需要进行一些额外的清理工作。

如何避免常见的HTML解析错误？

微信 WeLM

WeLM不是一个直接的对话机器人，而是一个补全用户输入信息的生成模型。

下载

一个常见的问题是字符编码问题。如果HTML文档的字符编码与Java程序的默认编码不一致，可能会导致乱码。解决方法是在解析HTML时指定字符编码。

Document doc = Jsoup.parse(html, "UTF-8"); // 指定字符编码为UTF-8

// 或者从URL获取HTML时
Document doc2 = Jsoup.connect("https://www.example.com")
                     .header("Content-Type", "text/html; charset=UTF-8")
                     .get();

另一个常见的问题是网络连接超时。如果从URL解析HTML时，网络连接不稳定或者服务器响应慢，可能会导致连接超时。解决方法是设置连接超时时间。

Document doc = Jsoup.connect("https://www.example.com")
                     .timeout(5000) // 设置连接超时时间为5秒
                     .get();

此外，还要注意处理异常。Jsoup的connect()方法可能会抛出IOException，需要使用try-catch块来捕获和处理。

性能优化：如何高效解析大型HTML文档？

解析大型HTML文档可能会消耗大量的内存和CPU资源。为了提高性能，可以考虑以下几个方面：

使用流式解析： Jsoup提供了Jsoup.parseBodyFragment()方法，可以解析HTML片段，而不是整个文档。这可以减少内存消耗。
只选择需要的元素： 避免选择整个文档，而是只选择需要的元素。这可以减少CPU消耗。
使用缓存： 如果需要多次解析同一个HTML文档，可以使用缓存来避免重复解析。
异步解析： 将HTML解析任务放在后台线程中执行，避免阻塞主线程。

总的来说，Jsoup是一个功能强大且易于使用的HTML解析库。通过掌握其基本用法和高级技巧，可以轻松地解析各种HTML文档，并提取所需的信息。

如何在数据输入中强制要求特定结尾字符串并实现循环验证

如何将 JSON 对象正确绑定到遵循驼峰命名规范的 Java POJO

如何在 Selenium Java 中校验表格列位置（从右向左计数）

如何在 Selenium Java 中校验表格列位置（从右数第 N 列）

如何在 JPA 原生查询中正确处理 Oracle 的日期字段格式

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：反射调用Method.invoke()为何需要处理InvocationTargetException？下一篇：Java中AIO是什么概念详解异步IO的工作原理和实现方式

作者最新文章

电脑默认浏览器被篡改锁定怎么办？Windows 11/10默认浏览器设置修复

2026-01-15 17:30

composer如何将项目迁移到另一台服务器_composer依赖迁移详细步骤【教程】

2026-01-15 17:31

MAC怎么查看实时网速流量_MAC活动监视器使用与第三方状态栏工具【教程】

2026-01-15 17:34

Windows如何离线安装.NET Framework 3.5？（运行旧版程序必备）

2026-01-15 17:38

Windows如何更改默认的程序打开方式？（按文件类型指定默认应用）

2026-01-15 17:44

如何为你的Composer脚本添加自定义的超时配置？ (process-timeout)

2026-01-15 17:56

Win11怎么关闭自动亮度调节_Win11屏幕亮度手动锁定方法【教程】

2026-01-15 18:11

电脑浏览器启动太慢怎么办？一键加速浏览器打开速度【优化教程】

2026-01-15 18:13

Win11怎么设置双显示器_Win11多屏扩展配置教程【实用】

2026-01-15 18:19

Win11怎么关闭Windows聚焦每日壁纸_Win11锁屏图片固定为本地文件方法【教程】

2026-01-15 18:51

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

java

Java是一个通用术语，用于表示Java软件及其组件，包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

832

2023.06.15

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

738

2023.07.05

java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言，有着较为简洁和易读的语法，本专题为大家提供java自学难吗相关的文章，大家可以免费体验。

734

2023.07.31

java配置jdk环境变量

Java是一种广泛使用的高级编程语言，用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码，需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

397

2023.08.01

java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中，保留两位小数是指在进行数值计算或输出时，限制小数部分只有两位有效数字，并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

398

2023.08.02

java基本数据类型

java基本数据类型有：1、byte；2、short；3、int；4、long；5、float；6、double；7、char；8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容，供大家免费下载体验。

446

2023.08.02

java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容，供大家免费下载体验。

430

2023.08.02

java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来，随着Java语言在软件开发领域的广泛应用，越来越多的人对Java编程感兴趣，并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章，欢迎大家前来学习阅读和下载。

16926

2023.08.03

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板