首页 > Java > java教程 > 正文

使用 Jsoup 解析特定菜单组中的元素

花韻仙語
发布: 2025-08-03 18:32:16
原创
177人浏览过

使用 jsoup 解析特定菜单组中的元素

本文档旨在指导开发者如何使用 Jsoup 库从 HTML 页面中提取特定菜单组下的元素,尤其是在页面结构复杂,包含多个相似的卡片式结构时。通过精确定位目标菜单组,并利用其唯一的标识符,我们可以有效地提取所需的数据,避免抓取整个页面的信息。

目标

假设我们需要从一个包含多个菜单组的网页中,仅提取特定菜单组(例如 "Freshen's")下的所有 row recipe_container div 元素。网页结构如下:

<div class="row">
  <div class="col-12">
    <form action="nutritiveReport.aspx?locationNum=09&dtdate=11%2f01%2f2022" method="post" id="full_menu_form">
      <input type="hidden" name="Action" id="action_indicator" value>
      <div id="full_menu">
        <ul class="nav nav-tabs responsive" id="full_menu_tabs" role="tablist">...</ul>
        <div class="tab-content responsive" id="full_menu_content">
          <div class="tab-pane fade active show" id="meal_1_content" role="tabpanel" aria-labelledby="meal_1_tab">
            <div class="card">
              <div class="card-header" id="menu_group_heading_1">
                <h5 class="mb-0">
                  <a class="btn btn-link" data-toggle="collapse" data-target="#menu_group_content_1"
                    aria-expanded="true" aria-controls="menu_group_content_1">
                    " Freshen's "
                  </a>
                </h5>
              </div>
              <div id="menu_group_content_1" class="collapse show" aria-labelledby="menu_group_heading_1" style>
                <div class="card-body">
                  <div class="row recipe_container">...</div>
                  <div class="row recipe_container">...</div>
                  <div class="row recipe_container">...</div>
                  <div class="row recipe_container">...</div>
                  <div class="row recipe_container">...</div>
                  <div class="row recipe_container">...</div>
                </div>
              </div>
            </div>
          </div>
        </div>
      </div>
    </form>
  </div>
</div>
登录后复制

解决方案

以下是使用 Jsoup 实现此目标的 Java 代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class JsoupMenuScraper {

    public static void main(String[] args) throws IOException {
        String pageUrl = "your_page_url_here"; // 替换为你的网页URL
        String inputMenuHeading = "Freshen's";

        // 1. 连接到网页并解析 HTML
        Document doc = Jsoup.connect(pageUrl).get();

        // 2. 找到包含目标菜单标题的 card-header 元素,并提取 data-target 属性
        String targetId = doc.select("[class=card-header][id*=menu_group_heading]")
                .stream()
                .filter(e -> e.html().contains(inputMenuHeading))
                .findFirst()
                .map(e -> e.select("a").attr("data-target"))
                .orElse(null);

        // 3. 如果找到了目标 ID,则选择目标菜单组下的所有 row recipe_container 元素
        if (targetId != null && !targetId.isEmpty()) {
            Elements result = doc.select(String.format("%s .card-body .row.recipe_container", targetId));

            // 4. 打印结果或进行其他处理
            System.out.println("Found " + result.size() + " recipe containers for " + inputMenuHeading + ":");
            for (Element element : result) {
                System.out.println(element.outerHtml()); // 打印整个元素
                // 或者提取特定数据
                // System.out.println(element.text()); // 打印文本内容
            }
        } else {
            System.out.println("Menu heading '" + inputMenuHeading + "' not found.");
        }
    }
}
登录后复制

代码解释:

英特尔AI工具
英特尔AI工具

英特尔AI与机器学习解决方案

英特尔AI工具 70
查看详情 英特尔AI工具
  1. 连接并解析 HTML: 使用 Jsoup.connect(pageUrl).get() 连接到目标网页并将其解析为 Document 对象。
  2. 查找目标菜单标题:
    • doc.select("[class=card-header][id*=menu_group_heading]") 选择所有 class 为 card-header 且 id 包含 menu_group_heading 的元素。
    • .stream().filter(e -> e.html().contains(inputMenuHeading)) 过滤出包含指定菜单标题的元素。
    • .findFirst().map(e -> e.select("a").attr("data-target")) 获取第一个匹配元素的 a 标签的 data-target 属性值。
    • .orElse(null) 如果没有找到匹配的元素,则返回 null。
  3. 选择目标元素:
    • doc.select(String.format("%s .card-body .row.recipe_container", targetId)) 使用 targetId 构建 CSS 选择器,选择指定 ID 下的 card-body 元素内部的所有 class 同时包含 row 和 recipe_container 的元素。
  4. 打印结果: 遍历 result 集合,打印每个元素的 HTML 或提取所需的数据。

注意事项:

  • URL 替换: 将 your_page_url_here 替换为实际的网页 URL。
  • 异常处理: 在实际应用中,需要添加适当的异常处理,例如 try-catch 块,以处理网络连接错误或 HTML 解析错误。
  • CSS 选择器: 根据实际网页结构调整 CSS 选择器。
  • orElse(null): 确保在找不到目标菜单标题时,程序不会抛出 NoSuchElementException 异常。
  • 数据提取: element.outerHtml() 打印整个元素的 HTML,你可以使用其他 Jsoup 方法(如 element.text()、element.attr("属性名"))提取特定的数据。
  • 网页结构变化: 网页结构可能会发生变化,需要定期检查并更新代码。

总结

通过使用 Jsoup 的强大选择器和灵活的 API,我们可以轻松地从复杂的 HTML 页面中提取所需的数据。 本教程展示了如何通过定位特定菜单组,并利用其唯一的标识符,提取该组下的所有相关元素。 在实际应用中,需要根据具体的网页结构进行适当的调整和优化。

以上就是使用 Jsoup 解析特定菜单组中的元素的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号