
本文档旨在指导开发者如何使用 Jsoup 库从 HTML 页面中提取特定菜单组下的元素,尤其是在页面结构复杂,包含多个相似的卡片式结构时。通过精确定位目标菜单组,并利用其唯一的标识符,我们可以有效地提取所需的数据,避免抓取整个页面的信息。
假设我们需要从一个包含多个菜单组的网页中,仅提取特定菜单组(例如 "Freshen's")下的所有 row recipe_container div 元素。网页结构如下:
<div class="row">
<div class="col-12">
<form action="nutritiveReport.aspx?locationNum=09&dtdate=11%2f01%2f2022" method="post" id="full_menu_form">
<input type="hidden" name="Action" id="action_indicator" value>
<div id="full_menu">
<ul class="nav nav-tabs responsive" id="full_menu_tabs" role="tablist">...</ul>
<div class="tab-content responsive" id="full_menu_content">
<div class="tab-pane fade active show" id="meal_1_content" role="tabpanel" aria-labelledby="meal_1_tab">
<div class="card">
<div class="card-header" id="menu_group_heading_1">
<h5 class="mb-0">
<a class="btn btn-link" data-toggle="collapse" data-target="#menu_group_content_1"
aria-expanded="true" aria-controls="menu_group_content_1">
" Freshen's "
</a>
</h5>
</div>
<div id="menu_group_content_1" class="collapse show" aria-labelledby="menu_group_heading_1" style>
<div class="card-body">
<div class="row recipe_container">...</div>
<div class="row recipe_container">...</div>
<div class="row recipe_container">...</div>
<div class="row recipe_container">...</div>
<div class="row recipe_container">...</div>
<div class="row recipe_container">...</div>
</div>
</div>
</div>
</div>
</div>
</div>
</form>
</div>
</div>以下是使用 Jsoup 实现此目标的 Java 代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class JsoupMenuScraper {
public static void main(String[] args) throws IOException {
String pageUrl = "your_page_url_here"; // 替换为你的网页URL
String inputMenuHeading = "Freshen's";
// 1. 连接到网页并解析 HTML
Document doc = Jsoup.connect(pageUrl).get();
// 2. 找到包含目标菜单标题的 card-header 元素,并提取 data-target 属性
String targetId = doc.select("[class=card-header][id*=menu_group_heading]")
.stream()
.filter(e -> e.html().contains(inputMenuHeading))
.findFirst()
.map(e -> e.select("a").attr("data-target"))
.orElse(null);
// 3. 如果找到了目标 ID,则选择目标菜单组下的所有 row recipe_container 元素
if (targetId != null && !targetId.isEmpty()) {
Elements result = doc.select(String.format("%s .card-body .row.recipe_container", targetId));
// 4. 打印结果或进行其他处理
System.out.println("Found " + result.size() + " recipe containers for " + inputMenuHeading + ":");
for (Element element : result) {
System.out.println(element.outerHtml()); // 打印整个元素
// 或者提取特定数据
// System.out.println(element.text()); // 打印文本内容
}
} else {
System.out.println("Menu heading '" + inputMenuHeading + "' not found.");
}
}
}代码解释:
注意事项:
通过使用 Jsoup 的强大选择器和灵活的 API,我们可以轻松地从复杂的 HTML 页面中提取所需的数据。 本教程展示了如何通过定位特定菜单组,并利用其唯一的标识符,提取该组下的所有相关元素。 在实际应用中,需要根据具体的网页结构进行适当的调整和优化。
以上就是使用 Jsoup 解析特定菜单组中的元素的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号