
本文档详细介绍了如何使用PHP的DOMXPath解析HTML文档,并将特定的无序列表(
- )结构转换为多维数组。我们将通过示例代码,逐步讲解如何使用XPath查询和提取数据,并最终生成所需的JSON格式输出。该方法适用于从HTML中提取结构化数据,并进行进一步处理的场景。
解析HTML并使用XPath提取数据
首先,我们需要加载HTML字符串并创建一个DOMXPath对象。为了更有效地处理HTML,特别是包含大量空白的HTML,我们可以自定义一个函数 loadHTML_noemptywhitespace(),该函数会移除HTML中的多余空白节点,从而简化后续的XPath查询。
function loadHTML_noemptywhitespace(string $html, int $extra_flags = 0, int $exclude_flags = 0): \DOMDocument
{
$flags = LIBXML_HTML_NODEFDTD | LIBXML_NOBLANKS | LIBXML_NONET;
$flags = ($flags & ~ $exclude_flags) | $extra_flags;
$domd = new \DOMDocument();
$domd->preserveWhiteSpace = false;
@$domd->loadHTML('' . $html, $flags);
$removeAnnoyingWhitespaceTextNodes = function (\DOMNode $node) use (&$removeAnnoyingWhitespaceTextNodes): void {
if ($node->hasChildNodes()) {
for ($i = $node->childNodes->length - 1; $i >= 0; --$i) {
$removeAnnoyingWhitespaceTextNodes($node->childNodes->item($i));
}
}
if ($node->nodeType === XML_TEXT_NODE && !$node->hasChildNodes() && !$node->hasAttributes() && ! strlen(trim($node->textContent))) {
$node->parentNode->removeChild($node);
}
};
$removeAnnoyingWhitespaceTextNodes($domd);
return $domd;
}
$html = <<
- Status: Objeto em trânsito - por favor aguarde
- Data : 24/10/2021 | Hora: 12:04
- Origem: Unidade de Tratamento - Jaboatao Dos Guararapes / PE
- Destino: Agência dos Correios - Cuitegi / PB
- Status: Objeto em trânsito - por favor aguarde
- Data : 19/10/2021 | Hora: 00:03
- Origem: Unidade de Logística Integrada - Curitiba / PR
- Destino: Unidade de Tratamento - Recife / PE
- Status: Fiscalização aduaneira finalizada
- Data : 18/10/2021 | Hora: 23:35
- Local: Unidade Operacional - Curitiba / PR
- Status: Objeto recebido pelos Correios do Brasil
- Data : 16/10/2021 | Hora: 11:45
- Local: Unidade de Logística Integrada - Curitiba / PR
- Status: Objeto postado
- Data : 14/10/2021 | Hora: 20:30
- Local: País - /











