用php解析html的实现代码

高洛峰
发布: 2016-11-30 11:10:03
原创
1577人浏览过

最近想用php写一个爬虫,就需要解析html,在sourceforge上找到一个项目叫做php simple html dom parser,它可以以类似jquery的方式通过css选择器来返回指定的dom元素,功能十分强大。 
首先要在程序的开始引入simple_html_dom.php这个文件 
复制代码 代码如下: 
include_once('simple_html_dom.php'); 

php simple html dom parser提供了3种方式来创建dom对象 
 代码如下: 
// create a dom object from a string 
$html = str_get_html('<html><body>hello!</body></html>'); 
// create a dom object from a url 
$html = file_get_html('http://www.google.com/'); 
// create a dom object from a html file 
$html = file_get_html('test.htm'); 

得到dom对象后就可以进行各种操作了 
复制代码 代码如下: 
// find all anchors, returns a array of element objects 
$ret = $html->find('a'); 
// find (n)th anchor, returns element object or null if not found (zero based) 
$ret = $html->find('a', 0); 
// find lastest anchor, returns element object or null if not found (zero based) 
$ret = $html->find('a', -1); 
// find all <div> with the id attribute 
$ret = $html->find('div[id]'); 
// find all <div> which attribute id=foo 
$ret = $html->find('div[id=foo]'); 

这里可以使用各种css选择器,就像在jquery中进行dom操作一样,非常方便。此外,还有两个特殊的属性可以得到文本和注释的内容 
复制代码 代码如下: 
// find all text blocks 
$es = $html->find('text'); 
// find all comment (<!--...-->) blocks 
$es = $html->find('comment'); 

当然,还是类似于jquery,php simple html dom parser也支持链式操作,以及各种访问dom元素的简单方法 
复制代码 代码如下: 
// example 
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id; 
// or 
echo $html->getelementbyid("div1")->childnodes(1)->childnodes(1)->childnodes(2)->getattribute('id'); 

代码小浣熊
代码小浣熊

代码小浣熊是基于商汤大语言模型的软件智能研发助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节

代码小浣熊 51
查看详情 代码小浣熊
相关标签:
php
PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号