php抓取网站图片的程序

php中文网
发布: 2016-06-20 13:03:40
原创
1258人浏览过

此程序实现了网页源代码捕获,图片链接获取、分析、并将同样的图片链接合并功能,实现了图片抓取功能。

利用php强大的网络内容处理函数将指定的网站上的所有图片抓取下来,保存在当前目录下,以下为代码:

<p><?php</p>/*完成网页内容捕获功能*/<br />function get_img_url($site_name){<br />    $site_fd = fopen($site_name, "r");<br />    $site_content = "";<br />    while (!feof($site_fd)) {<br />        $site_content .= fread($site_fd, 1024);<br />    }<br />   /*利用正则表达式得到图片链接*/<br />    $reg_tag = '/<img .*?\"([^\"]*(jpg|bmp|jpeg|gif)).*? alt="php抓取网站图片的程序" >/';<br />    $ret = preg_match_all($reg_tag, $site_content, $match_result);<br />    fclose($site_fd);<br />    return $match_result[1];<br />}<br /><br />/* 对图片链接进行修正 */<br />function revise_site($site_list, $base_site){<br />    foreach($site_list as $site_item) {<br />        if (preg_match('/^http/', $site_item)) {<br />            $return_list[] = $site_item;<br />        }else{<br />            $return_list[] = $base_site."/".$site_item;<br />    }<br />    }<br />    return $return_list;<br />}<br /><br />/*得到图片名字,并将其保存在指定位置*/<br />function get_pic_file($pic_url_array, $pos){<br />    $reg_tag = '/.*\/(.*?)$/';<br />    $count = 0;<br />    foreach($pic_url_array as $pic_item){<br />        $ret = preg_match_all($reg_tag,$pic_item,$t_pic_name);<br />        $pic_name = $pos.$t_pic_name[1][0];<br />        $pic_url = $pic_item;<br />    print("Downloading ".$pic_url." ");<br />        $img_read_fd = fopen($pic_url,"r");<br />        $img_write_fd = fopen($pic_name,"w");<br />        $img_content = "";<br />        while(!feof($img_read_fd)){<br />            $img_content .= fread($img_read_fd,1024);<br />          <br />        }<br />        fwrite($img_write_fd,$img_content);<br />        fclose($img_read_fd);<br />        fclose($img_write_fd);<br />        print("[OK] ");<br />    }<br />    return 0;<br />}<br /><br />function main(){<br />/* 待抓取图片的网页地址 */<br />    $site_name = "http://image.cn.yahoo.com";<br />    $img_url = get_img_url($site_name);<br />    $img_url_revised = revise_site($img_url, $site_name);<br />    $img_url_unique = array_unique($img_url_revised); //unique array<br />    get_pic_file($img_url_unique,"./"); <br />}<br /><br />main();<br /><p>?></p>
                    <div class="aritcle_card">
                        <a class="aritcle_card_img" href="/ai/1146">
                            <img src="https://img.php.cn/upload/ai_manual/000/000/000/175680088775482.png" alt="存了个图">
                        </a>
                        <div class="aritcle_card_info">
                            <a href="/ai/1146">存了个图</a>
                            <p>视频图片解析/字幕/剪辑,视频高清保存/图片源图提取</p>
                            <div class="">
                                <img src="/static/images/card_xiazai.png" alt="存了个图">
                                <span>17</span>
                            </div>
                        </div>
                        <a href="/ai/1146" class="aritcle_card_btn">
                            <span>查看详情</span>
                            <img src="/static/images/cardxiayige-3.png" alt="存了个图">
                        </a>
                    </div>
                <p><span>立即学习</span>“<a href="https://pan.quark.cn/s/7fc7563c4182"   style="max-width:90%" rel="nofollow" target="_blank">PHP免费学习笔记(深入)</a>”;</p>
登录后复制

此程序还有待完善的地方是,如果图片在网站服务器上不同目录下但文件名是相同的,此时图片有可能是不一样的,但在最后保存时,后面得到的图片会将前面已经保存的图片覆盖掉,如在http://example.com/网站上有图片链接http://example.com/pic/test1.jpg和http://example.com/pic/new/test1.jpg那么在下载时这两张图片只有一张保存,另一张就被覆盖掉,修正的方法是在每次保存前先检索当前目录下是否已有此文件名,有的话对将要保存的图片重新命名即可。


PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号