首页 > php教程 > PHP源码 > 正文

php判断搜索引擎蜘蛛爬虫的方法整理

php中文网
发布: 2016-06-08 17:19:36
原创
2289人浏览过

判断搜索引擎蜘蛛爬虫其实是非常的简单只要判断来源useragent然后检查有没有搜索引擎蜘蛛指定的字符串了,下面我们来看一篇关于php判断搜索引擎蜘蛛爬虫的方法,希望此教程能够帮助到大家。

<script>ec(2);</script>

先来看蜘蛛列表

 





















































搜索引擎 user-agent(包含) 是否PTR 备注
google Googlebot host ip  得到域名:googlebot.com主域名
baidu Baiduspider host ip  得到域名:*.baidu.com 或 *.baidu.jp
yahoo Yahoo! host ip  得到域名:inktomisearch.com主域名
Sogou Sogou ×
*Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
*Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
网易 YodaoBot × *Mozilla/5.0 (compatible; YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/”; )
MSN MSNBot host ip  得到域名:live.com主域名
360 360Spider × Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11)  Firefox/1.5.0.11; 360Spider
soso Sosospider × Sosospider+(+http://help.soso.com/webspider.htm)
bing bingbot host ip  得到域名:msn.com主域名

 

再来看看例子

//php判断搜索引擎蜘蛛爬虫的方法

function checkrobot($useragent='') {
    static $kw_spiders = array('bot', 'crawl', 'spider', 'slurp', 'sohu-search', 'lycos', 'robozilla');
    static $kw_browsers = array('msie', 'netscape', 'opera', 'konqueror', 'mozilla');

    $useragent = strtolower(empty($useragent) ? $_SERVER['HTTP_USER_AGENT'] : $useragent);
    if (strpos($useragent, 'http://') === false && dstrpos($useragent, $kw_browsers))
        return false;
    if (dstrpos($useragent, $kw_spiders))
        return true;
    return false;
}

function dstrpos($string, $arr, $returnvalue = false) {
    if (empty($string))
        return false;
    foreach ((array) $arr as $v) {
        if (strpos($string, $v) !== false) {
            $return = $returnvalue ? $v : true;
            return $return;
        }
    }
    return false;
}

if(checkrobot()){
    echo '蜘蛛';
}else{
    echo '人类';
}

?>

立即学习PHP免费学习笔记(深入)”;

例子

PHP反解析IP方法
/**
 *检查IP及蜘蛛真实性
 * (check_spider('66.249.74.44',$_SERVER['HTTP_USER_AGENT']));
 * @copyright  http://blog.chacuo.net
 * @author 8292669
 * @param string $ip IP地址
 * @param string $ua ua地址
 * @return false|spidername  false检测失败不在指定列表中
 */
function check_spider($ip,$ua)
{
 static $spider_list=array(
 'google'=>array('Googlebot','googlebot.com'),
 'baidu'=>array('Baiduspider','.baidu.'),
 'yahoo'=>array('Yahoo!','inktomisearch.com'),
 'msn'=>array('MSNBot','live.com'),
 'bing'=>array('bingbot','msn.com')
 );
 
 if(!preg_match('/^(\d{1,3}\.){3}\d{1,3}$/',$ip)) return false;
 if(empty($ua)) return false;
 
 foreach ($spider_list as $k=>$v)
 {
  ///如果找到了
  if(stripos($ua,$v[0])!==false)
  {
   $domain = gethostbyaddr($ip);

   if($domain && stripos($domain,$v[1])!==false)
   {
    return $k;
   }
  }
 }
 return false;
}
 

目前只加入几个搜索引擎检测,这些是可以做反解析查询的。不能做反解析查询的,最好做速度限制,用户会使用它们来伪造搜索引擎来抓取你的资源

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号