0

0

python爬虫代码示例分享

angryTom

angryTom

发布时间:2020-03-06 15:19:12

|

13443人浏览过

|

来源于php中文网

原创

这篇文章主要介绍了三个python爬虫项目实例代码,使用了urllib2库,文中示例代码非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下。

python爬虫代码示例分享

python爬虫代码示例分享

一、爬取故事段子:推荐学习:Python视频教程

注:部分代码无法正常运行,但仍有一定的参考价值。

#encoding=utf-8
import urllib2
 
import re
 
 
class neihanba():
  def spider(self):
    '''
    爬虫的主调度器
    '''
    isflow=True#判断是否进行下一页
    page=1
    while isflow:
      url="http://www.neihanpa.com/article/list_5_"+str(page)+".html"
      html=self.load(url)
      self.deal(html,page)
      panduan=raw_input("是否继续(y/n)!")
      if panduan=="y":
        isflow=True
        page+=1
      else:
        isflow=False
  def load(self,url):
    '''
    针对url地址进行全部爬去
    :param url: url地址
    :return: 返回爬去的内容
    '''
    header = {
      "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
    }
    request = urllib2.Request(url, headers=header)
    response = urllib2.urlopen(request)
    html = response.read()
    return html
  def deal(self,html,page):
    '''
    对之前爬去的内容进行正则匹配,匹配出标题和正文内容
    :param html:之前爬去的内容
    :param page: 正在爬去的页码
    '''
    parrten=re.compile('
  • (.*?)
  • ',re.S) titleList=parrten.findall(html) for title in titleList: parrten1=re.compile('(.*)') ti1=parrten1.findall(title) parrten2=re.compile('
    (.*?)
    ',re.S) til2=parrten2.findall(title) for t in ti1: tr=t.replace("","").replace("","") self.writeData(tr,page) for t in til2: tr=t.replace("

    ","").replace("

    立即学习Python免费学习笔记(深入)”;

    Content at Scale
    Content at Scale

    SEO长内容自动化创作平台

    下载
    ","").replace("
    ","").replace("
    ","").replace("&ldquo","\"").replace("&rdquo","\"") self.writeData(tr,page) def writeData(self,context,page): ''' 将最终爬去的内容写入文件中 :param context: 匹配好的内容 :param page: 当前爬去的页码数 ''' fileName = "di" + str(page) + "yehtml.txt" with open(fileName, "a") as file: file.writelines(context + "\n") if __name__ == '__main__': n=neihanba() n.spider()

    二、爬取智联:

    #encoding=utf-8
    import urllib
    import urllib2
     
    import re
     
     
    class zhiLian():
      def spider(self,position,workPlace):
        '''
        爬虫的主调度器
        :param position: 职位
        :param workPlace: 工作地点
        '''
        url="http://sou.zhaopin.com/jobs/searchresult.ashx?"
        url+=urllib.urlencode({"jl":workPlace})
        url+="&"
        url+=urllib.urlencode({"kw":position})
        isflow=True#是否进行下一页的爬去
        page=1
        while isflow:
          url+="&"+str(page)
          html=self.load(url)
          self.deal1(html,page)
          panduan = raw_input("是否继续爬虫下一页(y/n)!")
          if panduan == "y":
            isflow = True
            page += 1
          else:
            isflow = False
      def load(self,url):
        '''
        针对url地址进行全部爬去
        :param url: url地址
        :return: 返回爬去的内容
        '''
        header = {
          "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
        }
        request = urllib2.Request(url, headers=header)
        response = urllib2.urlopen(request)
        html = response.read()
        return html
      def deal1(self,html,page):
        '''
     
        对之前爬去的内容进行正则匹配,匹配职位所对应的链接
        :param html:之前爬去的内容
        :param page: 正在爬去的页码
        '''
        parrten=re.compile('.*?',re.S)
        til=parrten.findall(html)#爬去链接
        for t in til:
          self.deal2(t,page)
      def deal2(self,t,page):
        '''
        进行二次爬虫,然后在新的页面中对公司、薪资、工作经验进行匹配
        :param t: url地址
        :param page: 当前匹配的页数
        '''
        html=self.load(t)#返回二次爬虫的内容
        parrten1=re.compile('(.*?)\s+.*?@@##@@',re.S)
        parrten2=re.compile('
  • 职位月薪:(.*?) .*?
  • ',re.S) parrent3=re.compile('
  • 工作经验:(.*?)
  • ',re.S) til1=parrten1.findall(html) til2=parrten2.findall(html) til3=parrent3.findall(html) str="" for t in til1: t=t.replace('@@##@@',"") str+=t str+="\t" for t in til2: str+=t str += "\t" for t in til3: str+=t self.writeData(str,page) def writeData(self,context,page): ''' 将最终爬去的内容写入文件中 :param context: 匹配好的内容 :param page: 当前爬去的页码数 ''' fileName = "di" + str(page) + "yehtml.txt" with open(fileName, "a") as file: file.writelines(context + "\n") if __name__ == '__main__': position=raw_input("请输入职位:") workPlace=raw_input("请输入工作地点:") z=zhiLian() z.spider(position,workPlace)

    三、爬取贴吧:

    #encoding=utf-8
    import urllib
    import urllib2
     
    import re
     
     
    class teiba():
      def spider(self,name,startPage,endPage):
        url="http://tieba.baidu.com/f?ie=utf-8&"
        url+=urllib.urlencode({"kw":name})
        for page in range(startPage,endPage+1):
          pn=50*(page-1)
          urlFull=url+"&"+urllib.urlencode({"pn":pn})
          html=self.loadPage(url)
          self.dealPage(html,page)
     
      def loadPage(self,url):
        header={
          "User-Agent":" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
        }
        request=urllib2.Request(url,headers=header)
        response=urllib2.urlopen(request)
        html=response.read()
        return html
      def dealPage(self,html,page):
        partten=re.compile(r'(.*?)',re.S)
        titleList=partten.findall(html)
        rstr=r'#(.*?)#'
        for title in titleList:
          title=re.sub(rstr,"",title)
          self.writePage(title,page)
      def writePage(self,context,page):
        fileName="di"+str(page)+"yehtml.txt"
        with open(fileName,"a") as file:
          file.writelines(context+"\n")
    if __name__ == '__main__':
      name=raw_input("请输入贴吧名:")
      startPage=raw_input("请输入起始页:")
      endPage=raw_input("请输入终止页:")
      t=teiba()
      t.spider(name,int(startPage),int(endPage))

    更多相关教程,请关注Python教程栏目。

    python爬虫代码示例分享python爬虫代码示例分享

    相关文章

    python速学教程(入门到精通)
    python速学教程(入门到精通)

    python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

    下载

    相关标签:

    本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

    相关专题

    更多
    c++主流开发框架汇总
    c++主流开发框架汇总

    本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

    3

    2026.01.09

    c++框架学习教程汇总
    c++框架学习教程汇总

    本专题整合了c++框架学习教程汇总,阅读专题下面的文章了解更多详细内容。

    7

    2026.01.09

    学python好用的网站推荐
    学python好用的网站推荐

    本专题整合了python学习教程汇总,阅读专题下面的文章了解更多详细内容。

    11

    2026.01.09

    学python网站汇总
    学python网站汇总

    本专题整合了学python网站汇总,阅读专题下面的文章了解更多详细内容。

    1

    2026.01.09

    python学习网站
    python学习网站

    本专题整合了python学习相关推荐汇总,阅读专题下面的文章了解更多详细内容。

    4

    2026.01.09

    俄罗斯手机浏览器地址汇总
    俄罗斯手机浏览器地址汇总

    汇总俄罗斯Yandex手机浏览器官方网址入口,涵盖国际版与俄语版,适配移动端访问,一键直达搜索、地图、新闻等核心服务。

    9

    2026.01.09

    漫蛙稳定版地址大全
    漫蛙稳定版地址大全

    漫蛙稳定版地址大全汇总最新可用入口,包含漫蛙manwa漫画防走失官网链接,确保用户随时畅读海量正版漫画资源,建议收藏备用,避免因域名变动无法访问。

    14

    2026.01.09

    php学习网站大全
    php学习网站大全

    精选多个优质PHP入门学习网站,涵盖教程、实战与文档,适合零基础到进阶开发者,助你高效掌握PHP编程。

    2

    2026.01.09

    php网站搭建教程大全
    php网站搭建教程大全

    本合集专为零基础用户打造,涵盖PHP网站搭建全流程,从环境配置到实战开发,免费、易懂、系统化,助你快速入门建站!

    6

    2026.01.09

    热门下载

    更多
    网站特效
    /
    网站源码
    /
    网站素材
    /
    前端模板

    精品课程

    更多
    相关推荐
    /
    热门推荐
    /
    最新课程
    最新Python教程 从入门到精通
    最新Python教程 从入门到精通

    共4课时 | 0.6万人学习

    Django 教程
    Django 教程

    共28课时 | 2.9万人学习

    SciPy 教程
    SciPy 教程

    共10课时 | 1.1万人学习

    关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
    php中文网:公益在线php培训,帮助PHP学习者快速成长!
    关注服务号 技术交流群
    PHP中文网订阅号
    每天精选资源文章推送

    Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号