微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Python教程 > 正文

Python使用urllib2模块抓取HTML页面资源的实例分享

php中文网

发布： 2016-06-10 15:05:05

原创

1254人浏览过

先把要抓取的网络地址列在单独的list文件中

http://www.jb51.net/article/83440.html
http://www.jb51.net/article/83437.html
http://www.jb51.net/article/83430.html
http://www.jb51.net/article/83449.html

登录后复制

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '&#63;' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

登录后复制

雾象

WaytoAGI推出的AI动画生成引擎

1313

原文网址为：http://www.diyoms.com/python/1806.html

相关标签：

python html

大家都在看：

Python 大文件分片上传的处理方法 Python 断点续传的文件处理方法 python如何在列表末尾添加元素？ Python 将文件内容读取为字符串的方法 python根据键值(value)返回键(key)

python速学教程(入门到精通)

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

来源：php中文网

上一篇：Python实现简单字典树的方法下一篇：Python实现新浪博客备份的方法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

Counter在python中两种用法 Counter有两种主要用法：一是统计可迭代对象中元素的出现次数，如列表或字符串，自动返回元素频次；二是通过字典或关键字参数手动初始化，适用于已知元素数量的情况。

2025-11-24 00:55:23

858

Python MemoryError 内存溢出的原因与解决方法 MemoryError是因程序内存超限所致，常见于大数据加载、无限增长结构、深递归、内存泄漏及多进程数据复制；解决方法包括：逐行读取文件、使用生成器、分块处理Pandas数据、及时释放对象并调用gc.collect()、采用内存映射、优化数据类型与结构，并通过tracemalloc等工具监控内存usage。

2025-11-23 23:49:12

976

python中upper函数的用法是什么？ upper()函数用于将字符串中的小写字母转为大写，返回新字符串而不改变原字符串。语法为字符串.upper()，无需参数。例如："hello".upper()得"HELLO"，"HelloWorld".upper()得"HELLOWORLD"，"hello123!".upper()得"HELLO123!"。常用于忽略大小写的比较、用户输入处理、数据标准化和条件判断等场景，是一种简单实用的字符串处理方法。

2025-11-23 23:46:02

330

Python中Selenium库如何调用浏览器？首先安装Selenium库并下载对应浏览器驱动，1.使用pipinstallselenium安装库；2.下载匹配的ChromeDriver、geckodriver或EdgeWebDriver；3.将驱动加入PATH或代码中指定路径；4.通过webdriver.Chrome()等创建实例；5.调用driver.get()打开网页；6.操作完成后执行driver.quit()关闭浏览器释放资源。

2025-11-23 23:38:02

939

Python中vlookup函数功能是什么? 使用pandas的merge或map可实现类似Excel中vlookup的功能。1.merge用于多列匹配，通过on指定键合并数据；2.map适用于一对一映射，利用字典将键值对应到新列。需确保键类型一致以保证匹配成功。

2025-11-23 23:38:02

511

Python 大文件分片上传的处理方法大文件分片上传通过切块避免内存溢出，客户端逐片上传并携带元数据，服务端按序合并；核心是生成器读取、分片传输与完整校验，支持断点续传和进度跟踪，确保GB级文件稳定上传。

2025-11-23 23:31:02

843

Python 输出函数 print() 的格式化技巧 Python中print()函数结合格式化可提升输出可读性，推荐使用f-string（如f"姓名：{name}"），支持表达式；也可用.format()方法或旧式%格式化，配合sep、end参数控制分隔与结尾，结合\t、\n等优化布局。

2025-11-23 23:30:06

384

Python 断点续传的文件处理方法断点续传通过记录已下载字节数、使用HTTPRange请求和文件追加写入实现，结合状态管理和完整性校验可确保大文件传输的可靠性与效率。

2025-11-23 23:29:08

702

python如何在列表末尾添加元素？最常用方法是append()，用于添加单个元素；extend()或+=可批量添加多个元素，均直接修改原列表。示例：my_list=[1,2,3]；使用append(4)得[1,2,3,4]；extend([4,5])或+=[4,5]得[1,2,3,4,5]。

2025-11-23 23:29:02

589

Python 将文件内容读取为字符串的方法使用open()或pathlib读取文件为字符串，小文件可用read()或Path.read_text()，大文件建议分块读取以避免内存溢出。

2025-11-23 23:27:06

210

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Django 教程

16711次学习
收藏
SciPy 教程

6338次学习
收藏
Pandas 教程

7411次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部