python - 网页title中包含换行,如何用正则表达式提取出来?
女神的闺蜜爱上我
女神的闺蜜爱上我 2017-06-22 11:51:43
[Python讨论组]

在用python做CSDN的网页爬虫,在爬取网页title时,我一直用的正则表达式(?<=\<title\>).+?(?=\<)在CSDN中用不了了,去CSDN源码一看,title换行显示了

所以导致原来的正则表达式无法使用,那么,问题来了,像这样网页title中包含换行,如何用正则表达式提取出来呢?

PS:

  1. 不想用xpath或beautifulsoup的方法,只需要正则哦

  2. CSDN本身有反爬虫机制,我并不是因为这个反爬虫而爬不到title的哦

谢谢大家

参照@caimaoy 的方法,我将正则表达式改为 (?<=\<title\>)(?:.|\n)+?(?=\<)后,title完美提取。
再次感谢大家。

女神的闺蜜爱上我
女神的闺蜜爱上我

全部回复(2)
仅有的幸福
  1. re.M 多行模式

  2. 自己写多行匹配 http://python3-cookbook.readt...

曾经蜡笔没有小新

表达式那边加个flag

tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号