python - urljoin 处理正则匹配结果时的错误
ringa_lee
ringa_lee 2017-04-17 17:19:39
[Python讨论组]
ringa_lee
ringa_lee

ringa_lee

全部回复(1)
PHP中文网

不知道为什么直接引用匹配组作为urljoin的参数不行,但是在匿名函数内调用urljoin并将匹配组传入urljoin是可以的,如下:

import re
from urlparse import urljoin

pageUrl = 'http://exapmple.com/a/b/c.htm'
itemContent = '<p>\n<a HrEf="/slash.html">slash</a>\n<a HrEf="1.html">page</a>\n<a hrEF="./2.html">1dot</a>\n<a hrEF="../3.html">2dots</a>\n<a hrEF="www.baidu.com/2.html">host</a>\n<a hrEF="http://www.baidu.com/index.html">fullurl</a>\n</p>'
p = re.compile('href=[\'"](?P<url>(?!(https?://)).*?)[\'"]', re.I)
print p.sub(lambda x: 'href="' + urljoin(pageUrl, x.group(1)) + '"', itemContent)
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号