PHP:正则表达式匹配任意类型的网址
迷茫
迷茫 2017-04-10 14:50:17
[PHP讨论组]

网上找了个匹配网址的正则表达式(^http:\/\/[_a-zA-Z0-9-]+(.[_a-zA-Z0-9-]+)*$),但是有很多网址不能匹配到
比如:
网址:http://www.sz.gov.cn/cn/hdjl/zxts/dfyj/
执行结果:boolean false(意思就是这不是个网址)
求一个能匹配任意网址的正则表达式(执行效率越快越好)。
谢谢
找了一个可用的:
((http|ftp|https):\/\/)?[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?
执行效率不知道有没有更快的

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(3)
阿神

这有一个 Markdown 的作者之一写的正则表达式(原文在这)。他把这个表达式都改进了好几年了,应该比较全面而且保险:

(?i)\b((?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:\'".,<>?«»“”‘’]))

测试代码:

<?php
//注意,这里把上面的正则表达式中的单引号用反斜杠转义了,不然没法放在字符串里
$regex = '@(?i)\b((?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:\'".,<>?«»“”‘’]))@';

var_dump( preg_match($regex, 'http://segmentfault.com/q/1010000000584340') );  //true

除非涉及的数据量特别特别大,否则单单一个正则表达式还达不到影响性能的程度吧。基本不必担心效率问题的。

PHP中文网
/^((http|ftp|https):\/\/)?[\w-_.]+(\/[\w-_]+)*\/?$/

这个可以匹配你上给的网址。
其实正则怎么写,还是得看你要匹配什么样的url。

高洛峰

既然是任意類型的網址,那就無所謂協議。/[a-z]+:\/\/[a-z0-9_\-\/.%]+/i

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号