扫码关注官方订阅号
有没有什么命令可以做这样一件事 把access log里的ip统计出来,每个ip的数量,然后按照数量倒序排列
学习是最好的投资!
以下的方式速度都会卡在sort上面,数量越多越麻烦。 Shell方法:
grep -i -o -E -r -e "([0-9]{1,3}\.){3}[0-9]{1,3}" access.log | sort -n | uniq -c | sort -n
awk方法: 如果是accesslog 格式应该是固定的 会简单些。因为awk做排序也比较的郁闷,所以暂时用sort吧。
awk '{if ($1 ~ /[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+/){ip[$1]++}}END{for(i in ip){print ip[i],"\t",i}}' | sort -n
如果是无序的没有规律的格查找ip,可以参考下面这段代码,可能还有需要优化的地方,像正则就不能够这样写。
/[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+/{ s = $0; idx = 1; for (;;) {idx = match(s, /[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+/, a); if (idx == 0) {break;} seg[a[0]]++; s = substr(s, idx + 1);} } END { for (i in seg) { print i"\t"seg[i]; } }
Notice:对于量小的log以上的方法都可以,但是涉及到真的大的log,就会需要考虑其它的方式了。
1、首先注意在日志文件中,可能会出现包含了 访问源的IP地址和目标IP地址,应注意需要统计的是前者或者后者,排除掉不需要统计的地址。 以统计的IP地址在第1列为例: awk '{print $1}' web.log 2、下面以apache的访问日志为例: awk '{print $1}' web.log | grep -E "([0-9]{1,3}\.){3}[0-9]{1,3}" | sort | uniq -c | sort -g
1 192.168.10.15 1 192.168.1.129 1 192.168.1.19 3 192.168.1.29 4 192.168.1.139 6 192.168.10.5 7 192.168.1.9 29 192.168.1.119 3、如果是access.log 的格式,IP地址是固定在某列,用Awk的数组,速度是最快的: awk '{aaa[$1]++;} END{for(i in aaa) { printf("%s\t%s\n", aaa[i], i); }}' ./access.log | sort -bn
https://speakerdeck.com/mitsuhiko/pyt...
这个slide里提供了一个高性能的统计文件中特定字符串出现次数并排序输出的python脚本。强烈推荐。
哪个程序的access log?format是什么?
这个应该还是需要一点简单的程序吧,用python什么的,几行就够了。
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
扫描下载App
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
以下的方式速度都会卡在sort上面,数量越多越麻烦。
Shell方法:
awk方法:
如果是accesslog 格式应该是固定的 会简单些。因为awk做排序也比较的郁闷,所以暂时用sort吧。
如果是无序的没有规律的格查找ip,可以参考下面这段代码,可能还有需要优化的地方,像正则就不能够这样写。
Notice:对于量小的log以上的方法都可以,但是涉及到真的大的log,就会需要考虑其它的方式了。
1、首先注意在日志文件中,可能会出现包含了 访问源的IP地址和目标IP地址,应注意需要统计的是前者或者后者,排除掉不需要统计的地址。
以统计的IP地址在第1列为例: awk '{print $1}' web.log
2、下面以apache的访问日志为例:
awk '{print $1}' web.log | grep -E "([0-9]{1,3}\.){3}[0-9]{1,3}" | sort | uniq -c | sort -g
1 192.168.10.15
1 192.168.1.129
1 192.168.1.19
3 192.168.1.29
4 192.168.1.139
6 192.168.10.5
7 192.168.1.9
29 192.168.1.119
3、如果是access.log 的格式,IP地址是固定在某列,用Awk的数组,速度是最快的:
awk '{aaa[$1]++;} END{for(i in aaa) { printf("%s\t%s\n", aaa[i], i); }}' ./access.log | sort -bn
https://speakerdeck.com/mitsuhiko/pyt...
这个slide里提供了一个高性能的统计文件中特定字符串出现次数并排序输出的python脚本。强烈推荐。
哪个程序的access log?format是什么?
这个应该还是需要一点简单的程序吧,用python什么的,几行就够了。