判断一个ip是否采集。可以以下几个方面类判断:访问次数、访问时间、nslookup查询。
工具/原料
shell脚本网站日记
方法/步骤
1、#ip在第9列103.61.144.22016-12-2000:00:0260.191.0.184GET/aluTrade/info.aspxid=271046080-103.61.144.2--50000265
2、#查看当天ip来访次数前50名cat日记文件.log|awk'{print$9}'|sort|uniq-c|sort-nr|head-50#$9是ip所在的列
3、#查看当天超过1w访问的ip(根据网站规模大小而定)catu_ex1瀵鸦铙邮61220.log|awk'撑俯擂摔{print$9}'|sort|uniq-c|sort-nr|head-50>1.txt;cat1.txt|awk'{if($1>=10000)print$2}'
4、#nslookupipcatip.txt|whilereadline;doecho$line;nslookup$line|grep-E"NXDOMAIN|name|SERVFAIL";done
5、#排除蜘蛛ipcatip.txt|whilereadline;d艺皱麾酪oecho$line;nslookup$line|爿讥旌护grep-E"NXDOMAIN|name|SERVFAIL";done|sed'N;s/\n/\t/g'>2.txt;cat2.txt|grep-E-v'googlebot|Baiduspider'#排除谷歌和百度的,如有其它的可以继续加'googlebot|Baiduspider|**'
6、#收集不是蜘蛛的ipcat2.txt|grep-E-v'googlebot|Baiduspider'|awk'{print$1}'
7、#到这大家就可以封禁ip但是有些蜘蛛nslookup也查看不来,就要靠大家平时积累了,已防止屏蔽蜘蛛的ip。如何大家还不确定,可以看看这些ip都采集了那些页面,什么时间采集的。