cat log.log |grep -i ‘baiduspider' >baidu.log
2、网站状态码个数查询
awk ‘{print $9}' baidu.log|sort|uniq -c|sort -nr
3、百度总抓取量
wc -l baidu.log
4、百度不重复抓取量
awk ‘{print $7}' baidu.log|sort|uniq|wc -l
5、百度平均每次抓取的数据大小(结果是KB)
awk ‘{print $10}' baidu.log|awk ‘BEGIN{a=0}{a+=$1}END{ print a/NR/1024}'
6、首页抓取量
awk ‘$7~/.com/$/' baidu.log|wc -l
7、某目录抓取量
grep ‘/news/' baidu.log|wc -l
8、抓取最多的10个页面
awk ‘{print $7}' baidu.log|sort|uniq -c|sort -nr|head -10
9、找出抓取的404错误页面
awk ‘$9~ /^404$/ {print $7}' baidu.log|sort|uniq|sort -nr
10、找出抓取了多少js文件和文件抓取的次数
awk ‘$7~ /.js$/ {print $7}' baidu.log|sort|uniq -c |sort -nr










