利用shell命令统计日志的方法详解

2019-09-23 09:03:09于丽

注意这里的正则我没有使用 d 来表示数字,因为 awk 指令默认使用 “EREs",不支持 d 的表示,具体请看 linux shell 正则表达式(BREs,EREs,PREs)差异比较。

result 数组实际上和 javascript 里的结果数组很像了,所以我们打印出第二个元素,即匹配到的内容。执行完这行命令后结果如下:

9.703
0.337
8.829
9.962
11.822

当然实际上一天的日志可能是成千上万条,我们需要对日志进行排序,且只展示前 3 条。这里使用到 sort 命令。

sort 命令默认从小到大排序,且当作字符串排序。所以默认情况下使用 sort 命令之后 "11" 会排在 "8" 前面。那么需要使用 -n 指定按数字排序,-r 来按从大到小排序,然后我们查看前 3 条:

awk '{ match($0, /time=([0-9]+.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3

结果:

11.822
9.962
9.703

查看耗时最高的接口

当然我们一般不会只查看接口耗时情况,还需要把具体日志也打印出来,上面的命令就不能满足要求了。

awk 的打印默认是按空格分隔的,意思是 2017-09-23 GET 这一行如果使用 awk '{print $1}' 会打印出 "2017-09-23",类似地,$2 会打印出 GET。

根据日志特征,我们可以使用 | 来作为分隔符,这样就能打印出各个我们感兴趣的值了。因为我们想找出耗时最高的接口,那么我们把 time、date 和 url 单独找出来。

awk 的 -F 参数用来自定义分隔符。然后我们可以数一下三个部分按 | 分隔后分别是第几个:time 是第 6 个、date 是第 1 个、url 是第 4 个。

awk -F '|' '{print $6 $1 $4}' access.log

这样打出来结果为:

 time=9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something
 time=0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck
 time=8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything
 time=9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
 time=11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

因为我们想按 time 来排序,而 sort 可以按列来排序,而列是按空格分隔的,我们目前第一列是 time=xxx,是不能排序的,所以这里要想办法把 time= 给去掉,因为我们很鸡贼地把耗时放在了第一列,那么其实再通过 time= 进行分隔一下就行了。

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'

结果:

9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something
0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck
8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything
9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing