awk实现Left、join查询、去除重复值以及局部变量讲解例子

2019-09-23 09:36:34王旭

实现方法2:

[root@krlcgcms01 mytest]# awk '{a[$0]=$0;if (!($2 OFS $1 in a)) print a[$0] }' repea
a b
c d
e f
b d
1 2
[root@krlcgcms01 mytest]# awk '{a[$0];if (!($2 OFS $1 in a)) print  }' repea   
a b
c d
e f
b d
1 2

解释:方法2的二种写法,出来的结果是一样的,a[$0];没有赋值也没有报错,为什么呢?awk在遇到这样没有定义的变量时,会给它一个初值。if (!($2 OFS $1 in a))表示返转字段不在数组a中,这里所说的在,表示key是不是存在,不是值。print 不写默认是一行。

实现方法3:

[root@krlcgcms01 mytest]# awk '!a[$1_$2]++&&!a[$2_$1]++' repea
a b
c d
e f
b d
1 2
[root@krlcgcms01 mytest]# awk '{if(!a[$1_$2]++&&!a[$2_$1]++)print $0;}' repea
a b
c d
e f
b d
1 2

解释:!a[$1_$2]++&&!a[$2_$1]++等于if(!a[$1_$2]++&&!a[$2_$1]++),对于首次出现的记录,a[$2_$1]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$2_$1]会被赋值成数字0,也是由于 ++ 操作符,会先取值,再计算,从左到右 ++ 运算符的优先级大于!运算符的,所以对于第一行记录实际上是if(! 0) print $0     ! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。而 ! 1  ! 2  ! 3 ... 都为假,不会打印。

三、awk的局部变量

这个例子来说明一下,awk怪异的局部变量

[root@krlcgcms01 mytest]# cat sum 
 1       2 
 2       3 
 a       b 
 3       2 
 4       1 
 3       r 

把都是数字的行,最大的那个数字加起来,第一行是2,第二行是3,每四行是3,第五行是4,总和是12


function max(one,two){
 if(one > two){
 sum = sum + one;
 }else{
 sum  = sum + two;
 }
 }

{if($1~"[0-9]" && $2~"[0-9]") max($1,$2);}
 END{print "sum="sum}


在max方法里面,变量sum是会影响外面的,这里的sum是全局的。
[root@krlcgcms01 mytest]# awk -f add.sh sum
sum=12


function max(one,two,sum){    //方法中的sum局部变量
if(one > two){
sum = sum + one;
}else{
sum  = sum + two;
}
}

{if($1~"[0-9]" && $2~"[0-9]") max($1,$2,sum);}

END{print "sum="sum}         //所以为空