awk 是一种对立的编程语言,集成于所有UNIX/Linux中,这个名字是它创建者的名字首字母组成的 Alfred Aho,Peter Weinberger, and Brian Kernighan。
awk的基本语法
普通模式
awk '/pattern/{action}' files
其中patter是一个正则表达式,action又是一系列命令,对于满足匹配的文本执行一些动作,files表示待操作的文件,如果不指定,则输入是STDIN。如果不指定pattern,则对所有文件的每一行都执行action。
表达式模式
当在awk中使用比较操作符时,使用下面的语法模式,详见后面。
awk '(expression){action}' files
有如下一个示例文件
zdd.txt包含如下内容
Fruit Price/lbs
Banana 0.89
Paech 0.79
Kiwi 1.50
Pineapple 1.29
Apple 0.99
显示一个文件的所有行
awk '{ print ; }' zdd.txt
分号表示命令结束,这个例子没有pattern,只有action
域编辑
awk自动将读入的行分割成域(field),域是由一个或多个分隔符分割开的字符集,缺省的分隔符是tab和空格,访问域可以用$1,$2, … $n的形式,域都是从1开始的,而$0表示整个行(以行本来的面目呈现)
格式化输出水果及价格
awk '{ printf "%-15s %s\n", $1, $2 ;}' zdd.txt
输出如下
Fruit Price/lbs
Banana 0.89
Paech 0.79
Kiwi 1.50
Pineapple 1.29
Apple 0.99
使用其他的域分隔符
awk的-F参数可以制定其他的域分隔符,比如下面的代码将打印D
echo A:B:C:D | awk -F: '{print $4}'
多个命令同时执行
在价格高于1美元的水果后面加* 以引起注意,这里包含了两个模式和动作对,直接书写即可,不必像sed那样加-e参数
awk '/[1-9]\.[0-9][0-9]$/ { print $0, "*"} /0\.[1-9][1-9]/ {print ;}' zdd.txt
输出如下
Banana 0.89
Paech 0.79
Kiwi 1.50 *
Pineapple 1.29 *
Apple 0.99
bash-3.2$
比较操作
awk中可以执行的比较操作有
<
>
<=
>=
!=
value ~ /pattern/
value !~ /pattern/
比较操作基本语法
awk '(expression){action}' files
其中expression是一个比较表达式,通常将其用括弧括起来。
在价格大于1美元的水果后面打印expensive
awk '$2 >= 1.0 { printf "%s\t%s\n", $0, "Expensive" ; }' zdd.txt
输出
Fruit Price/lbs Expensive
Kiwi 1.50 Expensive
Pineapple 1.29 Expensive
复合表达式
可以使用&&或||连接多个表达式,表达式用()扩起
(expr1) && (expr2)
(expr1) ||(expr)
next命令
看一个例子
awk '
$3 <= 75 { printf "%s\t%s\n",$0,"REORDER" ; }
$3 > 75 { print $0 ; }
' zdd.txt
这个命令的执行过程如下
(1) 读入一行,检查价格是否小于等于75,如果为真,则打印出REORDER
(2) 检查该行是否大于75,如果大于则直接打印
(3) 处理下一行
可见如果条件(1)满足,则不必再判断条件(2)了,如果避免这个多余的操作呢?使用next即可
awk '
$3 <= 75 { printf "%s\t%s\n",$0,"REORDER" ; next ; }
$3 > 75 { print $0 ; }
' zdd.txt
BEGIN和END
基本语法
awk '
BEGIN { actions }
/pattern/ { actions }
/pattern/ { actions }
END { actions }
' files
注意BEGIN对应的模式必须是第一个模式,而END对应的模式必须是最后一个模式。这两者都不参与文本行的处理,只是做一些初始化及善后工作。
BEGIN可以用来打印表头或者列名等,如下
BEGIN{
-F":"
printf "----------------------------------------------------------------\n"
printf "%-20s%-16s Jan | Feb | Mar |Total Donated\n ","NAME","PHONE"
printf "----------------------------------------------------------------\n"
}
流控制
if
基本格式
if (expression1) {
action1
} else if (expression2) {
action2
} else {
action3
}
一个例子,根据每行的特征字,在行末加注释。
awk '{
print "%s\t", $0;
if ($1 ~ /d/) {
print "Directory\n";
}
else if ($NF ~ /\.pl/){
print "Perl script\n";
}
else if ($NF ~ /\.bcp/) {
print "BCP file\n";
}
else {
print "\n";
}
}'
while
for
awk中的for与C语言中的for类似。
awk '{
for (x = 1; x <= NF; x++){
printf "%s ", $x;
}
print "\n";
}' input_file ;
特殊技巧
NR==FNR
这条语句只有在输入是多个文件的时候才有意义,用来判断当前正在处理第一个文件。
NR 处理过的文件行数,多个文件累加。
FNR 处理过的文件行数,仅限当前文件。
所以,NR >= FNR。看一个例子
#cat a
张三|000001
李四|000002
#cat b
000001|10
000001|20
000002|30
000002|15
想要得到的结果是将用户名,帐号和金额在同一行打印出来,如下:
张三|000001|10
张三|000001|20
李四|000002|30
李四|000002|15
awk -F'|' 'NR==FNR{a[$2]=$0;next}{print a[$1] FS $2}' a b
awk -F'|' '{a[$2]=$0}NR>FNR{print a[$1] FS $2}' a b
[解析]
由NR=FNR成立,判断当前读入的是第一个文件a,然后使用{a[$2]=$0;next}循环将a文件的每行记录都存入数组a,并使用$2作为下标引用.next,不在执行后面的语句.
由 NR=FNR不成立,判断当前读入了第二个文件b,然后跳过{a[$2]=$0;next},对第二个文件b的每一行都无条件执行{print a[$1]FS$2},此时变量$1为第二个文件的第一个字段,与读入第一个文件时,采用第一个文件的$2为数组下标相同.因此可以在此输出该数组的值。
awk应用
按条件打印文件
awk配合ls命令可以打印文件指定的某一列,ls -l的输出入下
-rwxr-xr-x 1 user1 staff 1805 Dec 4 22:59 abc.sh
drwxr-xr-x 3 user2 staff 512 Dec 4 22:59 test_report
-rwxr-xr-x 1 user3 staff 12526 Feb 1 03:12 test.pl
drwxr-xr-x 3 user1 staff 512 Feb 1 03:19 xyz
如果只想打印文件名(第九列),那么可以使用下面的方法,$9表示文本行的第九列。
ls -l | awk '{print $9;}'
如果只想打印user1创建的文件名,可以使用下面的方法,这里/user1/是一个pattern,表示只处理包含user1的文本行。
ls -l | awk '/user1/{print $9;}'
格式化打印
awk支持printf格式化打印。
只打印文件名和文件大小(文件名位于第9列,文件大小位于第5列)
ls -l | awk '{print $9, $5;}'
上面的代码虽然能打印,但是格式很乱,可以使用printf格式化一下。
%s参数,用来打印字符串,可以指定宽度,不足的补空格,正数表示右对齐,负数表示左对齐。%3s表示字符串宽度为3列,右边对齐,如果字符串实际宽度大于3,那么取实际宽度。
文件名左对齐,大小左对齐
ls -l | awk '{printf "%-16s%\t%-16s\n", $9, $5;}'
文件名左对齐,大小右对齐
ls -l | awk '{printf "%-16s%\t%16s\n", $9, $5;}'
文件名右对齐,大小左对齐
ls -l | awk '{printf "%16s%\t%-16s\n", $9, $5;}'
文件名右对齐,大右左对齐
ls -l | awk '{printf "%16s%\t%16s\n", $9, $5;}'
按行打印环境变量PATH
echo $PATH | awk -F: ' {
for (i = 1; i <=NF; i++) {
printf "%s\n", $i;
}
}'
删除某个用户的所有文件
删除用户zdd的所有文件,注意-rf后面有一个空格。
ls -l | awk '/zdd/{print "rm -rf " $9} | sh