AWK 入门简明教程

2019年5月14日 204次阅读来源: Kangvcar

AWK 脚本的结构

awk ' BEGIN{ print "start" } pattern { commands } END{ print "end" } file

awk 脚本通常由3部分组成。 BEGIN ， END 和带模式匹配选项的常见语句块。这3个部分都是可选项，在脚本中可省略任意部分。

AWK 脚本包含在单引号之间

awk 'BEGIN { statements } { statements } END { end statements }'

文件的内容格式如下，在命令使用awk -f <programfile> <inputfile>

BEGIN { statements } { statements } END { end statements }

《AWK 入门简明教程》 AWK工作流程图

Read
AWK从输入流（文件，管道或者标准输入）中读取一行，然后存储到内存中。

Execute
所有的AWK命令都依次在输入上执行。默认情况下，AWK会对每一行执行命令，我们可以通过提供模式限制这种行为。

Repeat
处理过程不断重复，直到到达文件结尾。

BEGIN 语句块在 awk 开始从输入流中读取行之前被执行。这是一个可选的语句块，诸如变量初始化、打印输出表格的表头等语句通常都可以写入 BEGIN 语句块中。
END 语句块和 BEGIN 语句块类似。 END 语句块在 awk 从输入流中读取完所有的行之后即被执行。像打印所有行的分析结果这类汇总信息，都是在 END 语句块中实现的常见任务（例如，在比较过所有的行之后，打印出最大数）。它也是一个可选的语句块。
最重要的部分就是 pattern 语句块中的通用命令。这个语句块同样是可选的。如果不提供该语句块，则默认执行 { print } ，即打印所读取到的每一行。 awk 对于每一行，都会执行这个语句块。这就像一个用来读取行的 while 循环，在循环体中提供了相应的语句。
每读取一行， awk 就会检查该行和提供的 pattern 是否匹配。pattern 本身可以是正则表达式、条件语句以及行匹配范围等。如果当前行匹配该 pattern ，则执行 { } 中的语句。
pattern 是可选的。如果没有提供样式，那么 awk 就认为所有的行都是匹配的，并执行 { } 中的语句

范例	效果
`$ awk '{ print $3,$2 }' file`	打印每一行的第2和第3个字段
`$ awk 'END{ print NR }' file`	统计文件中的行数

借助选项 -v ，我们可以将外部值（并非来自 stdin ）传递给 awk

$ VAR=10000
$ echo | awk -v VARIABLE=$VAR '{ print VARIABLE }'
10000

awk 通常默认读取一个文件的所有行。如果只想读取某一行，可以使用 getline 函数。有时候，我们需要从 BEGIN 语句块中读取第一行。

语法： getline var
变量 var 就包含了特定行的内容。如果调用不带参数的 getline ，我们可以用 $0 、 $1 和 $2 访问文本行的内容。

$ seq 5 | awk 'BEGIN { getline; print "Read ahead first line", $0 } { print $0 }'
Read ahead first line 1
2
3
4
5

默认的字段定界符是空格。我们也可以用 -F “delimiter” 明确指定一个定界符
$ awk -F: '{ print $NF }' /etc/passwd
在 BEGIN 语句块中则可以用 OFS="delimiter" 设置输出字段的定界符。

将命令的输出结果读入变量 output 的语法如下
"command" | getline output ;

$ echo | awk '{ "grep root /etc/passwd" | getline cmdout ; print cmdout }'
root:x:0:0:root:/root:/bin/bash

通过使用 getline ，我们将外部shell命令的输出读入变量 cmdout 。

for(i=0; i<10; i++) { print $i ; }
或者
for(i in array) { print array[i]; }

范例	效果
`length(string)`	返回字符串的长度。
`index(string, search_string)`	返回 search_string 在 string 中出现的位置。
`split(string, array, delimiter)`	用定界符生成一个字符串列表，并将该列表存入数组。
`substr(string, start-position, end-position)`	在字符串中用字符起止偏移量生成子串，并返回该子串。
`sub(regex, replacement_str, string)`	将正则表达式匹配到的第一处内容替换成 replacment_str 。
`gsub(regex, replacment_str, string)`	和 sub() 类似。不过该函数会替换正则表达式匹配到的所有内容。
`match(regex, string)`	检查正则表达式是否能够匹配字符串。如果能够匹配，返回非0值；否则，返回0。

    原文作者：Kangvcar
    原文地址: https://www.jianshu.com/p/8515541f2461
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。