在linux中,awk工具是处理文本数据的强大工具。以下是关于awk工具的详细介绍和使用方法。
目录
- awk
- awk的用法
- awk中字符的含义
- print 打印
- 字符匹配
- 格式化输出
- 举例
awk
awk是一种强大的文本分析工具,相对于grep的查找和sed的编辑,awk在数据分析和生成报告方面尤为突出。简单来说,awk会逐行读取文件,并以空格作为默认分隔符将每行分割成片段,然后对这些片段进行各种分析处理。awk是行处理器,在处理大型文件时不会出现内存溢出或处理缓慢的问题,通常用于格式化文本信息。
awk处理过程:依次对每一行进行处理,然后输出。
awk的用法
awk的基本使用格式如下:
awk 参数 'BEGIN{} // {action1;action2} END{}' 文件名参数说明:
-
-F:指定分隔符 -
-f:调用脚本 -
-v:定义变量 -
BEGIN{}:初始化代码块,在处理每一行之前执行,主要用于引用全局变量和设置FS分隔符 -
//:匹配代码块,可以是字符串或正则表达式 -
{}:命令代码块,包含一条或多条命令,多条命令用;隔开 -
END{}:结尾代码块,在处理所有行之后执行,主要用于最终计算或输出总结信息
示例:统计 /etc/passwd 文件中包含 root 行的总数
awk 'BEGIN{X=0}/root/{X+=1}END{print "I find",X,"root lines"}' /etc/passwd
awk中字符的含义
-
$0:表示整个当前行 -
$1:每行的第一个字段 -
NF:字段数量变量 -
NR:每行的记录号,多文件记录递增 -
FNR:与NR类似,但多文件记录不递增,每个文件从1开始 -
\t:制表符 -
\n:换行符 -
FS:在BEGIN时定义分隔符 -
RS:输入的记录分隔符,默认为换行符 -
~:包含 -
!~:不包含 -
==:等于,必须全部相等,精确比较 -
!=:不等于,精确比较 -
&&:逻辑与 -
||:逻辑或 -
+:匹配时表示1个或多个 -
/0-9+/:两个或两个以上数字 -
/0-9*/:一个或一个以上数字 -
OFS:输出字段分隔符,默认也是空格,可以改为其他 -
ORS:输出的记录分隔符,默认为换行符 -
-F [:#/]:定义了三个分隔符
print 打印
print 是awk打印指定内容的主要命令,也可以使用 printf。
示例:
awk '{print}' /etc/passwd == awk '{print $0}' /etc/passwd
awk '{print " "}' /etc/passwd # 不输出passwd的内容,而是输出相同个数的空行
awk '{print "a"}' /etc/passwd # 输出相同个数的a行,每行只有一个a字母
awk -F: '{print $1}' /etc/passwd # 输出字段1
awk -F: '{print $2}' /etc/passwd # 输出字段2
awk -F: '{print $3,$6}' OFS="\t" /etc/passwd # 输出字段3和6,以制表符作为分隔符
awk -F: '{print $2}' /etc/passwd # 输出字段2,分行输出
awk -F: '{print $2}' /etc/passwd # 输出字段2,中间以**分隔
awk -F: '{print "name:"$3}' /etc/passwd # 自定义格式输出字段3
awk -F: '{print NF}' /etc/passwd # 显示每行有多少字段
awk -F: 'NF>2{print}' /etc/passwd # 将每行字段数大于2的打印出来
awk -F: 'NR==5{print}' /etc/passwd # 打印出/etc/passwd文件中的第5行
awk -F: 'NR==5||NR==6{print}' /etc/passwd # 打印出/etc/passwd文件中的第5行和第6行
awk -F: 'NR!=1{print}' /etc/passwd # 不显示第一行
awk -F: '{print > "1.txt"}' /etc/passwd # 输出到文件中
awk -F: '{print}' /etc/passwd > 2.txt # 使用重定向输出到文件中字符匹配
示例:
awk -F: '/root/{print}' /etc/passwd # 打印出文件中含有root的行
awk -F: '/$A/{print}' /etc/passwd # 打印出文件中含有变量A的行
awk -F: '!/root/{print}' /etc/passwd # 打印出文件中不含有root的行
awk -F: '/root|tom/{print}' /etc/passwd # 打印出文件中含有root或者tom的行
awk -F: '/mail/,/mysql/{print}' test # 打印出文件中含有 mail*mysql 的行,*代表有0个或任意多个字符
awk -F: '/^2[7]*/{print}' test # 打印出文件中以27开头的行,如27,277,27gff 等等
awk -F: '$1~/root/{print}' /etc/passwd # 打印出文件中第一个字段是root的行
awk -F: '($1=="root"){print}' /etc/passwd # 打印出文件中第一个字段是root的行,与上面的等效
awk -F: '$1!~/root/{print}' /etc/passwd # 打印出文件中第一个字段不是root的行
awk -F: '($1!="root"){print}' /etc/passwd # 打印出文件中第一个字段不是root的行,与上面的等效
awk -F: '$1~/root|ftp/{print}' /etc/passwd # 打印出文件中第一个字段是root或ftp的行
awk -F: '($1=="ftp"){print}' /etc/passwd # 打印出文件中第一个字段是root或ftp的行,与上面的等效
awk -F: '$1!~/root|ftp/{print}' /etc/passwd # 打印出文件中第一个字段不是root或不是ftp的行
awk -F: '($1!="ftp"){print}' /etc/passwd # 打印出文件中第一个字段不是root或不是ftp的行,与上面等效
awk -F: '{if($1~/mail/) {print $1} else {print $2}}' /etc/passwd # 如果第一个字段是mail,则打印第一个字段,否则打印第2个字段格式化输出
示例:
awk '{printf "%-5s %.2d",$2}' test # printf 表示格式输出,%-5s 表示长度为5个字符的左对齐字符串,%.2d 表示两位小数的数字举例
- 显示
/etc/passwd中含有root的行
awk '/root/' /etc/passwd
- 以
:为分隔,显示/etc/passwd中每行的第1和第7个字段
awk -F ":" '{print $1,$7}' /etc/passwd- 以
:为分隔,显示/etc/passwd中含有root的行的第1和第7个字段
awk -F ":" '/root/{print $1,$7}' /etc/passwd- 以
:为分隔,显示/etc/passwd中以root开头行的第1和第7个字段
awk -F ":" '/^root/{print $1,$7}' /etc/passwd- 以
:为分隔,显示/etc/passwd中第3个字段大于999的行的第1和第7个字段
awk -F ":" '$3>999{print $1,$7}' /etc/passwd- 以
:为分隔,显示/etc/passwd中第7个字段包含bash的行的第1和第7个字段
awk -F ":" '$7~/bash/{print $1,$7}' /etc/passwd- 以
:为分隔,显示/etc/passwd中第7个字段不包含bash的行的第1和第7个字段
awk -F ":" '$7!~/bash/{print $1,$7}' /etc/passwd- 以
:为分隔,显示$3>999并且第7个字段包含bash的行的第1和第7个字段
awk -F ":" '$3>999 && $7~/bash/{print $1,$7}' /etc/passwd- 以
:为分隔,显示$3>999或第7个字段包含bash的行的第1和第7个字段
awk -F ":" '$3>999 || $7~/bash/{print $1,$7}' /etc/passwd










