当前位置: 首页 > news >正文

文本处理工具

文章目录

  • grep
  • cut
  • sort
  • uniq
  • tee
  • diff
  • paste
  • tr

grep

grep 是行过滤工具

语法

grep [选项] '关键字' 文件名

常见选项

	-i: 不区分大小写
	-V: 查找不包含指定内容的行,反向选择
	-w: 按单词搜索
	-o: 打印匹配关键字
	-C: 统计匹配到的次数
	-n: 显示行号
	-r: 逐层遍历目录查找
	-A: 显示匹配行及后面多少行
	-B: 显示匹配行及前面多少行
	-C: 显示匹配行前后多少行
	-1: 只列出匹配的文件名
	-L: 列出不匹配的文件名
	-e: 使用正则匹配
	-E: 使用扩展正则匹配
	Nkey:以关键字开头
	^key: 以关键字开头
	key$: 以关键字结尾
	^$: 匹配空行
	--color=auto: 可以将找到的的关键词部分加上颜色

grep的简单使用案例

将 /etc/passwd 拷贝到当前目录下,将对拷贝的passwd进行grep操作

[root@fl Shell] cat passwd 
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:998:User for polkitd:/:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
chrony:x:998:996::/var/lib/chrony:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
nginx:x:997:994:Nginx web server:/var/lib/nginx:/sbin/nologin
hello world
helloworld

查找包含’root’的行,并显示其颜色

grep --color=auto 'root' passwd

但每次显示颜色都要带上 --color=auto,很麻烦
因此可以定义一个别名

alias grep='grep --color=auto'

在后续操作中,grep就等价于grep --color=auto,但这种方式是临时的。也就是说这次退出后,下次再登录就会失效,需要重新定义

如果想要永久生效,并对所有的用户都生效,就需要修改全局配置文件,它是/etc/bashrc
只需要在这个文件的末尾加上

alias grep='grep --color=auto'

/etc/bashrc这个文件有一个特点,就是在用户登录的时候才读取,如果想要不用退出就重新读取,使用以下命令

source /etc/bashrc

查找包含’root’的行,显示行号,不区分大小写

grep  -ni 'root' passwd

查找以’root’开头的行

grep '^root' passwd

查找以’bash’结尾的行

grep 'bash$' passwd 

查找以’ftp’开头的行以及前3行

grep -nA 3 '^ftp' passwd 

查找以’ftp’开头的行以及后3行

grep -nA 3 '^ftp' passwd

查找以’ftp’开头的行以及前后3行

grep -nC 3 '^ftp' passwd

根据单词’hello’过滤行
在passwd这个文件的末尾添加上

hello world
helloworld
grep -w 'hello' passwd
结果:
hello world

只打印’root’关键词本身

grep 'root' passwd
结果:
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

出现了4次root

grep -o 'root' passwd
结果:
root
root
root
root

也出现了4次root

两者进行对比,就能知道-o参数的含义了

cut

cut是列截取工具

语法

cut 选项 文件名

常见选项

	-c: 以字符为单位进行分割,截取
	-d: 自定义分割符,默认为制表符\t
	-f: 与-d一起使用,指定截取哪个区域

cut简单使用案例

以第一个冒号为分割符,将左边的用户名分割开来

#以下3种方式等下,既可以将分隔符放在单引号中
#也可以将分隔符放在双引号中
#还可以将分隔符放在-d后面
cut -d ':' -f1 passwd
cut -d ":" -f1 passwd
cut -d: -f1 passwd

结果:
root
bin
daemon
adm
lp
sync
shutdown
halt
mail
operator
games
ftp
......
-f1:第一个分隔符左边的一列表示第一列

以冒号分割第一行和最后一行,并显示前10行

cut -d: -f1,7 passwd | head

截取每一行的前5个字符

cut -c1-5 passwd 

从第10个字符开始往后全部截取

cut -c10- passwd

截取第5个字符到第10个字符

cut -c5-10 passwd

sort

作用:sort工具用于排序。它将问价的每一行作为一个单位,从首字符向后,依次按照ASCII码值进行比较,最后将它们按照升序排序

语法和选项

	-u: 去除重复行
	-r: 降序排列,默认是升序
	-o: 将排序结果输出到文件中,类似重定向符号>
	-n: 以数字排序,默认是按字符排序
	-t: 分隔符
	-k: 第N列
	-b: 忽略前导空格
	-R: 随机排序,每次运行的结果均不同

sort简单使用案例

以用户的uid进行升序排序(按冒号分割,第三列)

sort -n -t: -k3 passwd

以用户的uid进行降序排序(按冒号分割,第三列)

sort -nr -t: -k3 passwd

去重后排序

sort -u passwd

因为passwd文件中,没有重复内容,因此没有明显效果

去重后随机排序

sort -uR passw

每次的运行结果都是不一样的

uniq

uniq用于去除连续重复
sort去重,无论是否连续,都可以去重

常见选项

	-i: 忽略大小写
	-c: 统计重复行次数
	-d: 只显示重复行

tee

tee工具是从标准输入读取并写入到标准输出和文件,即:双向覆盖重定向(屏幕输出 | 文本输入)

选项

	-a: 双向追加重定向

tee简单使用案例

在屏幕上打印helloworld,并保存在111.txt文件中

echo helloworld | tee 111.txt

在屏幕上打印fl,并追加到111.txt中

echo fl | tee -a 111.txt

打印/etc/vimrc中的shell代码(不包含注释和空行)并备份到tmp.bak中

grep -v '^#' vimrc | grep -v '^$' | tee tmp.bak

'^$' 表示空行

diff

diff用于逐行比较文件的不同
注意:diff描述两个文件不同的方式是告诉我们怎样改变第一个文件之后与第二个文件匹配

语法

diff [选项] 文件1 文件2

常用选项

	-b: 不检查空格
	-B: 不检查空白行
	-i: 不检查大小写
	-w: 忽略所有的空格
	--normal: 正常格式显示(默认)
	-c: 上下文格式显示 
	-u: 合并格式显示

diif简单使用案例

创建两个文件file1和file2

[root@fl Shell]# cat file1 
aaaa
111
he11o world
222
333
bbb

[root@fl Shell]# cat file2
aa
he11o
111
222
bbb
333
wor1d

比较两个文件(文件1需要如何变换才能和文件2匹配)
正常显示

diff file1 file2
结果:
1c1,2         #第一个文件的第1行需要改变(c=change)才能和第二个文件的第1到2行匹配
< aaaa		  #小于号"<"表示左边文件(file1)文件内容
---			  #---表示分隔符
> aa		  # 大于号">"表示右边文件(fi1e2)文件内容
> he11o        
3d3			  #第一个文件的第3行删除(d=de1ete)后才能和第二个文件的第3行匹配
< he11o world
5d4			  #第一个文件的第5行删除后才能和第二个文件的第4行匹配
< 333		  
6a6,7		  #第一个文件的第6行增加(a=add)内容后才能和第二个文件的第6到7行匹配
> 333 	      #需要增加的内容在第二个文件里是333和wor1d
> wor1d

上下文格式显示

 diff -c file1 file2
 结果:
 *** file1	2023-01-15 14:23:37.058619354 +0800   #***表示file1
--- file2	2023-01-15 14:24:02.894957645 +0800   #---表示file2
***************
*** 1,6 ****	#表示第一文件(file1)的1-6行
! aaaa			#表示该行需要修改才与第二个文件匹配
  111
- he11o world	#表示需要删除该行才与第二个文件匹配
  222
- 333			#表示需要删除该行才与第二个文件匹配
  bbb
  
--- 1,8 ----	#表示第二文件(file2)的1-7行
! aa			#表示第一个文件需要修改才与第二个文件匹配
! he11o			#表示第一个文件需要修改才与第二个文件匹配
  111
  222
  bbb
+ 333			#表示第一个文件需要加上该行才与第二个文件匹配
+ wor1d			#表示第一个文件需要加上该行才与第二个文件匹配

合并模式显示

diff -u file1 file2
结果:
--- file1	2023-01-15 19:20:51.223273710 +0800
+++ file2	2023-01-15 19:20:30.795003591 +0800
@@ -1,6 +1,7 @@		#表示第一个文件的1-6行,第二个文件的1-7行
-aaaa		    #第一个文件删除aaaa
+aa			    #第一个文件增加aa
+he11o		    #第一个文件增加hello
 111		
-he11o world	#第一个文件删除hello world
 222
-333			#第一个文件删除333
 bbb
+333			#第一个为文件增加333
+wor1d			#第一个文件增加world

比较两个目录
有两个目录dir1和dir2
dir1中有file1,file2,file3
dir2中有file1,test1

diff -q dir1 dir2
结果:
Only in dir1: file2	#file2只在dir1中
Only in dir1: file3 #file3只在dir1中
Only in dir2: test1 #test1只在dir2中

如果不加选项-q,不仅会比较文件的不同,还会比较文件中的内容不同

小技巧
有时候我们需要以一个文件为标准,去修改其他文件,并且修改的地方较多时,我们可以通过打补丁的方式完成。

让file1通过打补丁的方式和file2相同

第一步:先找出文件的不同,重定向到一个临时的文件
diff -u file1 file2 > file.patch
第二步:通过patch命令将不同内容打补丁到文件中
patch file1 file.patch
成功会显示:patching file file1
第三步:测试验证
diff file1 file2

paste

paste工具用于合并文件行
常用选项

	-d: 自定义间隔符,默认是tab
	-s: 串行处理,非并行

有俩文件file1和file2

file1:
hello world
888

file2:
fl
999
oooo

合并file1和file2

paste file1 file2

结果:
hello world	fl
888	999
	oooo

因为file1只有两行,因此合并的最后一行oooo前面是空行

合并file1和file2,以冒号作为分割符

paste -d: file1 file2
结果:
hello world:fl
888:999
:oooo

合并file1和file2,串行处理

paste -s file1 file2
结果:
hello world	888
fl	999	oooo

将file1中的内容作为一行,file2中的内容作为一行

tr

tr用于字符串转换,替换和删除。主要用于删除文件中控制字符或进行字符转换

语法

用法1:命令的执行结果交给tr处理,其中string1用于查询,string2用于转换处理
commands | tr 'string1' 'string2'

用法2:tr处理的内容来自文件,记住要使用"<"标准输入
tr 'string1' 'string2' < filename

用法3:匹配string1进行相应操作,如删除
tr options 'string1' < filename

常用选项

	-d: 删除字符串1中所有输入字符
	-s:删除所有重复出现字符序列,只保留第一个。即将重复出现字符串压缩为一个字符串

常匹配字符串

字符串含义
a-z或[:lower:]匹配所有小写字母
A-Z或[:upper:]匹配所有大写字母
0-9或[:digit:]匹配所有数字
[:alnum:]匹配所有字母和数字
[:alpha:]匹配所有字母
[:blank:]所有空白水平
[:punct:]匹配所有标点符号
[:space:]所有水平或垂直的空格
[:cntrl:]所有控制字符

tr简单使用案例

将文件passwd中的所有小写字母全都替换为大写字母

以下两种方式等价
tr [a-z] [A-Z] < passwd
tr 'a-z' 'A-Z' < passwd

将文件passwd中所有的数字替换成@符号

以下两种方式等价
tr [0-9] '@' < passwd 
tr '0-9' '@' < passwd

将文件passwd中的冒号和斜杠替换成#号

tr ':/' '#' < passwd

注意:tr是1对1的替换,也就是说如果出现字符串’: /‘,会替换为’##‘,而不是’#’

删除文件passwd中所有的小写字母

tr -d 'a-z' < passwd

删除文件passwd中除字母之外的所有数据

tr -d ':/ 0-9' < passwd
# passwd文件中只有这些非字母字符,如果还有其他的,添加即可

使用-s参数进行文本压缩

例如文本tmp.txt中的内如如下:
aaaaabbbbbccccc
abcabcabc

tr -s 'a-z' < tmp.txt
结果:
abc
abcabcabc

相当于相邻相同字符串去重

相关文章:

  • 浙江同凯建设深圳公司/企业网站优化软件
  • 化工设计网站/seo免费诊断
  • 南京网站建设网站设计/怎么让百度收录
  • 手机开发者网站/注册商标查询官网入口
  • 广东的网站建设/优化大师win7官方免费下载
  • 做百度推广一定要有自已网站/2022年7到8月份的十大新闻
  • Virtualbox设置固定IP
  • 基于云计算与深度学习的常见作物害虫识别
  • 数据量大也不卡的bi软件有哪些?
  • springboot整合log4j2
  • c++11 标准模板(STL)(std::forward_list)(九)
  • 速度为单GPU1.6倍,kaggle双GPU(ddp模式)加速pytorch攻略
  • SpringMVC DispatcherServlet源码(1) 注册DispatcherServlet流程
  • 带你认识QOwnNotes
  • git 创建远程仓库
  • 装修--避坑--窗帘
  • 基于贝叶斯算法的邮件过滤管理系统的设计和实现(Vue+SpringBoot)
  • 204:vue+openlayers 学习Attribution各种API,示例展示自定义版权信息