Linux技巧(3)（转贴）

rolandyex · 发表于 2013-6-15 23:37:25

数据处理

了解 sort 和 uniq 命令 (包括 uniq 的 -u 和 -d 选项)。
了解用 cut, paste, 和 join 命令来操作文本文件。很多人忘了在cut前使用join。
如果你知道怎么用sort/uniq来做集合交集、并集、差集能很大地促进你的工作效率。假设有两个文本文件a和b已解被 uniq了，那么，用sort/uniq会是最快的方式，无论这两个文件有多大（sort不会被内存所限，你甚至可以使用-T选项，如果你的/tmp目录很小）。

cat a b | sort | uniq > c # c is a union b 并集
cat a b | sort | uniq -d > c # c is a intersect b 交集
cat a b b | sort | uniq -u > c # c is set difference a - b 差集

了解和字符集相关的命令行工具，包括排序和性能。很多的Linux安装程序都会设置LANG 或是其它和字符集相关的环境变量。这些东西可能会让一些命令（如：sort）的执行性能慢N多倍（注：就算是你用UTF-8编码文本文件，你也可以很安全地使用ASCII来对其排序）。如果你想Disable那个i18n 并使用传统的基于byte的排序方法，那就设置export LC_ALL=C （实际上，你可以把其放在 .bashrc）。如果这设置这个变量，你的sort命令很有可能会是错的。
了解 awk 和 sed，并用他们来做一些简单的数据修改操作。例如：求第三列的数字之和： awk ‘{ x += $3 } END { print x }’。这可能会比Python快3倍，并比Python的代码少三倍。
使用 shuf 来打乱一个文件中的行或是选择文件中一个随机的行。
了解sort命令的选项。了解key是什么（-t和-k）。具体说来，你可以使用-k1,1来对第一列排序，-k1来对全行排序。
Stable sort (sort -s) 会很有用。例如：如果你要想对两例排序，先是以第二列，然后再以第一列，那么你可以这样： sort -k1,1 | sort -s -k2,2
我们知道，在bash命令行下，Tab键是用来做目录文件自动完成的事的。但是如果你想输入一个Tab字符（比如：你想在sort -t选项后输入<tab>字符），你可以先按Ctrl-V，然后再按Tab键，就可以输入<tab>字符了。当然，你也可以使用$’\t’。
如果你想查看二进制文件，你可以使用hd命令（在CentOS下是hexdump命令），如果你想编译二进制文件，你可以使用bvi命令（http://bvi.sourceforge.net/ 墙）
另外，对于二进制文件，你可以使用strings（配合grep等）来查看二进制中的文本。
对于文本文件转码，你可以试一下 iconv。或是试试更强的 uconv 命令（这个命令支持更高级的Unicode编码）
如果你要分隔一个大文件，你可以使用split命令（split by size）和csplit命令（split by a pattern）。

suiang · 发表于 2013-6-16 00:52:35

+3 {:5_104:}

popi · 发表于 2013-6-16 01:15:26

Comsenz Inc.

blowhunter · 发表于 2013-6-30 20:12:52

感谢，这对初学者很有用哈

Linux技巧(3)（转贴） [复制链接]

Linux技巧(3)（转贴） [复制链接]

Linux技巧(3)（转贴） [复制链接]

Linux技巧(3)（转贴） [复制链接]

浏览过的版块

		自动登录	找回密码
密码