openKylin论坛

 找回密码

糖哥的shell私房菜 part1 [复制链接]

尝原来在口碑的花名是红糖,如今年老色衰被称为糖哥。


糖哥有段时间是做search服务器集群运维的,当时管过四五十台机器,shell这个工具就略懂,真的是略懂,因为只是为了应付工作,解决问题,没有系统去学习过。


分享这件事,上回伏威开会要求写的时候,糖哥正好去滨江拿戒指了,回来后在7F关小黑屋做电影票客户端,虽然看见一大堆的分享文档,觉得很好,但是没有动手,直到昨天双月会伏威又在提醒。那么就来整理一下我所知道的shell吧,分享给大家,目标当然是“没有蛀牙”,因为这篇文确定一定以及肯定是干货。


Now let’s begin


先上一些体会和感受:

l 和任何语言或是工具一样长期不用就会忘记的,于是你需要一个手册,一个备忘,anything you name it,或者就是这篇分享。

l Shell使用有两个场景,一个是命令行写一堆然后回车执行,一个写成shell文件调用执行。See,淡妆浓抹总相宜。

l Shell几乎是最容易调试的语言了,不靠任何工具(也没有),就是echo输出和exit中断(或是break),大爱。


如果我从ABC写到Apple写到Apple a day keep doctor away,估计没有什么人能看完,也就不能达到“没有蛀牙”的目的。于是糖哥从一些较实战的例子开始吧,show me the power先,是也。


csv变SQL

罗成拿到了一批电影院的新坐标,存在一个csv文件里面了,没要少到手工编辑就能搞定的程度,也没有多到值得去写一个逻辑严密,效率高上,什么多线程多进程都要用上的程序,而且还是个一次性的工作。他来找糖哥,下面我就还原一下当时解决问题的过程,红色字是命令行啊(在括号里的绿色的字是注释啊),浅蓝色字是屏幕输出啊。


先看看输入文件吧:

head abcd.csv  headcat好啊,看部分文件,还可以带-n参数,大爱)

id,location

5510,"30.736008,116.827141"

5797,"31.543723,120.288912"

5389,"30.513433,117.034429"


问下目标的sql什么样:

update tkm_cinema set latitude='30.736008',longitude='116.827141' where id=5510;

update tkm_cinema set latitude='31.543723',longitude='120.288912' where id=5797;

update tkm_cinema set latitude='30.513433',longitude='117.034429' where id=5389;


因为输出中是没有双引号的,所以先把双引号去掉吧。写下面的这行命令的时候不用全部重新写的,上箭头就能把“head abcd.csv”翻出来的,善用上箭头,少写n多字。

head abcd.csv |sed -e 's:"::g'|是管道啊,这是shell的基础功能,管道两个字翻译非常形象,|左边的命令的输出,作为右边的命令的输入。在这里就是head的输出,作为sed的输入。sed是行内字符串替换工具,shell里很常用到的工具,sed –e ’s:原字符串:替换字符串:g’是常用的样式,这里原字符串是“双引号,替换成空串,sed后面有详细讲的link

id,location

5510,30.736008,116.827141

5797,31.543723,120.288912

5389,30.513433,117.034429


现在每行中的数据就干净了,由逗号分隔,第一列id号,第二列维度值,第三列精度值。下面就该awk出场了大家欢迎。

head abcd.csv |sed -e 's:"::g'|awk -F',' '{print $1,$2,$3}'(从左向右看,|管道兄你好啊,sed兄健在啊,awk,我擦,大神出现鸟,看灰机。awk也是行内字符串工具啊,也就是输入数据按行(ascii字符\n)处理,-F参数是可选的,指定行内列分隔符,如果不指定,那空格或是\t就是默认分隔符,第二个参数是一个单引号字符串,里面其实是一串awk指令,awk强大到有自己完备的语法不输shell,很变态的,汗一个。我们这里简单用,就用到awk的输出指令print$1是列分割出来的第一列,$2是第二列,$3是第三列,就这么简单)

d location

5510 30.736008 116.827141

5797 31.543723 120.288912

5389 30.513433 117.034429


现在我已经可以每行里面可以拿到三个值,并且能用变量表示了(awk的$1$2$3就是变量),那就组装个sql呗

head abcd.csv |sed -e 's:"::g'|awk -F',' '{print "update tkm_cinema set latitude="$2",longitude="$3" where id="$1";"}'(上箭头一翻,各位兄神恶煞都在哈,把awk的第二个参数,指令串改改,指令串是在单引号中的那堆。其中print是指令baseprint后面到单引号结束,其实是print的参数,参数由常量字符串和变量字符串混搭组成。在双引号中的常量字符串会原样输出,$1$2$3会变成相应的数值输出。Print那堆看上去复杂其实就是print “xxxx”$2”yyyy”$3”zzzz”$1”kkkk”把它弄成一个updatesql串就好)

,longitude= where id=id;titude=location

where id=5510;ma set latitude=30.736008,longitude=116.827141

where id=5797;ma set latitude=31.543723,longitude=120.288912

where id=5389;ma set latitude=30.513433,longitude=117.034429


但是输出不对嘛,错乱了,这个其实是因为$3被awk切分出来时带着回车符(输入位置到行首)的,我们再在awk的前面做点处理,把回车符去掉。


head abcd.csv |sed -e 's:"::g'|sed -e 's:\s::g'|awk -F',' '{print "update tkm_cinema set latitude="$2",longitude="$3" where id="$1";"}'(和上条命令行相比,在awk之前,用管道|,再插入一个sed命令,sed -e 's:\s::g'就搞定了,我sed v5吧)

update tkm_cinema set latitude=location,longitude= where id=id;

update tkm_cinema set latitude=30.736008,longitude=116.827141 where id=5510;

update tkm_cinema set latitude=31.543723,longitude=120.288912 where id=5797;

update tkm_cinema set latitude=30.513433,longitude=117.034429 where id=5389;


对比目标输出,现在还有个问题,latitude=30.736008还需要有单引号,方法有两种,这个糖哥当时也不知道如何打印单引号,因为单引号是用来包住整个指令串的,于是问度娘,方法1是在双引号的范围中用’\’’(单单左单),如此,输出会打印出一个单引号,方法2是在双引号的范围中用\047,输出中也会打印出一个单引号。

head abcd.csv |sed -e 's:"::g'|sed -e 's:\s::g'|awk -F',' '{print "update tkm_cinema set latitude='\''"$2"'\'',longitude=\047"$3"\047 where id="$1";"}'(还是照旧上箭头翻出来命令行再进行更改哈,两种单引号的方法都用了一下,好使)

update tkm_cinema set latitude='location',longitude='' where id=id;

update tkm_cinema set latitude='30.736008',longitude='116.827141' where id=5510;

update tkm_cinema set latitude='31.543723',longitude='120.288912' where id=5797;

update tkm_cinema set latitude='30.513433',longitude='117.034429' where id=5389;


基本上解决了,但是第一行不爽,第一行是csv的列标题不要出现,请出grep来帮忙,grep是行过滤工具,基本上糖哥最常用的shell,没有之一哈。日常居家,出门旅行,必备工具啊。

head abcd.csv |grep -v location|sed -e 's:"::g'|sed -e 's:\s::g'|awk -F',' '{print "update tkm_cinema set latitude='\''"$2"'\'',longitude=\047"$3"\047 where id="$1";"}'(还是照旧上箭头翻出来哈,用ctrl+a把光标移动到行首也是常用技啊,grep过滤字符,表示如果行内有和过滤字符匹配一致的,就输出,grep –v过滤字符,表示如果行内有和过滤字符匹配的,就不输出,location是仅仅在csv第一行出现的,就用它来过滤喽)

update tkm_cinema set latitude='30.736008',longitude='116.827141' where id=5510;

update tkm_cinema set latitude='31.543723',longitude='120.288912' where id=5797;

update tkm_cinema set latitude='30.513433',longitude='117.034429' where id=5389;


现在输出完美了,最后把head换成cat就ok啦,head代替cat就是在调试啊,有木有。

cat abcd.csv |grep -v location|sed -e 's:"::g'|sed -e 's:\s::g'|awk -F',' '{print "update tkm_cinema set latitude='\''"$2"'\'',longitude=\047"$3"\047 where id="$1";"}'(还是照旧上箭头翻出来哈,用ctrl+a把光标移动到行首,用ctrl+e把光标移动到行尾也用起来吧,这两个shell命令行快捷键是一对的)


打印在屏幕上没法用,好吧最后一招输出重定位


cat abcd.csv |grep -v location|sed -e 's:"::g'|sed -e 's:\s::g'|awk -F',' '{print "update tkm_cinema set latitude='\''"$2"'\'',longitude=\047"$3"\047 where id="$1";"}'  > test.sql(还是照旧上箭头翻出来哈,这么长的命令行,全部重写要吐血的,>输出文件,表示将打在屏幕上的东西都存到一个文件中,这个文件没有就自动创建哈,如果有,原来内容会消失啊,切记切记)



这个就是那天我给罗成把csv文件变成sql文件的全过程的还原,是一个逐步逼近目标的过程,每个步骤都更接近目标输出,所以越来越有成就感。



上面用到了shell重要的基础设施是,|管道,>输出重定向

也用到了shell重要的行处理工具grep, sed, awk

根据糖哥的经验,如果能用好这5个东西,命令行下的shell就已经有点意思了,略懂也都称得上了,shell本就不算一个复杂东西。



当然,grep还好,简单易用,sed和awk要完全看完看懂,是会要了钦命的。

但是sed的替换,awk的print按列打印是不难的,用管道把它们三个串起来就能够解决很多的行处理问题了。


写干货文档好苦逼啊,今天先到这里,我看看邮件有没有回复,大家想知道什么,如果没有,下一次糖哥接着讲赋值,循环,if。



附上grep,sed,awk的文档link。


grep的http://blog.csdn.net/gnuhpc/article/details/4323415其中-i -v -n –E参数常用到,重点看看,see,这个算简单的工具,完全说清楚也很多的。


sed的http://blog.csdn.net/zhangjie11/article/details/6445115其中-e -i参数常用到,替换:s命令常用到,重点看看。


awk的http://www.anyshare.org/open/392.html这个还是简版的,真正的AWK有一本书要讲的,再次汗,糖哥也就简单会用,真的只是略懂了。


楼主
发表于 2013-5-9 19:58:46
回复

使用道具 举报

openKylin

GMT+8, 2024-5-17 11:18 , Processed in 0.025708 second(s), 17 queries , Gzip On.

Copyright ©2022 openKylin. All Rights Reserved .

ICP No. 15002470-12 Tianjin

快速回复 返回顶部 返回列表