在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
一、去掉相邻重复的数据行 复制代码 代码如下:$cat data1.txt | uniq 输出: beijing wuhan beijing wuhan 二、去掉所有重复的数据行 复制代码 代码如下:$cat data1.txt | sort | uniq 注: 输出: 附:data1.txt 复制代码 代码如下:[root@syy ~]# cat data1.txt beijing beijing wuhan wuhan wuhan beijing beijing beijing wuhan wuhan 注:在过滤日志中的IP地址很有用。 Linux下删除大数据文件中部分字段重复的行 最近写的一个数据采集程序生成了一个含有1千多万行数据的文件,数据由4个字段组成,按照要求需要删除第二个字段重复的行,找来找去linux下也没找到合适的工具,sed/gawk等流处理工具只能针对一行一行处理,并无法找到字段重复的行。看来只好自己python一个程序了,突然想起来利用mysql,于是进行乾坤大挪移: 1. 利用mysqlimport --local dbname data.txt导入数据到表中,表名要与文件名一致 复制代码 代码如下:use dbname; alter table tablename add rowid int auto_increment not null; create table t select min(rowid) as rowid from tablename group by uniqfield; create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;</p> <p>drop table tablename; rename table t2 to tablename; |
请发表评论