您现在的位置： Linux教程網 >> UnixLinux > >> Linux基礎 >> Linux技術

Linux下刪除大數據文件中部分字段重復行的方法

最近寫的一個數據采集程序生成了一個含有1千多萬行數據的文件，數據由4個字段組成，按照要求需要刪除第二個字段重復的行，找來找去linux下也沒找到合適的工具，sed/gawk等流處理工具只能針對一行一行處理，並無法找到字段重復的行。看來只好自己python一個程序了，突然想起來利用mysql，於是進行乾坤大挪移：

1. 利用mysqlimport --local dbname data.txt導入數據到表中，表名要與文件名一致
2. 執行下列sql語句(要求唯一的字段為uniqfield）

復制代碼代碼如下:
use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;

上一篇文章： Linux中限制用戶訪問權限的3種方法
下一篇文章： linux中去掉文件重復數據行的方法(去重復ip)

Linux技術

6個開源的大數據文件系統

大數據使Linux人才需求暴增

XFS：大數據環境下Linux文件系統的未來？

魅族大數據上雲之路

大數據基礎之常用Linux命令

大數據

linux、windows中ping大數據包的命令格式

Linux下增大可打開文件描述符的最大數的方法