您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

使用Hadoop MapReduce 進行排序

在Hadoop中的例子TeraSort，就是一個利用mapredue進行排序的例子。本文參考並簡化了這個例子：

排序的基本思想是利用了mapreduce的自動排序功能，在hadoop中，從map到reduce階段，map出來的結構會按照各個key按照 hash值分配到各個reduce中，其中，在reduce中所有的key都是有序的了。如果使用一個reduce，那麼我們直接將他output出來就行了，但是這不能夠體現分布式的好處，所以，我們還是要用多個reduce來跑。

比方說我們有1000個1-10000的數據，跑10個ruduce任務，如果我們運行進行partition的時候，能夠將在1-1000中數據的分配到第一個reduce中，1001-2000的數據分配到第二個 reduce中，以此類推。即第n個reduce所分配到的數據全部大於第n-1個reduce中的數據。這樣，每個reduce出來之後都是有序的了，我們只要cat所有的輸出文件，變成一個大的文件，就都是有序的了。

基本思路就是這樣，但是現在有一個問題，就是數據的區間如何劃分，在數據量大，還有我們並不清楚數據分布的情況下。一個比較簡單的方法就是采樣，假如有一億的數據，我們可以對數據進行采樣，如取10000個數據采樣，然後對采樣數據分區間。在Hadoop中，patition我們可以用 TotalOrderPartitioner替換默認的分區。然後將采樣的結果傳給他，就可以實現我們想要的分區。在采樣時，我們可以使用hadoop的幾種采樣工具，RandomSampler,InputSampler,IntervalSampler。

這樣，我們就可以對利用分布式文件系統進行大數據量的排序了，我們也可以重寫Partitioner類中的compare函數，來定義比較的規則，從而可以實現字符串或其他非數字類型的排序，也可以實現二次排序乃至多次排序。

參考：《Hadoop權威指南》裡面有詳細的講解下載見 http://www.linuxidc.com/Linux/2012-07/65972.htm

CxfInputFormat.java

package com.alibaba.cxf.sort;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileSplit;
import org.apache.hadoop.mapred.InputSplit;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.LineRecordReader;
import org.apache.hadoop.mapred.RecordReader;
import org.apache.hadoop.mapred.Reporter;

public class CxfInputFormat extends FileInputFormat<IntWritable,Text>{
@Override
public RecordReader<IntWritable, Text> getRecordReader(InputSplit split,
JobConf job, Reporter reporter) throws IOException {
return new CxfRecordReader(job, (FileSplit) split);
}
class CxfRecordReader implements RecordReader<IntWritable,Text> {

private LineRecordReader in;
private LongWritable junk = new LongWritable();
private Text line = new Text();
private int KEY_LENGTH = 10;
public CxfRecordReader(JobConf job,FileSplit split) throws IOException{
in = new LineRecordReader(job, split);
}
@Override
public void close() throws IOException {
in.close();
}
@Override
public IntWritable createKey() {
return new IntWritable();
}
@Override
public Text createValue() {

return new Text();
}
@Override
public long getPos() throws IOException {

return in.getPos();
}
@Override
public float getProgress() throws IOException {

return in.getProgress();
}
@Override
public boolean next(IntWritable key, Text value) throws IOException {
if (in.next(junk, line)) {
if (line.getLength() < KEY_LENGTH) {
key.set(Integer.parseInt(line.toString()));
value = new Text();
// value.clear();
} else {
byte[] bytes = line.getBytes();
key.set(Integer.parseInt(new String(bytes).substring(0, KEY_LENGTH)));
value = new Text();
}
return true;
} else {
return false;
}
}
}
}

SortByMapReduce.java

package com.alibaba.cxf.sort;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import org.apache.hadoop.filecache.DistributedCache;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.mapred.lib.InputSampler;
import org.apache.hadoop.mapred.lib.TotalOrderPartitioner;
public class SortByMapReduce {

/**
* @param args
* @throws URISyntaxException
* @throws IOException
*/
public static void main(String[] args) throws IOException, URISyntaxException {
runJob(args);
}

private static void runJob(String[] args) throws IOException, URISyntaxException {

JobConf conf = new JobConf(SortByMapReduce.class);

FileInputFormat.setInputPaths(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
conf.setJobName(”SortByMapReduce”);

conf.setInputFormat(CxfInputFormat.class);
conf.setOutputKeyClass(IntWritable.class);
conf.setOutputFormat(TextOutputFormat.class);
conf.setNumReduceTasks(5);
conf.setPartitionerClass(TotalOrderPartitioner.class);
InputSampler.RandomSampler<IntWritable, NullWritable> sampler =
new InputSampler.RandomSampler<IntWritable, NullWritable>(0.1,10000,10);

Path input = FileInputFormat.getInputPaths(conf)[0];
input = input.makeQualified(input.getFileSystem(conf));
Path partitionFile = new Path(input,”_partitions”);
TotalOrderPartitioner.setPartitionFile(conf, partitionFile);
InputSampler.writePartitionFile(conf, sampler);

URI partitionURI = new URI(partitionFile.toString() + “#_partitions”);
DistributedCache.addCacheFile(partitionURI, conf);
DistributedCache.createSymlink(conf);
JobClient.runJob(conf);
}
}

更多Hadoop相關信息見Hadoop 專題頁面 http://www.linuxidc.com/topicnews.aspx?tid=13

上一篇文章： Hadoop涉及GBK編碼的文件
下一篇文章：自定義Hadoop Map/Reduce輸入文件切割InputFormat

Linux編程

使用Linux 和Hadoop 進行分布式計算[圖文]

使用Buildout進行開發

Hadoop中 key鍵的排序比較器類

Hadoop HelloWord - 排序

Hadoop--兩個簡單的MapReduce程序

MapReduce TotalOrderPartitioner 全局排序

Jni在Hadoop上的使用

使用Linux和Hadoop進行分布式計算

Linux編程

SHELL編程

PERL編程