歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux編程 >> Linux編程

使用Hadoop MapReduce 進行排序

在Hadoop中的例子TeraSort,就是一個利用mapredue進行排序的例子。本文參考並簡化了這個例子:

排序的基本思想是利用了mapreduce的自動排序功能,在hadoop中,從map到reduce階段,map出來的結構會按照各個key按照 hash值分配到各個reduce中,其中,在reduce中所有的key都是有序的了。如果使用一個reduce,那麼我們直接將他output出來就 行了,但是這不能夠體現分布式的好處,所以,我們還是要用多個reduce來跑。

比方說我們有1000個1-10000的數據,跑10個ruduce任務, 如果我們運行進行partition的時候,能夠將在1-1000中數據的分配到第一個reduce中,1001-2000的數據分配到第二個 reduce中,以此類推。即第n個reduce所分配到的數據全部大於第n-1個reduce中的數據。這樣,每個reduce出來之後都是有序的了, 我們只要cat所有的輸出文件,變成一個大的文件,就都是有序的了。

基本思路就是這樣,但是現在有一個問題,就是數據的區間如何劃分,在數據量大,還有我們並不清楚數據分布的情況下。一個比較簡單的方法就是采樣,假如有一 億的數據,我們可以對數據進行采樣,如取10000個數據采樣,然後對采樣數據分區間。在Hadoop中,patition我們可以用 TotalOrderPartitioner替換默認的分區。然後將采樣的結果傳給他,就可以實現我們想要的分區。在采樣時,我們可以使用hadoop的 幾種采樣工具,RandomSampler,InputSampler,IntervalSampler。

這樣,我們就可以對利用分布式文件系統進行大數據量的排序了,我們也可以重寫Partitioner類中的compare函數,來定義比較的規則,從而可以實現字符串或其他非數字類型的排序,也可以實現二次排序乃至多次排序。

參考:《Hadoop權威指南》裡面有詳細的講解 下載見 http://www.linuxidc.com/Linux/2012-07/65972.htm

CxfInputFormat.java
 
 package com.alibaba.cxf.sort;
 
 import java.io.IOException;
 
 import org.apache.hadoop.io.IntWritable;
 import org.apache.hadoop.io.LongWritable;
 import org.apache.hadoop.io.NullWritable;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.mapred.FileInputFormat;
 import org.apache.hadoop.mapred.FileSplit;
 import org.apache.hadoop.mapred.InputSplit;
 import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.LineRecordReader;
 import org.apache.hadoop.mapred.RecordReader;
 import org.apache.hadoop.mapred.Reporter;
 
 public class CxfInputFormat extends FileInputFormat<IntWritable,Text>{
  @Override
  public RecordReader<IntWritable, Text> getRecordReader(InputSplit split,
    JobConf job, Reporter reporter) throws IOException {
  return new CxfRecordReader(job, (FileSplit) split);
  }
  class CxfRecordReader implements RecordReader<IntWritable,Text> {
 
  private LineRecordReader in;
      private LongWritable junk = new LongWritable();
      private Text line = new Text();
      private  int KEY_LENGTH = 10;
  public CxfRecordReader(JobConf job,FileSplit split) throws IOException{
    in = new LineRecordReader(job, split);
  }
  @Override
  public void close() throws IOException {
    in.close(); 
  }
  @Override
  public IntWritable createKey() {
    return new IntWritable();
  }
  @Override
  public Text createValue() {
   
    return new Text();
  }
  @Override
  public long getPos() throws IOException {
   
    return in.getPos();
  }
  @Override
  public float getProgress() throws IOException {
   
    return in.getProgress();
  }
  @Override
  public boolean next(IntWritable key, Text value) throws IOException {
    if (in.next(junk, line)) {
    if (line.getLength() < KEY_LENGTH) {
      key.set(Integer.parseInt(line.toString()));
      value = new Text();
  //  value.clear();
    } else {
      byte[] bytes = line.getBytes();
      key.set(Integer.parseInt(new String(bytes).substring(0, KEY_LENGTH)));
      value = new Text();
    }
    return true;
    } else {
    return false;
    }
  }
  }
 }
 
 
 
 SortByMapReduce.java
 
 package com.alibaba.cxf.sort;
 
 import java.io.IOException;
 import java.net.URI;
 import java.net.URISyntaxException;
 import org.apache.hadoop.filecache.DistributedCache;
 import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.io.IntWritable;
 import org.apache.hadoop.io.NullWritable;
 import org.apache.hadoop.mapred.FileInputFormat;
 import org.apache.hadoop.mapred.FileOutputFormat;
 import org.apache.hadoop.mapred.JobClient;
 import org.apache.hadoop.mapred.JobConf;
 import org.apache.hadoop.mapred.TextOutputFormat;
 import org.apache.hadoop.mapred.lib.InputSampler;
 import org.apache.hadoop.mapred.lib.TotalOrderPartitioner;
 public class SortByMapReduce {
 
  /**
  * @param args
  * @throws URISyntaxException
  * @throws IOException
 */
  public static void main(String[] args) throws IOException, URISyntaxException {
  runJob(args);
  }
 
  private static void runJob(String[] args) throws IOException, URISyntaxException {
 
  JobConf conf = new JobConf(SortByMapReduce.class);
 
  FileInputFormat.setInputPaths(conf, new Path(args[0]));
        FileOutputFormat.setOutputPath(conf, new Path(args[1]));
        conf.setJobName(”SortByMapReduce”);
 
  conf.setInputFormat(CxfInputFormat.class);
  conf.setOutputKeyClass(IntWritable.class);
  conf.setOutputFormat(TextOutputFormat.class);
  conf.setNumReduceTasks(5);
  conf.setPartitionerClass(TotalOrderPartitioner.class);
  InputSampler.RandomSampler<IntWritable, NullWritable> sampler =
    new InputSampler.RandomSampler<IntWritable, NullWritable>(0.1,10000,10);
 
  Path input = FileInputFormat.getInputPaths(conf)[0];
  input = input.makeQualified(input.getFileSystem(conf));
  Path partitionFile = new Path(input,”_partitions”);
  TotalOrderPartitioner.setPartitionFile(conf, partitionFile);
  InputSampler.writePartitionFile(conf, sampler);
 
  URI partitionURI = new URI(partitionFile.toString() + “#_partitions”);
  DistributedCache.addCacheFile(partitionURI, conf);
  DistributedCache.createSymlink(conf);
  JobClient.runJob(conf); 
  }
 }

更多Hadoop相關信息見Hadoop 專題頁面 http://www.linuxidc.com/topicnews.aspx?tid=13

Copyright © Linux教程網 All Rights Reserved