最近在看《Hadoop:The Definitive Guide》,對其分布式文件系統HDFS的Streaming data access不能理解。基於流的數據讀寫,太抽象了,什麼叫基於流,什麼是流?Hadoop是Java語言寫的,所以想理解好Hadoop的Streaming Data Access,還得從Java流機制入手。流機制也是JAVA及C++中的一個重要的機制,通過流使我們能夠自由地操作包括文件,內存,IO設備等等中的數據。
流是個抽象的概念,是對輸入輸出設備的抽象,Java程序中,對於數據的輸入/輸出操作都是以“流”的方式進行。設備可以是文件,網絡,內存等。
流具有方向性,至於是輸入流還是輸出流則是一個相對的概念,一般以程序為參考,如果數據的流向是程序至設備,我們成為輸出流,反之我們稱為輸入流。
可以將流想象成一個“水流管道”,水流就在這管道中形成了,自然就出現了方向的概念。
當程序需要從某個數據源讀入數據的時候,就會開啟一個輸入流,數據源可以是文件、內存或網絡等等。相反地,需要寫出數據到某個數據源目的地的時候,也會開啟一個輸出流,這個數據源目的地也可以是文件、內存或網絡等等。
可以從不同的角度對流進行分類:
1. 處理的數據單位不同,可分為:字符流,字節流
2.數據流方向不同,可分為:輸入流,輸出流
3.功能不同,可分為:節點流,處理流
1. 和 2. 都比較好理解,對於根據功能分類的,可以這麼理解:
節點流:節點流從一個特定的數據源讀寫數據。即節點流是直接操作文件,網絡等的流,例如FileInputStream和FileOutputStream,他們直接從文件中讀取或往文件中寫入字節流。
處理流:“連接”在已存在的流(節點流或處理流)之上通過對數據的處理為程序提供更為強大的讀寫功能。過濾流是使用一個已經存在的輸入流或輸出流連接創建的,過濾流就是對節點流進行一系列的包裝。例如BufferedInputStream和BufferedOutputStream,使用已經存在的節點流來構造,提供帶緩沖的讀寫,提高了讀寫的效率,以及DataInputStream和DataOutputStream,使用已經存在的節點流來構造,提供了讀寫Java中的基本數據類型的功能。他們都屬於過濾流。
舉個簡單的例子:
public static void main(String[] args) throws IOException { // 節點流FileOutputStream直接以A.txt作為數據源操作 FileOutputStream fileOutputStream = new FileOutputStream("A.txt"); // 過濾流BufferedOutputStream進一步裝飾節點流,提供緩沖寫 BufferedOutputStream bufferedOutputStream = new BufferedOutputStream( fileOutputStream); // 過濾流DataOutputStream進一步裝飾過濾流,使其提供基本數據類型的寫 DataOutputStream out = new DataOutputStream(bufferedOutputStream); out.writeInt(3); out.writeBoolean(true); out.flush(); out.close(); // 此處輸入節點流,過濾流正好跟上邊輸出對應,讀者可舉一反三 DataInputStream in = new DataInputStream(new BufferedInputStream( new FileInputStream("A.txt"))); System.out.println(in.readInt()); System.out.println(in.readBoolean()); in.close(); }
更多詳情見請繼續閱讀下一頁的精彩內容: http://www.linuxidc.com/Linux/2014-11/109546p2.htm