hadoop運作機制的聰明運用

Hadoop Distributed File System

  • hadoop 的檔案會以一個一個 block 的形式做儲存。

  • 預設 block size 為 64Mb。

  • 並預設每個 block 會複製成三份儲存在不同的 Data node。

  • 若是搭配機架設定,可以是兩份放同一個機架,一份獨立放另外一個機架。

HDFS 不適合存放小檔案

  • Name Node 透過記憶體紀錄每個檔案的 metadata ,若是零碎檔案太多會佔用太多的記憶體。

HDFS不支援 random access

  • 在hadoop系統裡的資料分割後,每一筆資料都會用 offset 紀錄他在分割前的資料中是在哪個段落、開始位置與結束位置。

  • 但Hbase是支援的喔

平衡水位

HDFS 做分散式儲存的時候,若遇到不同機器資料量不均衡怎麼處理?

這稱作平衡水位,基本上有兩個做法,當然不是直覺的將資料填到水位低的機器囉。

  • 先將 replica set 調高再降回來,但這不是好方法,因為是危機處理機制,是會影像到日常工作的。

  • 透過 hadoop 的 balancer。

Last updated