2015-07-26

Scaling parameters of the straw buckets in CRUSH

手慰み考え事

2015-05-18

Rasberry PiでHadoopクラスターを構築する。その2

手慰み計算機

f:id:fjkz:20150518212745j:plain

したこと:

配線を綺麗にした

前回と比較してほしい。かなり美しくなっている

スイッチングハブをBuffalo製のに変えた。

初期不良を掴んでしまったみたいなので、新しく買った。2000円なので交換する手間のほうが高いので。

Raspiが100Mpbsしか無理なので、全く意味はないけれど、1Gbpm対応のにした。今後マシンがバージョンアップしたら買い換えることももしかしたらあるかもしれないので。

ネームノードのMicroSDカードがお亡くなりになった。

スレーブノードの5個はSumsung製だったのだが、マスターだけTransend製であった。これも初期不良を掴んでしまったようだ。OSが起動しなくなった。ルートFSが壊れている。一度同様の現象があって、入れなおしたのだが、また起こった。今後も同様のことが起こると思われるのですべてSumsung製にする。たった1000円だし。

毎日のようにAmazonに注文をしている。

安定稼働まで道のりは険しそうだ。できるのか？

2015-05-18

Rasberry PiでHadoopクラスターを構築する。その１

手慰み計算機

f:id:fjkz:20150517103731j:plain

Raspberry PiでHadoop クラスタを作ろうと思いまして、ゴニョゴニョしております。

写真のようにハードウェアは組み上がりました。

構成としては、

部品	メーカー	個数
Raspberry Pi 2 B		6
USB HDD 1TB	Trancend	5
Micro SD Class 10	Sumsung	6
100 Mbps 8ポートスイッチングハブ	Logitec	1
LANケーブル内部用50cm		6
LANケーブル外部接続用		2
USB電源 50W 6ポート	Sanwa	1
電源用 Micro USBケーブル	ダイソー	6
ラック	ダイソー	1

です。

HDDの電源はラズパイのUSBから採っている。

OSは以下の方法を参考に入れたスペシャル版Ubuntu 14.04 Server。

第362回 Raspberry Pi 2でXubuntu 14.04を動かす：Ubuntu Weekly Recipe｜gihyo.jp … 技術評論社

JavaはOracle JDK7 armhf。

HadoopはApache版2.6.0をARM用に自前ビルドしたものである。

マスター１台、スレーブ５台の構成です。冗長化とかは特にせず。*1

とりあえずHDFS クラスタとしては動作しました。。

しかしながら、メモリががノードあたり1GBしかないので、YARNでMapReduceプログラムを動かそうとしても、リソースの取得で失敗します。ちょっとチューニングが必要そうです。

しかし、チューニングを始めようとしたら、かったばかりのハブが壊れてしましました。ハブを直してから、YARNについて検証します。

*1:メタデータのバックアップは少なくともしないと

2015-05-16

スケールアップとスケールアウトをどう組み合わせるべきか？

考え事手慰み

How should we mix scale-up and scale-out strategies

2015-05-06

ARM用にHadoopをビルドする。

計算機手慰み

f:id:fjkz:20150506234724j:plain

Raspberry PiでHadoop クラスタを作ろうと試みています。

Raspberry Pi 2 Bを1個買いまして、Raspbianを入れました。Rapbianは入っているパッケージ等が実験的すぎるので、台数増えるとトラブリそうです。

Apacheから配布されているHadoop 2.6.0のバイナリを用いて、１ノードのHDFSを構築することには成功しました。

しかしながら、Hadoopにはネイティブ実装も含まれているのですが、Apacheから配布されているバイナリはx86用にビルドされております。ネイティブの部分はなくても動くのですが、ないとパフォーマンス等で不利になると思われます。

そこで、ARM用にHadoopをビルドしようと思います。ラズパイ上でビルドします。

Oracle JDK8のHard Float版が最初から入っておりましたが、これではビルドがうまく行かないのでJDK7でビルドします。本当はJDK6が良かったのですが、apt-getから取れないので7にします。

基本的にはHadoopのソースの中のBUILDING.txtの通りにやればできます。ただ、Protocol Bufferは2.5.0が必須なので自前でビルドします。

# Install require packages
sudo apt-get install oracle-java7-jdk
sudo apt-get install maven
sudo apt-get install cmake
sudo apt-get install zlib1g-dev
sudo apt-get install libssl-dev

sudo update-alternatives --config java # Select Oracle JDK7

# Required version of Protocol Buffer needs to be self-build.
wget https://github.com/google/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gz
tar xvzf protobuf-2.5.0.tar.gz
cd protobuf-2.5.0
./configure
make
sudo make install
export LD_LIBRARY_PATH=/usr/local/lib
echo `protobuf --version` # "libprotoc 2.5.0" -> OK
cd ..

# Dowload Hadoop
wget ftp://ftp.riken.jp/net/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0-src.tar.gz
tar xvzf hadoop-2.6.0-src.tar.gz
cd hadoop-2.6.0-src

このまま、mvn compile -Pnativeと打っても、ビルドスクリプトがバグっているっぽく失敗します。しかしながら、ARMをビルドできるようには意識して作られております。ARMはコミュニティの関心の対象にあるようです。

JNIFlags.cmakeを以下のように編集します。もっと言い直し方があるかもしれませんが、とりあえずの処置として。

--- hadoop-common-project/hadoop-common/src/JNIFlags.cmake   2015-05-06 09:02:41.374905759 +0000
+++ hadoop-common-project/hadoop-common/src/JNIFlags.cmake.bak    2015-05-06 07:26:06.229779163 +0000
@@ -41,7 +41,7 @@
         message(WARNING "readelf not found; JVM float ABI detection disabled")
     else (READELF MATCHES "NOTFOUND")
         execute_process(
-            COMMAND ${READELF} -A $ENV{JAVA_JVM_LIBRARY}
+            COMMAND ${READELF} -A ${JAVA_JVM_LIBRARY}
             OUTPUT_VARIABLE JVM_ELF_ARCH
             ERROR_QUIET)
         if (NOT JVM_ELF_ARCH MATCHES "Tag_ABI_VFP_args: VFP registers")

これで準備が整いました。以下でHadoopをビルドします。

# Build Hadoop
export JAVA_HOME=/usr/lib/jvm/jdk-7-oracle-armhf
export JAVA_JVM_LIBRARY=${JAVA_HOME}/jre/lib/arm/server/libjvm.so
mvn package -Pnative -Pdist -DskipTests -Dtar

時間がかかるので気長に待ちます。（100分かかりました。）

リグレッションテストもビルド時に実行できるのですが、やはり一部失敗します。メモリが足りないとか、規定時間を超えたとかが多いのでクリティカルではなさそうなので、気にしなくてもよいのか？本当に運用していくなら、考える必要があります。

自前ビルドのバイナリを用いて、１ノード環境でHDFSの起動とファイルの読み書きはできました。

１ノードでMapReduceやHDFSの機能をひと通り試せたら、マシンを増やしてクラスタを組みたいと思います。

バグが頻発しそうです。環境が変わるので、普通では発現しないバグが現れることが予想されます。Hadoop自体のいいテストになりそうですね。

追記 2015-05-07

[HADOOP-9320] Hadoop native build failure on ARM hard-float - ASF JIRA

CMakeでビルドエラーになる件はパッチが公開されているので、それを用いてください。

追記 2015-06-14

https://issues.apache.org/jira/browse/HADOOP-10846

このパッチもあてないと、まともに動かなさそうだ。x86以外はほとんどの人が興味ないのだと思うけど、重大な障害修正は取り込んでほしい。