Raspberry PiでHadoopクラスターを構築したい

moyomot.hatenablog.com

自前のHadoopクラスタが欲しくなったので、構築を計画中です。リンクのように、Raspberry PiでHadoopクラスタを構築している例があります。

あまり言及されていませんが、Raspberry PiとHadoopは相性が良いのではないかと思っております。

そもそもHadoopのコンセプトは安価なマシンを集めて、分散処理をしましょうというものでした。

しかしながら、流行っている割には100台を超えるHadoopクラスタの例などほとんどありません。マシンは安価といっても、やはり数を揃えるとなると高価です。

そこでRaspberry Piです。数を増やせば最大10000台ぐらいまで、スケールアップするのがHadoopの良いところです。Raspberry Piならアホみたいな頭数を揃えることも、Yahooでなくでも可能です。アホほど並列化すれば、同じ値段のサーバー機より高い性能を発揮できる可能性もある。

もちろん限界性能はPCサーバー機でクラスタを組んだ方が高い。しかし、PCでHadoopの限界まで行くようなユーザーがどれほどいるのだろうか?世界でもHadoopの限界が見えて困っているのは、YahooとFacebookぐらいしかいないと思われる。

一般のユーザーはRaspberry Piで限界までいって、そこからPCにスケールアップしたらよいのではないだろうか?予算1000万円ぐらいが、分かれ目ではないかと思う。

また、ARMプロセッサは今後有望だ。x86は限界が見えてきていると言われるが、ARMはムーアの法則にしたがってまだまだ性能が上がっていくに違いない。ARMを用いたHadoopクラスタは、今はまだネタ枠だが、遠からぬうちに実用されると確信している。もしかしたら、今はまだARMでHadoopクラスタを組んでも、同じ値段のPCより性能は低いかもしれない。CPU性能よりネットワーク性能がきつい気がします。しかし、今後逆転すると予想する。

NameNodeは、何台かはわからないがある程度の台数以上のクラスタ構成になってきたら、Raspberry Piにはきつくなってくるのではないかと思う。NameNodeだけ良いPCで、あとはRaspberry Piでいいんじゃないかな?

ただ、Raspberry PiがARMマシンの中で、Hadoopに適しているわけではない。Raspberry Piが有名で、量産されていて安価だから上げているだけだ。例えば、ディスクはUSB経由でなくて、直につけたい。HadoopのDataNode用ARMボードは、需要がある気がします。

とりあえず1個ラズパイを注文したので、遊んでみることにします。