Hadoop
Hive 0.13 がリリースされた.0.13 の主な変更は最適化(特にJoinや処理のvectorization)である.一度,処理基盤(Presto/Impala 辺り)の間でTPC-DS/BigData Benchmark などを用いてベンチマークをとってみるのもいいかもしれない.
amplab の Big Data Benchmark が更新されていたので,要チェック.クエリが偏っている気もするが,Impala と Shark がかなり高速.TPC-DS などもベンチマーク結果に入るともっと客観的なベンチマーク結果になりそう.
以下に示されている workaround が有効. sudo mkdir `/usr/libexec/java_home -v 1.7`/Classes sudo ln -s `/usr/libexec/java_home -v 1.7`/lib/tools.jar `/usr/libexec/java_home -v 1.7`/Classes/classes.jar https://jira.codehaus.org/browse/MJSPC-5…
Hortonworks の Vinod さんが LocalResource という YARN のコンポーネントに関する記事を書いていたので,備忘録を書いておく.LocalResouce は,ひとことでいうと起動のために必要なファイルを入れておくための NodeManager の入れ物で,DistirubtedCache …
mesos と hadoop を組み合わせて利用しようとすると,JobTracker/TaskTracker を書き換える必要があるという問題があった.書き換えた版はmesos 以下のレポジトリに公開されているけれども,コミュニティが開発した最新版を利用する際には rebase してコンパ…
Apache Hadoop の hadoop-common のチケット数が10000を超えたみたい. なお,10000のチケットは HttpServer log link is inaccessible in secure cluster. https://issues.apache.org/jira/browse/HADOOP-10000
ZooKeeper Failover Controler に関して記述しているドキュメント一覧.一番上のドキュメントを抑えておけば,趣旨,アーキテクチャ,故障時の挙動に関しては(設計レベルで)理解できる.実際の挙動については,今のところコードを読むしかない. Todd Lipcon…