Hive 0.13 released!

Hive Hadoop

Hive 0.13 がリリースされた．0.13 の主な変更は最適化(特にJoinや処理のvectorization)である．一度，処理基盤(Presto/Impala 辺り)の間でTPC-DS/BigData Benchmark などを用いてベンチマークをとってみるのもいいかもしれない．

2014-04-21

Support Docker containers in YARN

Support Docker containers in YARN という JIRA が YARN に登録された．つまるところ，LXC を cgroups 経由で起動する代わりに Docker 経由で起動するというものに見える．Container 起動側の設定を全て合わせるのは大変だから，そこをDocker にしておくの…

2014-02-13

Big Data Benchmark 2014/2 バージョン

amplab Hadoop

amplab の Big Data Benchmark が更新されていたので，要チェック．クエリが偏っている気もするが，Impala と Shark がかなり高速．TPC-DS などもベンチマーク結果に入るともっと客観的なベンチマーク結果になりそう．

2014-01-21

The Design and Implementation of Modern Column-Oriented Database Systems

HadoopDB で有名な Daniel Adabi 先生による列指向DBに関する資料 The Design and Implementation of Modern Column-Oriented Database Systems を @maropu 先生経由で知った．目次を見ただけでも，C-Store，MonetDB/VectorWise と有名どころの話が載って…

2014-01-21

maven + Java 7 on Mac が classes.jar を見つけられずコンパイルにこける場合の対処法

Java JDK7 Hadoop

以下に示されている workaround が有効． sudo mkdir `/usr/libexec/java_home -v 1.7`/Classes sudo ln -s `/usr/libexec/java_home -v 1.7`/lib/tools.jar `/usr/libexec/java_home -v 1.7`/Classes/classes.jar https://jira.codehaus.org/browse/MJSPC-5…

2013-11-08

YARN の LocalResources について

YARN Hadoop

Hortonworks の Vinod さんが LocalResource という YARN のコンポーネントに関する記事を書いていたので，備忘録を書いておく．LocalResouce は，ひとことでいうと起動のために必要なファイルを入れておくための NodeManager の入れ物で，DistirubtedCache …

2013-11-04

#pyfes 2013.7 で発表した Spark/Shark のスライドをアップロードしました

spark shark

現段階だと少ない気がする Apache Spark の日本語資料を公開した*1．概要なので，技術的詳細について知りたい方はスライド中の参考文献を読むと良い．なお， Apache Spark は Cloudera 社が CDH5 でサポートを始める(！)というプレスリリースがあったばかり…

2013-09-29

hadoop-mesos

Hadoop Mesos

mesos と hadoop を組み合わせて利用しようとすると，JobTracker/TaskTracker を書き換える必要があるという問題があった．書き換えた版はmesos 以下のレポジトリに公開されているけれども，コミュニティが開発した最新版を利用する際には rebase してコンパ…

2013-09-28

HADOOP-10000

Hadoop

Apache Hadoop の hadoop-common のチケット数が10000を超えたみたい．なお，10000のチケットは HttpServer log link is inaccessible in secure cluster． https://issues.apache.org/jira/browse/HADOOP-10000

2013-09-27

Llama - Low Latency Application MAster

http://cloudera.github.io/llama/ Cloudera のエンジニア達が，Impala の YARN 対応させる上で必要な機能を足したのが llama とのこと．あとで技術的詳細をかく．

2013-08-05

HDFS-4953(mmap(2) を用いたローカル読み込みの高速化)について

HDFSが高速に？mmapによるzero-copyでの読み込みにて，id:kawamon さんが，HDFS-4953 のチケットについてコメントをしていた．Hadoop の処理は，IO した後の Java のオブジェクト生成などが原因で CPU ボトルネックになりやすい．よって，この手のCPUコスト…