Search

OakieTags

Who's online

There are currently 0 users and 43 guests online.

Recent comments

Affiliations

Hadoop/HiveでTPC-H

「Peta Byteを超えるデータ量をスキャンする」のに1台のサーバでは無理がある。
だから、Hadoopということになる。でも「100台のサーバを揃えてテストをする」なんて趣味の範囲を超えてしまうのでできない。
取りあえず、以下の構成4台で、データ量も32GBにしてOracleと比較してみる。

OSもCentOS 5.5 (x86-64)にして、今回使っているAMD Phenom II X6 1100T Black Edition BOX(3.3 GHz/6 core)1台でDOP=6のOracleのパフォーマンスを見てみると:

このブログでずっとやってきた事だけど、Parallel QueryにはCompressやPartitioningが効果がある。
でもTPC-Hのデータの「質」がPartitioning向きであっただけで、Partitioningなどできないパターンも数多く存在する。それがPetaレベルであったら、とてもじゃないけど1台のOracleでは無理がある。
そんなときの選択肢としてHadoop/Hiveがあるのだが、、、

32GB程度のデータ量でOracleと比較すると話しにならないぐらい遅い。
括弧)内はHadoopバージョン

4ノード(4台)で圧縮した(バージョン0.7) : 1サーバ(1台)でのOracle DOP=1(non-Parallel Query)
が4倍以上遅い。