「Peta Byteを超えるデータ量をスキャンする」のに1台のサーバでは無理がある。
だから、Hadoopということになる。でも「100台のサーバを揃えてテストをする」なんて趣味の範囲を超えてしまうのでできない。
取りあえず、以下の構成4台で、データ量も32GBにしてOracleと比較してみる。
OSもCentOS 5.5 (x86-64)にして、今回使っているAMD Phenom II X6 1100T Black Edition BOX(3.3 GHz/6 core)1台でDOP=6のOracleのパフォーマンスを見てみると:
このブログでずっとやってきた事だけど、Parallel QueryにはCompressやPartitioningが効果がある。
でもTPC-Hのデータの「質」がPartitioning向きであっただけで、Partitioningなどできないパターンも数多く存在する。それがPetaレベルであったら、とてもじゃないけど1台のOracleでは無理がある。
そんなときの選択肢としてHadoop/Hiveがあるのだが、、、
32GB程度のデータ量でOracleと比較すると話しにならないぐらい遅い。
括弧)内はHadoopバージョン
4ノード(4台)で圧縮した(バージョン0.7) : 1サーバ(1台)でのOracle DOP=1(non-Parallel Query)
が4倍以上遅い。
Recent comments
17 weeks 3 days ago
27 weeks 1 day ago
28 weeks 6 days ago
32 weeks 1 day ago
34 weeks 3 days ago
43 weeks 6 days ago
45 weeks 3 days ago
46 weeks 3 days ago
46 weeks 4 days ago
49 weeks 2 days ago