オープンソースBIのPentaho(ペンタホ)ブログでタグ「ETL」が付けられているもの

PentahoでのDWH(データウェアハウス)構築の際に、「Pentahoデータ統合(ETL)の処理能力はどうか?」といったご質問をよくいただきます。本ホワイトペーパーでは、その質問に100%答えることはできないものの、ある程度の目安となる情報を教えてくれます。

●タイトル:「クラウドやオンプレミス(自社運用型)での 大量データ処理のスケーリング」

●出典:
本ホワイトーペーパーは、Pentahoのパートナーであるバイロン社のニコラス・グッドマン氏のホワイトペーパーを日本語訳したものです。
http://www.nicholasgoodman.com/bt/blog/2009/04/21/pdi-scale-out-whitepaper/

●ダウンロード
日本語版はこちらよりダウンロードいただけます。

●概要:
このホワイトペーパーでは、以下の主要な問いに答えています。
問1: クラスターにノードを追加するとき、PDI(Pentahoデータ統合)は比例して変化するか?
問2: より大量のデータを処理するとき、PDIは比例して変化するか?
問3: クラウドでのETLに関する主要な価格とパフオーマンス指標は何か?
問4: アマゾンEC2にPDIをデプロイした人は何を知っておく必要があるのか?

問1では、以下のように、Pentahoデータ統合(ETL)のノードを増やすことで処理能力が比例的に向上していくことが示されています。
scales1.JPG

問2に対しては、以下のように、データベース(データウェアハウス)のデータ量が増えるにしたがい、リニアにスケールすることが示されています。scales2.JPG
問3については、Pentahoデータ統合(ETL)における平均のスループットを定義しています。
average_throughput.JPG


問4については、Amazon EC2(クラウド)でのデータ統合処理を行う上での、EBS(Elastic Block Storage)やIPアドレスについてのアドバイスや注意点が記載されています。

本ドキュメントのダウンロードは、Penthao日本語サイトのドキュメントから可能です。ぜひご一読ください。

Have a great Open Source Day with Pentaho
★KSKソリューションズ Pentahoチーム★