今回のブログでは、PHD(Pentaho Hadoop Distiribution) のご紹介を行いたいと思います。
PHD(Pentaho Hadoop Distribution) とは、前回のブログにて紹介しました、
開発者によって定義されたMap/Reduceジョブのローカル環境から実行や
バッチジョブの一環として実行を可能にするHadoop Job Executorとは別で
実装されている、Hadoop Transformation Job Executor の実行の際に
必要になる環境となります。
今回ご紹介するPHDの設置を行う事により、Pentaho のETLクライアントツールであるSpoonにて
定義したデータ変換をそれぞれ、Hadoop上のMap関数、Reduce関数として実行が可能となります。
実際の利用例は続きをご覧ください。
PHD利用構築手順
1.Hadoop ノードを設置している各サーバーの${HADOOP_HOME}下にPHDソースを設置します。
上記ディレクトリーに設置を行い、圧縮ファイルの展開を行います。
2.ローカル環境にてPDIクライアントを起動し、それぞれMap関数用データ変換,Reduce関数用の
データ変換を作成いたします。
Map関数用データ変換設定例
Reduce関数用データ変換設定例
3.PDIバッチジョブ設定例
4.上記定義済みバッチジョブの実行およびブラウザー上での確認
PHDを利用する事により、これまでMapReduceクラスの用意等、
貴重な社内開発リソースを消費する事無く、Hadoopを利用したシステムの
実装を簡単に行っていただける為、より生産性の高いシステムに
開発リソースを注力して頂けるかと思います。
ご興味を持っていただいた場合、個別訪問させて頂き、
デモをご覧になっていただくことも可能ですので、
以下より、お問い合わせください。
デモ依頼
★Have a nice Hadoop integration day★
KSKソリューションズ Pentahoチーム
KSKソリューションズ Pentahoチーム
コメントする