Pentaho 3.7.0GA からHadoop に対するインテグレーションを行っていますが、
ペンタホデータ統合以外は、従来バージョンまでの使用方法と同じになる為、
利用可能機能を列挙するのみで詳細説明を割愛しますが、PDIのみ新規実装機能が増えている
為に利用方法も交えて、ご紹介いたします。
■実装機能
1.BIサーバー
・Hiveをデータソースとして利用した、定型レポート表示
・Hiveをデータソースとして利用した、アドホックレポート表示
2.ペンタホメタデータエディッター
・Hiveをデータソースとして使用し、BIサーバーにてアドホックレポートを表示する為のビジネスモデルを定義
3. ペンタホレポートデザイナー
・HIveをデータソースとして使用しBIサーバー上にて表示する為の定型レポートテンプレートを定義
4. ペンタホデータ統合(PDI)
・Hadoopファイル入力
・Hadoopファイル出力
・Hiveデータ入力
・Hadoopファイルコピー
・Hadoopジョブ実行(Hadoop MapReduce実行)
今回は、上記4のペンタホデータ統合(PDI)が対象となります。
Tweet
4. ペンタホデータ統合(PDI)
・Hadoopファイル入力
ETLの一部として、HDFS上からファイルを読み込む事が可能。
・Hadoopファイル出力
ETLの一部として、HDFS上へファイルを出力する事が可能。
・Hiveデータ入力
ETLの一部として、Hiveからデータを読みこむ事が可能。
・Hadoopファイルコピー
HDFS上にてファイルをコピーする事が可能
(ローカルからHDFSに対してや、HDFSからローカルに対しても可能)
・Hadoopジョブ実行
実装した Hadoop MapReduce をローカル環境からも実行する事が可能
バッチジョブの一部としてHadoop MapReduce を実行する事が可能
以下にHadoopジョブ実行の実装例を記載したいと思います。
1.バッチジョブの定義
HDFS上でHadoop MapReduceの実行結果の出力先フォルダーを初期化
↓
ローカル環境からHDFS上へ処理元となるデータをコピー
↓
HadoopMapReduceジョブを実行 処理1
↓
HadoopMapReduceジョブを実行 処理2
↓
HDFSからローカル環境へ処理済みファイルをコピー
↓
バッチジョブ終了
1.バッチジョブ例概要
2.実装したHadoop MapReduceを設定(*.jar形式)
3.HadoopJobExecutorステップの詳細内容の設定
4.バッチジョブの実行
5. PDIにより実行したHadoop MapReduceジョブをHadoop上で確認 1
6.PDIにより実行したHadoop MapReduceジョブをHadoop上で確認 2
手前味噌にはなりますが、上記で紹介をさせて頂きましたHadoopMapReduceジョブ実行機能は、Hadoop MapReduceを他のETL処理ステップと同じように扱える事が可能な事や、
毎回、Hadoop MapReduce ジョブをアップロードした上で${HADOOP_HOME}\bin\hadoop
からMapReduceジョブの実行を行う必要がない事もあり、小職個人としても非常に重宝している
機能となります。
今回、ご紹介を行った機能は商用版のPentaho BI Suite 3.7.0GAで利用が可能となりますので、
従来のBI機能のみではなく、既存システムに対してHadoopの追加実装をお考えのご担当者様や、
Hadoop統合の際の機能実装の容易性を向上させたいご担当者様は、
是非、以下からお問い合わせください。
★Have a nice Hadoop integration day★
KSKソリューションズ Pentahoチーム
KSKソリューションズ Pentahoチーム
コメントする