Pentaho Hadoop統合機能 利用例

| | コメント(0) | トラックバック(0)
Pentaho 3.7.0GA からHadoop に対するインテグレーションを行っていますが、
ペンタホデータ統合以外は、従来バージョンまでの使用方法と同じになる為、
利用可能機能を列挙するのみで詳細説明を割愛しますが、PDIのみ新規実装機能が増えている
為に利用方法も交えて、ご紹介いたします。


hadoop_dadanode2.JPG

■実装機能
1.BIサーバー 
・Hiveをデータソースとして利用した、定型レポート表示
・Hiveをデータソースとして利用した、アドホックレポート表示

2.ペンタホメタデータエディッター
・Hiveをデータソースとして使用し、BIサーバーにてアドホックレポートを表示する為のビジネスモデルを定義

3. ペンタホレポートデザイナー
・HIveをデータソースとして使用しBIサーバー上にて表示する為の定型レポートテンプレートを定義

4. ペンタホデータ統合(PDI)
・Hadoopファイル入力
・Hadoopファイル出力
・Hiveデータ入力
・Hadoopファイルコピー
・Hadoopジョブ実行(Hadoop MapReduce実行)

今回は、上記4のペンタホデータ統合(PDI)が対象となります。
4. ペンタホデータ統合(PDI)
・Hadoopファイル入力
ETLの一部として、HDFS上からファイルを読み込む事が可能。

・Hadoopファイル出力
ETLの一部として、HDFS上へファイルを出力する事が可能。

・Hiveデータ入力
ETLの一部として、Hiveからデータを読みこむ事が可能。

・Hadoopファイルコピー
HDFS上にてファイルをコピーする事が可能
(ローカルからHDFSに対してや、HDFSからローカルに対しても可能)

・Hadoopジョブ実行
実装した Hadoop MapReduce をローカル環境からも実行する事が可能
バッチジョブの一部としてHadoop MapReduce を実行する事が可能

以下にHadoopジョブ実行の実装例を記載したいと思います。

1.バッチジョブの定義
HDFS上でHadoop MapReduceの実行結果の出力先フォルダーを初期化
ローカル環境からHDFS上へ処理元となるデータをコピー
HadoopMapReduceジョブを実行 処理1
HadoopMapReduceジョブを実行 処理2
HDFSからローカル環境へ処理済みファイルをコピー
バッチジョブ終了

1.バッチジョブ例概要
hadoop_mapreduce.JPG


2.実装したHadoop MapReduceを設定(*.jar形式)
hadoop_mapreduce2.JPG

3.HadoopJobExecutorステップの詳細内容の設定
hadoop_mapreduce3.JPG

4.バッチジョブの実行
hadoop_mapreduce4.JPG

5. PDIにより実行したHadoop MapReduceジョブをHadoop上で確認 1
hadoop_mapreduce5.JPG

6.PDIにより実行したHadoop MapReduceジョブをHadoop上で確認 2
hadoop_mapreduce6.JPG

手前味噌にはなりますが、上記で紹介をさせて頂きましたHadoopMapReduceジョブ実行機能は、Hadoop MapReduceを他のETL処理ステップと同じように扱える事が可能な事や、
毎回、Hadoop MapReduce ジョブをアップロードした上で${HADOOP_HOME}\bin\hadoop 
からMapReduceジョブの実行を行う必要がない事もあり、小職個人としても非常に重宝している
機能となります。

今回、ご紹介を行った機能は商用版のPentaho BI Suite 3.7.0GAで利用が可能となりますので、
従来のBI機能のみではなく、既存システムに対してHadoopの追加実装をお考えのご担当者様や、
Hadoop統合の際の機能実装の容易性を向上させたいご担当者様は、
是非、以下からお問い合わせください。


★Have a nice Hadoop integration day★
KSKソリューションズ Pentahoチーム

トラックバック(0)

このブログ記事を参照しているブログ一覧: Pentaho Hadoop統合機能 利用例

このブログ記事に対するトラックバックURL: http://www.pentaho-partner.jp/mt/mt-tb.cgi/201

コメントする