jdbcインターフェース経由でPDI定義体からのデータ取得

|
本ブログではJDBC Kettle プロジェクトのご紹介を行いたく思います。

JDBC Kettle プロジェクト
http://code.google.com/p/jdbckettle/

lucidDBを提供しているDynamoBI社※のCEOであるNicholas Goodman氏を中心に
PDIのチーフアーキテクトであるMatt Casters氏も参加しているプロジェクトになります。

※DynamoBI社


本プロジェクトの特徴は、PDI(Pentahoデータ変換)にて定義したETL処理ロジックから
データの取得を行えるものでPentahoレポートデザイナ等でも使用されています。

今回は、実際に本プロジェクトの成果物を利用し以下の検証を行いました。

■ETL処理ロジック定義を定義
定義内容:
1.CSVファイルの読み込み(元データ)
2.時系列順で並び替え
3.HDFSよりCSVファイルの読み込み(追加データ)
4.年をIDとしてストリームの結合
5.MongoDBよりデータ取得
6.取得データの解析(JSONオブジェクト→ストリーム)
7.年をIDとしてストリームの結合
8.データ出力

・定義内容

PDI_datasource.JPG


・データプレビュ
PDI_datasource2.JPG


■上記定義内容からJDBCドライバ経由にてデータを取得

・PDI定義体への接続設定

kettle_connection_object.JPG

・定義体よりスキーマオブジェクトの一覧を取得
kettle_jdbc_schema_object.JPG


・データプレビュ
kettle_jdbc_data_preview.JPG


上記の様に、異なるアプリケーションのデータ統合を定義し他のデータベースベンダ様が提供されているJDBCドライバをご利用になった時と同様にクエリ構文形式でデータ取得を行う事が可能となります。

社内の開発担当部署の方々へのご説明を行うプロジェクト責任者様は、
社内でのコンセンサスを得やすくされる為に、PentahoをBIとしてのみ利用する事に加味し、
システム開発の上でも工数削減を行える事を訴求されるのも一つのアプローチかと思います。

また弊社へご相談いただけますと、社内へのご提案を含めたご支援が可能ですので、
ご興味を抱いて頂いたご担当者様はこちらよりお問い合わせください。

☆Have a nice business implementation ☆
Pentahoチーム