Pentaho Data Integration (ETL): 2010年7月アーカイブ

PentahoのETLツールであるPentahoデータ統合(Pentaho Data Integratio)は、4.0にバージョンアップしたことで新たな機能が加わりました。

データ統合機能に加えて、データモデリング、デザイン機能が追加されています。


追加された主な機能は、以下の3つです。

  ● データ統合パースペクティブ:  従来通りのETL機能
   ビジュアライゼーションパースペクティブ:  レポートでのデータの表示
   モデリングパースペクティブ:  OLAP操作とメタデータのレポーティング


これによってデータ統合ツールとしてだけではなく、ソースからレポートまでBI開発のあらゆる段階をPDIで管理できます。

これらの機能がデータ統合ツールに追加されたことで、技術ユーザーとビジネスユーザーがプロジェクトのデプロイメント全体を理解して、共有することも可能です。

さらにPentahoデータ統合4.0では、セキュリティ、チームでの共同作業のための機能、、コンテンツのバージョニング管理、レポジトリ、ETLアクティビティを調整するスケジューリング機能等が強化されています。

今回からコミュニティ(オープンソース)版とエンタープライズ(商用)版が差別化され、上記の機能はエンタープライズ版にのみ追加されています。
これらの他にデータ変換ステップと、ジョブエントリも追加されており、こちらはコミュニティ版でもアップデートされています。
(ex. データ変換では: SAP Input, Salesforce Input等, ジョブエントリでは: Check DB Connections, Send Information using Syslog)

コミュニティ版(4.0.0-stable)はこちらよりダウンロードいただけます。


エンタープライズ版もリリース予定ですので、いましばらくおまちください。


★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム

Q:通常、Pentahoデータ統合(Kettle)でデータベース接続を作成すると、異なるDBやホストに接続する時には、データ変換やジョブを都度編集しなければなりません。何か方法はありませんか?

A:以下の手順により、変数と接続情報の共有をより簡単に行うことができます。

手順
1.Spoonでハードコーディングされた形式のDB接続を含むデータ変換を開きます。
2.ナビゲーションツリーの「データベース接続」セクションを展開します。
3.編集したい接続情報をダブルクリックします。
4."server host name"のテキストボックスで、ハードコーディングのものを変数に替えます。
  (e.g. ${DB_HOSTNAME})
表示
5.保存して、ダイアログを閉じます。
6.編集したデータベース接続を右クリックして、オプションから「共有」を選びます。
表示
7.開いているデータ変換を保存します。(共有接続は保存されるまで有効になりません)
8.エクスプローラ等で.kettleディレクトリーに行きます。
  Windows XP/2000 ->"C:\Documents and Settings\<username>\.kettle"
  Windows Vista -> ", /home/<username>/.kettle"
  Linux/Unix -> "C:\Profiles\<username>\.kettle"
9.接続情報が、.kettle/shared.xmlにあるはずです。
  本ファイルはコピーして、新しいKettle環境にペーストできます。
10.テキストエディター等でkettle.propertiesを開いてください。
11.コメントの下に、手順4で指定した新たな変数を追加してください。
   (e.g. DB_HOSTNAME = localhost)
12.いずれの新たな環境でも、kettle.propertiesを編集し、新たな変数を定義できます。
13.上記が完了したら、Kettleを再起動してください。

参照元:wiki.pentaho.com

★Have a nice Open Source Day★
KSK ソリューションズ Pentahoチーム