2016年10月アーカイブ

Pentaho社ではBest PracticeというPentahoを使用するにあたっての最適解やより効率的な方法論について体系的にまとめられた記事がございます。

しかしながら、文章が英語であることと一部の人しか読むことができないないようであることから、
今回この内容を随時日本語化しこのブログにて紹介させていただきます。

第一回目はPentaho Data Integration Design Guidelines(主にPDIにてETLを構築する上でのガイドライン)につきまして2、3紹介いたします。


①ETLは大枠からではなく、細かい機能から作り込むようにしてください。

PDIでは主にトランスフォーメーション(データの抽出、変換)、とジョブ(独立した機能をまとめるワークフローのような機能)に分かれており、
例えばジョブの中で、変数を設定するトランスフォーメーションを配置したり、ジョブそのものをジョブに配置するといった階層構造を作成することが可能です。
こうした状況のなかでETLを作成する場合、先にETLの構造を設計してかあら個々の機能を設計すると、後々想定していた構造が変わったり、どこにどの機能を配置したかを忘れてしまったり、処理がうまくいかない場合にどこがボトルネックかを判断することが難しくなります。
そのため、ETLの設計にあたってはまず全体の処理設計において必要な機能を洗い出し、個々必要な機能毎に作成し始めるのがよいでしょう。

②1ステップずつデータ変換を追加しデバッグしてください
データ変換では数十種類にも及ぶ機能(これらをステップと呼びます)があり、さらにJavascriptやJavaのコードを書くことによってオリジナルの処理を作成することも可能です。
これらの機能を組み合わせることによってデータ変換を作成することが可能ですが、一度に必要なステップをすべて配置してからテストするとどこかで不具合が発生して原因を調査したり、ステップを入れ替えたりと作成時間が大幅にかかってしまう場合があります。
そのため、データ変換の設計にあたっては1つステップを追加するたびにテストやデバッグするといったステップバイステップ方式で設計するほうが確実かつ早く設計できるでしょう。

③設計時に最初からパラメータを使用しないでください
PDIではETLで使用できる環境変数が用意されていたり、個々の設計に合わせてオリジナルの変数を設定することが可能であるため、非常に柔軟なETLを作成することが可能です。
しかしながら、設計時に最初からパラメータを使用して設計を行うとテストやデバッグがより難しくなります。
そのため、最初は固定の値を使用してテストやデバッグを行い、問題なければ値をパラメータ化してテストするのがよいでしょう。

次回はPentaho Data Integration Design Guidelinesの続きを紹介いたします。

インタラクティブレポートのプロンプトにて日付の範囲でデータの絞り込みを行う方法をご紹介します。

【設定】
プロンプトをクリックします。
1.png

同じ日付データを2つプロンプトに設定します。
2.png

プロンプトを編集します。
3.png

こちらは日付の開始用のプロンプトです。
4.png

こちらは日付の終了用のプロンプトです。
5.png

6.png

フィルターを編集します。
7.png

開始用のフィルターには、「オンまたは後」を設定します。
8.png

終了用のフィルターには、「オンまたは前」を設定します。
9.png

【テスト】
10.png

11.png

これで日付の範囲のデータの絞り込みが可能になります。

よろしければお試し下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team

2017年2月

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28        

月別 アーカイブ