2012年10月アーカイブ

PDI(ETL)で環境変数を利用する

|
ETL処理にて、
各種ステップを駆使してさまざまなロジックを考えますが、
例えばDB接続や読み込むファイルのパス等を利用する場合、
ステップごとに設定するため、
もし環境が変わったときなど、各ステップそれぞれに設定変更をするのは面倒ですね。

その場合、
環境変数を使うことをおすすめします。

例えば、DB接続の設定の場合。
01.PNG

設定値を
${変数名}
にて記述します。

入力ボックスの横に「菱形ドルマーク?」のようなアイコンがある場合は
変数を設定できます。

ちなみに
上記画面のパスワードの項目は**でマスクされてますが、
実際は
${password}とタイプしてあります。

このように変数を設定しておき、
それらの実際の値については、

①Spoonの環境変数に設定しておく
②kettle.propertiesに設定しておく

という方法で設定できます。

spoon(GUI)からテスト的にローカルでトランスフォーメーション等を実行したい場合は
①の方法で。
各種サーバ側などでいろいろな環境に合わせて実行したい場合は
②の方法ですね。

①については
02.PNG

上記のように設定しておけば
それらの値を参照して動作します。

②については
kettle.propertiesファイル内に、
-----------------------------------------------------------------------
PORT=3306
INPUT_FILEPASS=C\:\\work\\KSK
HOST=localhost
PASSWORD=
DATABASE=sample
USER=root
-----------------------------------------------------------------------

のように設定しておけばOKです。

kettle.propertiesファイルについては、
実行するユーザディレクトリ内に
「.kettle」ディレクトリが作成されていますので、
その中のkettle.propertiesを編集すればOKです。

ご活用ください。


★Have a nice Open Source Day★
KSKアナリティクス Pentahoチーム




セミナー関連のご紹介が続きますが、11月7日(火)に東京ミッドタウンにて開催されるCloudera World Tokyoに弊社代表が登壇させて頂きます。
img-cwjheader2.pngのサムネール画像

日本を代表する大手IT企業が参加される中でHadoop対応のBI/ETLとしてPentahoの存在感が増していることを強く感じます。


★Please join our seminar★
KSK Analytics Pentaho Team

DELL社BigDataセミナーにて

|
昨日、DELL社主催のBigDataセミナーにてPentahoの紹介をさせて頂きました。
2012_10_29_16_54_14.jpg

北米ではDELL社がCloudera社のHadoopとPentahoをセットにして販売されています。
日本ではDELLからは"ハードを買う"というイメージがあるかもしれませんが、ワールドワイドではサービスの売上比率が6割とのこと。
PentahoはハードやOSに依存しませんが、管理や保守、耐障害性などやはりグローバルな大手メーカーのハードはしっかりしているという印象を強く受けました。

hadoop-dell-image1.jpg

大手メーカーも注目するPentahoの情報をより詳しく知りたい方はぜひお問い合わせ下さい。
★Have a nice bigdata soultion with Pentaho★
KSK Analytics Pentaho Team

PDIのログを有効に設定する

|
PDIのログ機能を有効にするとトランスフォーメーションとジョブの実行時のエラーやパフォーマンスをログとしてデータベースに残す事ができます。また、データベースに出力した情報はエンタープライズコンソールで観覧する事も出来ます。ログは以下の手順で有効に設定する事が出来ます。

1. 任意のRDBMSに"pdi_logging"という名でデータベースを作成します。

2. Spoonを起動し、ログを有効にするトランスフォーメーションまたはジョブを開きます。

3. メニューバーのEdit→Settings...を選択し、設定ダイアログを表示します。
logging_dialog.png

4. Loggingタブを選択します。

5. 左のリストからログを行う機能を選択します。

6. Log Connectionフィールドの隣のNewボタンをクリックし、pdi_loggingデータベースの接続情報を
    入力します。

8. Log table nameフィールドに任意のテーブル名を入力し、SQLボタンを押してテーブルを作成
    します。

7. "Fields to log"からログに出力するフィールド選択し、チェックボックスにチェックを入れます。
    エンタープライズコンソールでログを観覧するには必ずすべてのフィールドを出力しないといけま
    せんが、LOG_FIELDを出力するとBIサーバー、DIサーバーのパフォーマンスに影響がでる事も
    あります。

トランスフォーメーションの実行時にはログレベルも選択する事が出来ます。
log_level.png

★Have a nice Open Source Day★
KSKアナリティクス Pentahoチーム
MongoDBはBigDataの潮流により注目されているデータベースの1つで、以下のような特徴があります。
 スキーマレス: スキーマを事前定義する必要がないので自由度が高い
 BSON:JSONのバイナリ版のような形式で構成される
 レイテンシ:他のKVSより初期レスポンスがよい
 クエリやインデックスが可能: BigData対応の新しいNoSQL系DBの中で、
                    BI向きと言えるかもしれません。
mongoDB.jpg

PentahoDataIntegration4.3では既にMongoDBをサポートしていますので接続してみました。
mongo-pentaho-1.jpg
この例では単純にMongoDBに入っているWebアクセスログデータを引き出してテキストファイルに出力していますが、当然ながら各種変換ステップを利用して加工、合成等がGUIで実施できます。

mongo-pentaho-2.jpg

TwitterやFacebookのようなソーシャル系データ、Webログやコールログなどの保管に適したMongoDBですがBI活用してこそ真価が出ます。MongoDBにも早期対応したPentahoをぜひお試し下さい

試してみる時間や人員がいないという場合はデモにお伺いすることも可能ですので、お問い合わせ下さい。

★Have a nice BigData Solution★
KSK Analytics Pentaho Team
 
Pentahoでは、ログインするユーザー(ロール)ごとに表示するレポートやダッシュボードを変えることが可能です。また、たとえばダッシュボード内のパラメータもロールごとに変えることが可能です。これによって、同じダッシュボードを見ても、
Aさんは、東京本社・大阪支店・名古屋支店の売上状況を閲覧できる。
Bさんは、大阪支店のみしか閲覧できない。、といったことが可能になります。

サンプル:
以下でロールベースセキュリティのダッシュボードデモがありますので、ご覧ください。
joeでログインした場合、すべての地域が選択できます。
patでログインした場合、NA地域しか選択できません。
これはPetnahoメタデータで、ロールベースの制限を設定しているため可能となります。




より詳細なセキュリティ設定については、お問い合わせください。

Have a Great Open Source Day
KSK Analytics Pentaho Team

先日10月16日、品川にてオープンソースBI/BA/DB製品の紹介セミナーを開催いたしました。
弊社セミナーでは現在こちらの4製品をご紹介しております。
・Pentaho(BI)
・Jedox(BI)
・Infobright(DB)
・Rapid-I(BA)

毎回ほとんどの方がPentahoにご関心をもってセミナーに参加されるのですが、今回はRapid-iに関心を持って申し込まれた方が2割弱と通常よりたくさんの方に興味を持っていただけました。
去年の同じ時期と比べるとかなりデータマイニングへの注目度が高まっているように感じます。

またBI製品はPentahoとJedoxの2種類を取り扱っておりますが、主力のPentahoに加えJedoxも日本語ドキュメントのバリエーションの追加等みなさまにご利用いただけるよう準備を進めております。

セミナーでは各製品の機能・価格・事例の説明やデモンストレーションをメインに行なっており、セミナー終了後の個別のご質問時間もご好評をいただいております。

2012_10_16_13_37_25.jpg

当セミナーの次回の開催は2012年12月4日(火)です。
年の瀬のお忙しい時期ですが、Ustreamでの配信もございますので
会場と併せてご参加をお待ちしています。

□セミナー詳細情報


★Enjoy our seminar★
KSKアナリティクス Pentahoチーム
本日、秋葉原で実施されたDBベンダーが集まるイベントに聴講者として参加させて頂きました。

DWH系に特化したDBベンダーのプレゼンを本社から来日された方が実施していましたが、Pentahoが標準ツールとなっていたり、事例に出てきたりしていましたのでご紹介します。

こちらはInfiniDBです。
infini.jpg

こちらはVectorWiseというDBの事例でPentahoのETLとDashboardが使われています。
vector.jpg

日本の事例も海外に発信できるように、皆様と協業していきたいと思います。
★Have a nice database solutions★
KSK Analytics Pentaho team
初めまして。今月から登場させていただく事になりました、神永と申します。
みなさんとご一緒にPentahoの製品を勉強させて頂きたく思いますのでどうぞ宜しくおねがいします。

"トランスフォーメーションとジョブうの違い"

私自身、いまいちクリアになっていなかったので調べてみました。
トランスフォーメーションは複数のソースからターゲット(出力)へ、行を移動させたりデータを格納/変換させたりするタスクをいいます。  一方、ジョブはもっとハイレベルなコントロールのフローの事を言い、トランスフォーメーションを実行させたり、失敗した際に告知したり、ファイルをFTPしたり、1つもしくは複数のトランスフォーメーションやほかのジョブを順に実行するタスクです。また、スケジューリングし、定期的に実行します。
2つの間でのもう一つの違いのは、トランスフォーメーションの実行は他の作業と平行式(同時)に行われ、ジョブの実行は1つ1つ順番に行われるという事です。

どうでしょうか? いまいちピンときませんでしょうか?(^_^;)

★Have a nice Pentaho experience★
KSK Analytics Pentaho Team

Pentahoが利用するログシステムlog4j

|
Pentahoはlog4jというオープンソースの世界で標準となっているApacheサブプロジェクトのロギングシステムを使用しており、トラブルシューティングやパフォーマンスアップの調査に利用できます。

jog4j2.jpg
例えばフロントUIからキューブ(Mondrian)に対して実行されるMDXを見たいとき、またキューブからRDBMSに発行されるSQLを見たいときは、ログをオンにしてログファイルを参照しますのでその方法を以下に記述します。
(Windows,PentahoEE4.1の場合)

Pentahoをインストールしたフォルダ\server\biserver-ee\tomcat\webapps
\pentaho\WEB-INF\classes にある log4j.xmlを編集します。

デフォルトではログを取る部分がコメントアウトされていますので、コメントを
外してログを書き出すファイル名を絶対パスで明示的に指定します。

   <!-- ========================================================= -->
   <!-- Special Log File specifically for Mondrian MDX Statements -->
   <!-- ========================================================= -->

   <appender name="MDXLOG" class="org.apache.log4j.RollingFileAppender">
     <param name="File" value="C:/mondrian_mdx.log"/>
  
 =======途中略======

   <!-- ========================================================= -->
   <!-- Special Log File specifically for Mondrian SQL Statements -->
   <!-- ========================================================= -->

   <appender name="SQLLOG" class="org.apache.log4j.RollingFileAppender">
     <param name="File" value="C:/mondrian_sql.log"/>


【ログファイルの中身の例:MDX】
2012-10-04 06:50:21,759 DEBUG [mondrian.mdx] 209: exec: 45 ms
2012-10-04 06:50:25,910 DEBUG [mondrian.mdx] 256: with set
[*NATIVE_CJ_SET] as 'Filter([*BASE_MEMBERS_Markets], (NOT
IsEmpty([Measures].[Sales])))'
  set [*SORTED_ROW_AXIS] as 'Order([*CJ_ROW_AXIS],
Ancestor([Markets].CurrentMember, [Markets].[Territory]).OrderKey, BASC,
[Markets].CurrentMember.OrderKey, BASC)'
  set [*BASE_MEMBERS_Markets] as 'Filter([Markets].[Country].Members,
((Ancestor([Markets].CurrentMember, [Markets].[Territory]) IN
{[Markets].[北アメリカ]}) AND ([Markets].CurrentMember IN {[Markets].[北
アメリカ].[アメリカ]})))'
  set [*BASE_MEMBERS_Measures] as '{[Measures].[*FORMATTED_MEASURE_0]}'
  set [*CJ_ROW_AXIS] as 'Generate([*NATIVE_CJ_SET],
{[Markets].CurrentMember})'
  set [*CJ_COL_AXIS] as '[*NATIVE_CJ_SET]'
  member [Measures].[*FORMATTED_MEASURE_0] as '[Measures].[Sales]',
FORMAT_STRING = "#,###", SOLVE_ORDER = 400
select [*BASE_MEMBERS_Measures] ON COLUMNS,
  [*SORTED_ROW_AXIS] ON ROWS
from [Sales]

2012-10-04 06:50:25,953 DEBUG [mondrian.mdx] 256: exec: 40 ms


【ログファイルの中身の例:SQL】
2012-10-04 06:50:25,933 DEBUG [mondrian.sql] 9:
HighCardSqlTupleReader.readTuples [[Markets].[Country]]: executing sql
[select `customer_w_ter`.`TERRITORY_ID` as `c0`,
`customer_w_ter`.`TERRITORY` as `c1`, `customer_w_ter`.`TERRITORY` as
`c2`, `customer_w_ter`.`COUNTRY` as `c3`, `customer_w_ter`.`COUNTRY` as
`c4` from `customer_w_ter` as `customer_w_ter`, `orderfact` as
`orderfact` where `orderfact`.`CUSTOMERNUMBER` =
`customer_w_ter`.`CUSTOMERNUMBER` and (`customer_w_ter`.`TERRITORY_ID` =
'2') and (`customer_w_ter`.`COUNTRY` = 'アメリカ' and
`customer_w_ter`.`TERRITORY_ID` = '2') group by
`customer_w_ter`.`TERRITORY_ID`, `customer_w_ter`.`TERRITORY`,
`customer_w_ter`.`COUNTRY` having NOT((sum(`orderfact`.`TOTALPRICE`) is
null))  order by ISNULL(`customer_w_ter`.`TERRITORY_ID`) ASC,
`customer_w_ter`.`TERRITORY_ID` ASC, ISNULL(`customer_w_ter`.`COUNTRY`)
ASC, `customer_w_ter`.`COUNTRY` ASC]
2012-10-04 06:50:25,948 DEBUG [mondrian.sql] 9: , exec 14 ms

Pentahoは世の中で広く使用されているApacheプロジェクトのコンポーネントを多く使用しているため、信頼性の高い製品を安価で利用できるのです。

log4j.jpg
また、技術者にとっても汎用的かつ主流の技術を習得/利用することでスキルアップ、キャリアアップすることができます。

ぜひPentahoに実際に触れてみて頂ければと思います。

★Have a nice open source day★
KSK Analytics Pentaho Team
Pentahoエンタープライズ版はライセンスキーによってソフトウェア使用期限が定まっています。
(体験版もソフトウェアはまったく同じもので、このキーによって使用期間が制限されています)

正規ご購入いただいた方の更新や体験版の期間延長を希望される方から確認や更新方法をご質問いただくことがありますので、以下に方法を記述しました。(ライセンスが切れるとBIサーバーが起動せずログインできなくなります。更新は期限が切れる前でも後でも可能です)

1)まず、エンタープライズコンソールのサーバーを起動します。(本番システムでは常時起動していると思いますが、体験版では未起動の場合もあるため)

 Windowsの例ではスタートメニューからの起動が簡単です。
pentaho-license-1.jpg

こんな画面がでてきて、しばらく待つとデフォルトでは8088ポートで起動完了します。
pentaho-license-2.jpg

2)エンタープライズコンソールにログインします
  デフォルトではユーザーIDはadmin パスワードはインストール時に指定したものです。
  以下の画面が表示され、現在のサブスクリプションライセンスの期限がわかります。
pentaho-license-3.jpg

3)更新の方法
 ライセンスを更新する場合は、新しいキー(.licというファイル、弊社サポートよりご提供)を指定します。
pentaho-license-4.jpg

更新した新しい使用期間が表示されていることを画面で確認すれば完了です。(11月16日訂正:当初BIサーバーの再起動と記述していましたが、BIサーバー再起動は必要ありません。お詫びして訂正致します)

ご質問がありましたら体験版又は正規版のサポート窓口(ダウンロードFTPサイトのはじめにお読み下さい又はサポート開始のご案内に記載)までお電話かメールにてご連絡下さい。

★Have a nice Pentaho experience★
KSK Analytics Pentaho Team

2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30