2015年6月アーカイブ

データベース参照ステップとマージ結合ステップの処理時間を、
10万件のサンプルデータで計測した結果と使用したサンプルKTRを作成しました。


検証した結果、検証条件の中ですと
データベース参照ステップよりも、マージ結合ステップの方が約100倍処理速度が速いことが分かりました。


以下弊社のポータルサイトより、サンプルをダウロード頂くことが可能です。




ポータルサイトからダウンロード頂けない場合は、



よろしければぜひお試し下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team

シングルサインオン SAML

|
Pentahoは、シングルサインオンの手段として、CAS(Central Authentication Service)と統合Windows認証に対応しております。

一方で、最近Webサービスの認証として普及しつつあるのが「SAML」です。


Pentahoは、次期バージョンPentaho6でSAML対応を行う予定です。
(次期バージョンのリリースは、2015年中と計画されております)

WS000183.PNG
Pentahoをインストールして、[ホーム]-[新規作成]-[アナライザーレポート]を開くと、上記の画面が表示されます。

Pentahoにはデフォルトで「オペレーションズマート」と呼ばれる監査ログの機能が用意されています。

Pentaho BA サーバの監査ログは、イベント開始時、終了時にBA リポジトリの pro_auditテーブル
に保存されます。保存された監査ログは、30 分に 1 回実行されるスケジュールジョブによって、pro_audit 表から pro_audit_staging表にレコードがコピーされ、さらに各ファクトテーブルにレコードがコピーされます。

冒頭の「データソースの選択」画面には、オペレーションズマートのOLAPキューブの一覧が表示されています。

BA側のキューブの内容は、次の通りとなっています。
  • BA Operations Mart - Content : BA サーバー上でどのツールが使用されたか、どのユーザーがコンテンツを実行したのかなどコンテンツの実行に関連する情報
  • BA Operations Mart - User Session : セッション数や時間など、ユーザーに関する BA サーバーの情報
  • BA Operations Mart - Coponent : BA サーバーでレポートを実行する.xactions の実行に関係する詳細な情報

Pentahoをお使いの方は、ぜひ一度ご確認ください。

※ BA側については以上ですが、DI側の「PDI Operations Mart」については、また後日ご紹介させていただきます。

Pentaho Data IntegrationでのApacheやTomcatのアクセスログ解析
のサンプルをご紹介致します。

【Apacheのアクセスログ解析サンプル】

[Pentahoインストールディレクトリ]\design-tools\data-integration\samples\transformations\Regex Eval - parse NCSA access log records.ktr

【Tomcatのアクセスログ解析サンプル】

Processing Tomcat Log with Regex


よろしければダウンロードして頂き、
お試し下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team

PDI:パーティショニング機能のサンプルを作成致しました。


以下弊社のポータルサイトより、サンプルをダウロード頂くことが可能です。



ポータルサイトからダウンロード頂けない場合は、

また、以下弊社ブログからも作成手順をご覧頂けます。





よろしければぜひお試し下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team

BA、DIサーバーの必要性

|
Pentahoのアプリケーションソフトウェアの中には
Pentaho BA server(BAサーバー)とData Integration server(DIサーバー)が入っています。

これらのサーバーは
起動するとそれぞれ約500MB~1GBのメモリを使用することになるため、
他サービスも併用していたり、メモリが少ないパソコンにとっては
メモリを大きく圧迫する原因になります。

ですが、実はこの2つのサーバーを起動しなければならない時は決まっています。
それは①ブラウザ上で作業をする時、②リポジトリを使用するとき、③リモート接続で使用する時の3点です。
逆に言えば、ローカルでツールを使う分にはサーバーを起動する必要はありません。

いくつかのケースを見てみましょう。
ケース1 ブラウザでユーザーコンソールを開く時
→BAサーバーを起動しなくてはいけません。

ケース2 spoonでローカル上に入っているktrまたはkjbファイルを実行する時
→サーバーを起動する必要はありません。

ケース3 kitchenでリポジトリに入っているkjbファイルを実行する時
→DIサーバーを起動しなくてはいけません。

これを機に少しでも快適にPentahoをご使用してみてはいかがでしょうか。

p,s,DIサーバーまたはBAサーバーを立ち上げる際には
pentaho solution repositoryの起動が必須になります。

Pentaho 5.4 リリース!

|
先日、Pentaho 5.4がリリースされました。
WS000011.png

主な新機能は以下の通りです。

 1. Analyzer REST APIの強化
Embed(組み込み)アナリティクス分野を強化します

2. PDIでSAP HANAをサポート
インメモリ・カラム指向DBのSAP HANAにPDIが対応します

3. PDIでApache Sparkをサポート
PDIがSparkとのSQLでの接続や、ジョブのオーケストレーションに対応します

ユーザの方に身近なところでは、PDIのアイコンも一新されたようです。

Pentaho5.4は現在弊社にて鋭意日本語化を行っております。
正式リリース時には再度お知らせいたします。

6月9日〜11日に、日本で初めてPentaho社公式トレーニングプログラムを開催しました。

  • ビジネスアナリティクス・ユーザーコンソール (1日)
  • ビジネスアナリティクス・レポートデザイナー (2日)

これまでKSKオリジナルのトレーニングプログラムを実施して参りましたが、
トレーニングのコースを充実させる目的で、Pentaho社公式のプログラムに切り替えました。

受講者の方からは「トレーニングのテキストがとてもわかりやすくて良い」というお言葉をいただいております。

来週以降も下記のコースを開催予定です。この機会にぜひぜひご参加ください!

  • ビジネスアナリティクス・データモデリング (2日)
  • CToolsの基本(2日)
  • データ統合の基本(3日)

詳細はこちらのご案内をご覧ください。
http://www.pentaho-partner.jp/service/training.html

REST-APIでの【ユーザの追加、ロールの追加、ユーザへロールの割り当て、ユーザの削除、ロールの削除】
のサンプルを作成致しました。


以下弊社のポータルサイトより、サンプルをダウロード頂くことが可能です。





ポータルサイトからダウンロード頂けない場合は、



また、以下弊社ブログからも作成手順をご覧頂けます。






よろしければぜひお試し下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team

Spark Submit on Spoon

|
Spoonバージョン5.4よりジョブエントリにSpark Submitが加わってましたので早速試してみました。

Screen Shot 2015-06-10 at 5.16.35 PM.png

Spoonのサンプルの中に新たにSparkのサンプルでπ(パイ)を近似するクラスを実行するジョブが加わってましたので、それをローカル環境で実行するように設定を変更して実行しました。

Screen Shot 2015-06-10 at 6.33.01 PM.png

そのサンプルは、コードを見てみると、ランダムに生成された−1より大きく1より小さい実数を2乗した値2つを足した値が1より小さい確率を試行回数1パーティションあたり1万回で弾き出し、
その確率に4を掛けた値がπに近似するようでしたので、1、10、100、1000パーティションで何度か試してみました。Argumentsに入力した値がパーティション数になり、100に設定すると試行回数が100万回になります。

Screen Shot 2015-06-10 at 5.09.28 PM.png

実行するとこのようにログの中に近似値が出力されるクラスになってます。引数を1000にして何度か試してみると3.14159まで近似しました。引数が1や10ですと言うまでもなくバラつきが大きくなり、試してませんが、引数に1000000、1000000000等、もっと大きな値を入れるときっともっと近似するのが容易に予想できます。

SparkPiというScalaのクラスのほかにJavaSparkPiというJavaの、同じ内容の処理のクラスが用意されてましたので、そちらでも実行してみましたが、処理速度がScalaのものに比べ明らかに遅く、メモリも多く必要とするようでした。引数が100までは問題なく実行できましたが、1000にした時は、Memory Allocationがデフォルト値では足りないようで、Memory AllocationのDriverの値を引き上げる必要がありました。

Screen Shot 2015-06-10 at 5.10.28 PM.png

以上です。

本日はDIサーバーとBAサーバーのユーザ/ロール情報を別のDBへ持たせる方法をご紹介致します。


長文のため、
以下弊社のポータルサイトへまとめております。




よろしければぜひお試し下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team

IEでは「相互表示」に注意!

|
IEにてpentahoをご使用の際に、ユーザーコンソールを開くと、

blog2.jpg
または、

blog1.jpg

などのように表示がおかしくなる時があります。
当社でもとくにIEをご使用のお客様からこういったお問い合わせがきております。

こちらの原因ですが、IEの「相互表示」設定がされている場合があります。

blog3.png
こちらのご確認ならびに解除方法は、
①ツールバーより互換表示にチェックが入っているか、
または互換表示設定の「互換表示に追加したwebサイト」に
ユーザーコンソールにあたるwebサイトが登録されているか確認
②①でチェックまたは登録が確認できましたら、
互換表示のチェックを外す、または互換表示設定で設定を解除したいサイトをクリックして削除

というステップでございます。


IEご使用の方で表示がおかしくなる場合は一度こちらをお確かめください。



PentahoWorld2014のビデオ

|
昨年のPentahoWorld2014のビデオがYouTubeにアップされました。

PentahoWorld 2014 Highlights

さらなる詳細は、こちらの再生リストをご覧ください。
再生リスト:PentahoWorld 2014

オススメは、こちらのMatt Casters(PDIの開発者、Chief Data Integration, Kettle Founder)の講演です。
Pentaho Data Integration Best Practices
→ チーフ開発者によるPDI(ETL)のベストプラクティスの紹介です。



よろしければご覧ください!

Have a Great Open Source Day
KSK Analytics Pentaho Team

2015年7月

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31