2014年5月アーカイブ

Pentahoビデオ2本Upしました!

|
Pentahoの下記ビデオ(日本語吹替え)をUpしましたので、ぜひご覧ください!

1.Pentahoビジネスアナリティクス プラットフォームのご紹介
http://www.pentaho-partner.jp/product/summary.html
製品担当VPのJakeがPentahoプラットフォームについて解説しています。


2.Pentahoコミュニティ vs エンタープライズ
http://www.pentaho-partner.jp/purchase/func.html
マーケティング担当DonnaによるCEとEEの違いの説明です。


★Have a Great Open Source Day★
   KSK Analytics Pentaho team

オープンソースBI勉強会 #6

|
コミュニティによるBI勉強会、第6回が5月27日(火)19:30-21:30に品川で開催されます。
BI勉強会6.jpg
弊社はPentahoエンタープライズ版にてビジネスを実施させていただいておりますが、こちらの勉強会は有志による活動となります。

活発なユーザーコミュニティとエンタープライズビジネスはオープンソース系ソフトウェアの広がりをドライブする両輪です。よろしければ以下よりぜひご参加下さい。

★Join and enjoy Pentaho Community★
KSK Analytics Pentaho Team

製品紹介セミナー開催しました

|
昨日、品川にて恒例の弊社製品紹介セミナーを開催させて頂きました。

2014-05-13-13-37-09.jpg

今回は弊社ラインアップに新たに加わった以下2製品も紹介させて頂き、ご好評でした。

1)世界で広く使われている統計解析ツールR(アール)の商用版、「レボリューションRエンタープライズ」  www.r-analytics.jp
2)日本発、無償のビックデータ前処理、分析ツール群 NYSOL 
  http://ksk-anl.com/archives/877

ご参加いただいた皆様、ありがとうございました。
詳細情報をご希望の方は、こちらからお問い合わせ下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team
前回は、PentahoのログをPUC上で確認するPlug-Inをご紹介しました
今回もPlug-Inで、Pentahoの環境情報をPUC上で確認することが出来る「Environment Display」のご紹介です。

このPlug-Inを使用すると、以下のようにPUC上でPentahoの環境情報を直接確認することが出来ます。
envdisp_4.png


インストールは、Marketplaceから行えます。
envdisp_5.png

インストール後は、BIサーバの再起動が必要です。
再起動後、以下のメニュー(EnvironmentDisplay)より環境情報の閲覧が可能です。
envdisp_3.png

運用上、環境情報をまとめたり、再確認したりする必要があることも多いかと思います。
そのような場合に、このPlug-Inが活用出来るかと思います。
(これもPlug-Inなので、正規サポート対象外となってしまいます。恐れ入りますがご使用時には事前に検証環境等での検証作業を必ず行ってください!)


それでは、今日のところは以上です。

★Have a nice open source day★
KSK Analytics Pentaho Team

PentahoのログをPUC上で確認する

|
今日は、PentahoのログをPUC上で確認することが可能になるPlug-In「Pentaho Log Manager」をご紹介します。

このPlug-Inを使用すると、以下のようにPUC上でPentahoのログを直接確認することが出来ます。
pent_log_mng_11.png

設定は大変簡単で、Marketplaceからインストールするだけです。
以下のように設定できます。
pent_log_mng_03.png
※Marketplaceのインストール方法はこちらをご参照ください

再起動後、PUCの以下のメニューから「Log Manager」にアクセスが可能です。
pent_log_mng_12.png

すると、以下のようにログ一覧が表示されるので、確認したいログの閲覧やダウンロード、また削除が行えます。
pent_log_mng_10.png

また、ログの出力先をデフォルトから変更している場合は、以下のファイルにログを指定する設定がありますので、適宜変更してください。
/server/biserver-ee/pentaho-solutions/system/logManager/plv.xml


残念ながら、このPlug-InはPentaho社が提供しているものではないため、Pentaho社のサポート対象からは外れてしまいます。ただ、Marketplaceには便利なPlug-Inがたくさんありますので、興味のある方は一度ご確認いただければ幸いです。


今日のところは以上です。

★Have a nice Pentaho day★
KSK Analytics

PDIデータパーティショニング

|
今日はPDI上におけるデータパーティショニングについて、簡単にですがご紹介していきたいと思います。

まず、単純にデータパーティショニングの意味ですが、そのまま「データ分割」とお考えください。
PDI上にて、Transformation内で読み込んだデータを分割して扱うということになります。
メリットとしてETL処理に対してサーバのスペックが高い場合、空いているリソースを更に活用することが可能となります。

たとえば、以下の様なTransformationがあるとします。
part1.png
データを読み込んで、ソートして、集計を行うだけのシンプルな処理です。
結果は次の様になります。
part2.png
10件のデータを読み込んだ後に、"id"でソートし、"id"をキーに集計を行っています。

このような処理において、例えばソートや集計処理など、特定のステップがボトルネックになっている場合があります。
この時、ETL処理を実行しているサーバのリソースに余裕がある場合には、ボトルネック工程を並列処理することで、ボトルネックを解消することが可能になります。
そこで、データ分割を行うためのデータパーティショニング機能を使用することになるわけです。


さて、ここからが本題でして、データパーティショニングの設定方法です。

① まず、パーティショニング設定を新規作成します。以下のイメージをご参照ください。
part3.png

② 次に、対象のステップにパーティショニングを設定します。まず、パーティショニングメニューを表示します。
part4.png

③ 次はパーティションの種類の設定です。
part5.png

④ Transformationを確認します。
part6.png

最後に「sum by id」ステップにも同じような設定を行い、以下の様な状態とします。
part7.png

実行結果を見ると、ひとつしかないはずの「sort」ステップと「sum by id」ステップがそれぞれ2つに増えていることがわかります。
データも、id単位で2つのサブセットに分けて(6件と4件)から、処理されていることがわかります。
このように特定のidでデータを分けて処理させることが可能となります。

※データ分割という意味では、「コピー数の設定」という方法もありますが、コピー数の増加は単純にデータを分割してしまうため、キーがデータのサブセットをまたがってしまう可能性があり、ソートや集計処理では正しい結果が得られないことがありますのでご注意ください。

さらに、クラスタリング等を併用することでパフォーマンスの向上を図ることも可能です。この辺りは、今後本ブログにてご紹介していければと思いますので、今しばらくお待ちください。

それでは、今日は以上となります。

★Have a nice open source day★
KSK Analytics Pentaho Team

BIとEXCELの違い

|
BI製品をご紹介する時、"EXCELと何が違うのか"とご質問を頂くことがあります。

excelvsbi1.jpg

ご指摘のようにBIで提供するレポートは一見EXCELと類似することも多いのですが、以下の点で違いがあります。

★データ抽出結合
一般的に一つの部署、業務に閉じた情報のみで構成されるレポートは少なく他データと連携したレポートが必要です。
BIでは複数の社内システムからネットの情報、ソーシャルメディアやクラウドサービス、オープンデータを利用するなど各種の情報を入手抽出、組み合わせることで複雑で変化するユーザーニーズに応じたレポートを提供できます。
★大量データの対応
EXCELで扱うことができる行数は約6万行(互換モード)です。最近のバージョンはこの制限は越えていますが、大量データをEXCELで処理するには高性能PCでも時間がかかります。
BIは大量データを前提とするRDBMSを利用するため、EXCELで時間の掛かる処理も高速に実行されます。

★レポート作成スピード
営業会議や経営会議、経理処理などに向け、EXCEL資料作成作業にどの程度の時間と人を費やしているでしょうか
BI導入によって担当者が数日かけて作成していた資料を数分で作成することが可能になります。

★WEBレポート
EXCELで作成したレポートは、メール添付送付で共有するのが一般的です。
BIで作成したレポートはインターネットブラウザさえあればファイルを配布せずに社内/社外で共有することができます。(メール添付も可能です)

★情報の信頼性
エクセルでレポートを作成した場合、そのレポートはEXCELで保持しているデータを基に構成されていますが、 情報は常に変化するため信頼性に問題が発生します。
BIで作成したレポートは常に最新の情報を参照でき、手元でユーザーが勝手に改変することもないため信頼性が高くなります。
excelvsbi2.jpg

最終アウトプットのイメージは類似していますが、基本的にExcelは表計算ソフトとも言われるように、"個人データをスタンドアロンPCで自由に便利に扱うもの"であり、BIは"より複雑な各種情報を組み合わせたり取りまとめてビジネスに有効活用するもの"と言えるでしょう。

以上、ご参考までに記述させて頂きました。
必要に応じて追加修正などしてご利用下さい。
★Have a nice weekend★
KSK Analytics Pentaho Team

PDIチェックポイント

|
GWです!
さて、今日はPentaho5から実装された機能「チェックポイント」をご紹介したいと思います。

チェックポイント機能は、JOB/Transformation単位で再実行のポイントを設定しておき、ETL処理の再実行を可能にするものです。
ETL処理のステータスを使用し、あらかじめ設定しておいたチェックポイント上で、失敗している場所から再実行を行うことができます。

まず、チェックポイントを設定したJOBのイメージです。
チェックポイントを設定したJOBは以下の様な感じになります。
chkpnt1.png
フラッグが立っているのが分かるかと思います。
フラッグが立っている直前のエントリーにチェックポイントが設定されている状態です。
ここでは、Job-Tran1ジョブとJob-Tran2ジョブの2つにチェックポイントが設定されています。

次に実際の設定方法をご紹介します。
まず、適当なJOBとTransformationの組み合わせで、ETL処理をデザインします。
chkpnt2.png
簡単に解説すると、ルートJOBの中にJOBエントリーが2つあり、その中にTransformationを設置、さらにTransformationの中では、ログを出力して終了するという単純な処理がデザインされているというものです。
テスト用に、正常終了させる場合はログ出力処理、異常終了させる場合はアボート処理を選択できるようにしてあります。
また、ルートJOB内に設置されている2つのJOBは出力するログの内容が違うだけで、他の設定は同じとなっています。

この処理にチェックポイントを設定し、最初のイメージの状態にします。

設定手順
①チェックポイント用のDBを準備する
PDIのチェックポイントは処理のステータスチェックのためDBに格納されるログを使用するため、ログ用のDBを準備します。
ここではMySQLを使用します。
DB名は pdi_chkpnt としておきます。

②チェックポイントログの設定
チェックポイントを設定するJOB(ここではルートJOB)のプロパティを開き、ログタブ内のCheckpoint log tableを選択、①で作成したDBとログ出力用のテーブル名を指定します。
テーブル名は log_checkpoint としておきます。
chkpnt3.png
SQLボタンを押下すると自動的にログテーブル作成用のSQLを作成してくれますので、内容を確認し構文的に問題なければ実行ボタンを押下します。
成功したら、テーブルが作成されているかを確認して下さい。

③チェックポイントの設定
チェックポイントを設定したいJOBやTransformationエントリーを右クリックして「Make as checkpoint」を押下します。
すると、最初のイメージのようにフラッグが表示されます。
設定としては、これだけです。

④テスト
例えばですが、Job-Tran2でエラーを発生させることで、Job-Tran1のみ実行し、エラーで終了した状態とします。
以下の様な感じです。
chkpnt4.png
Job-Tran2でエラーが発生し、その後ろのエントリーは実行されずにJOBが終了しています。

上記の状態から、Job-Tran2でエラーが発生しないようにして再度JOBを実行すると以下のようになります。
chkpnt5.png
ちょっとわかりにくいですが、Job-Tran2と後続のエントリーのみ実行し成功した状態となっています。

以上のように、チェックポイントが設定されたエントリーが失敗した場合は、次回実行時には、失敗したチェックポイントから処理が開始されます。
今回はSpoonでその動きをご紹介しておりますが、Kitchenでも同様の動作となります。


重要なポイントとしては、チェックポイントをマークしたエントリーを持つJOB自体が失敗しないと再実行されないという点です。
つまり、エラーハンドリングを行い内部エラーを処置してステータスをSuccessとして終了させてしまった場合は、JOB自体が正常に終了されたとみなされ再実行処理の対象とならないということです。

たとえば、以下の様なJOBの場合は、どんな時でもステータスがSuccessで完了しますので、常にスタートから処理が開始されます。
chkpnt6.png


チェックポイントを使用することで、処理の再実行を行うことが可能となり、PDI運用方法がより柔軟になります。
また、副次的な効果として、各Job/Transformationのそれぞれの役割が明確になり、ETLの可読性向上と品質向上が期待できます。再実行を念頭において各処理をデザインしていくことで、結果として各処理内で行うべき処理が整理されるためです。

PDIの運用で再実行を行う場合は、ぜひご検討ください。

★Have a nice PDI day★
KSK Analytics Pentaho Team


2014年6月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30