Pentaho Analysisの最近のブログ記事

少々古い情報になりますが、昨年末に米ガートナー社が「2012年度の戦略テクノロジトップ10」
と題し企業間の競争戦略の具体的施策を支えるテクノロジとして2012年度の動向を以下ロールの視点で観察する旨を公開しています。

・テクノロジコンシューマ層
ソリューションを活用するエンドユーザ

・ビジネスプレイヤー層
サービス提供により収益向上を画策するビジネスプレイヤー

・IT管理部門層
情報基盤を構築・管理を行うソリューション運営者

「2012年度の戦略テクノロジトップ10」
1.タブレット型モバイル端末および次世代タブレット型モバイル端末
2.モバイル端末用アプリケーション
3.コンテクストアウェアコンピューティング
4.空間情報、位置情報等、デバイス間での情報共有
5.Appストアおよびマーケットプレイス
6.次世代アナリティクス
7.ビッグデータ
8.インメモリコンピューティング
9.超低消費電力サーバ
10.クラウドコンピューティング

参照リソース:
Gartner Identifies the Top 10 Strategic Technologies for 2012 
Gartner,inc 
http://www.gartner.com/it/page.jsp?id=1826214 (2012.01.31)

特に、ビッグデータは汎用データストレージ基盤として昨今注目を集めてきましたが、
クラウドコンピューティングと同様、標準テクノロジとして企業にとって「当たり前の」
データ保持基盤となっております。

今回のブログでは、Pentaho Business Analytics 製品にて上記「5.Appストアおよびマーケットプレイス」の取組をご紹介したいと思います。

■Pentaho BIサーバマーケットプレイス

■PDI(Pentahoデータ統合)マーケットプレイス



PentahoマーケットプレイスはBI活用のノウハウを競争力強化目的のみではなく、
そのノウハウを製品として活用頂ける提供の場となります。

なお、「6.次世代アナリティクス」はオープンソースBA「Rapid-I」 http://www.rapid-i-partner.jp/
にて取り上げる予定です。

☆Pentaho Business Analytics makes it strategic adaptation
KSK Solutions, inc 

Pentaho社製品ロードマップ

|
今回は、Pentaho社が外部向けに公開しております
製品ロードマップの情報を紹介します。

Pentaho社製品はオープンソースでの製品開発がベースとなりますので、
リリース予定のバージョンにてご提供できる機能が製品ロードマップ(英語)としても
公開しております。

Product Management

roadmap_1.jpg

上記は、どの製品が今現在リリースに向けてどのような開発状況であるかを
把握いただく事が可能となり、以下では次期リリース予定のバージョンの製品情報
を把握いただく事が可能です。

roadmap_2.jpg


今回、ご紹介いたしました内容はPentaho社が外部向けに公開しております情報となりますが、Pentaho社がパートナーのみ提供している情報もございます。
直接お問い合わせ頂ければ、BIシステム構築支援のご相談、BIを使用した情報活用支援のご相談、Pentaho社製品に対する最新の詳細情報をご紹介いたしますので、一度弊社までご相談ください。

☆ Pentaho Analytics makes it efficient.
☆ Pentaho professional team at KSK Solutions, inc 
Analyzerチャートの文字の大きさや背景色などのデザインはpentaho-solutions\system\analyzer\analyzer.propertiesの設定で変更する事が可能です。

設定可能なオプション一覧
アナライザーチャートオプション.jpg

シリーズの色は以下のようにカンマ区切りで指定します。(hexadecimal format)

# The below setting is the standard Analyzer series color palette
chart.series.colors=#5a84ce,#a5bd5a,#8c63ad,#5aadd6,#ce6a5a,#cea45a.....

色やフォントを変更してインパクトのあるオリジナルのチャートを作成してみては
いかがでしょうか。

アナライザーチャート.jpg

★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム

Pentaho分析レポートでデータ発見

|
Pentahoバージョン4以降の分析レポート機能では、データ発見(Data Discovery)機能があります。Multi Charts(マルチチャート)機能を使用することで、多面的な角度からデータを分析することができます。ぐりぐりと動くこのチャート、弊社のデモサイトでも体験できますので、ぜひ試してみてください。

【手順】
1.新規分析レポートを選択して、データソースに「スティールホイールズの売上」を選択します。
2.ディメンジョン製品-ライン、マーケット-地域、メジャーに売上を選択します。
3.右上のアイコン「チャートフォーマット」ボタンを押します。グラフが表示されます。
4.左上のアイコン「レポート内のフィールドを再編成」ボタンを押します。X軸のでMulti Chartsが選べます。


デモサイトは以下の中央のリンクからどうぞ。
http://www.pentaho-partner.jp/

以下ご参考動画です。



★Have a Great Open Source Day★
KSKソリューションズ Pentahoチーム


よくある質問

|
pentahoの体験版を含めると数多くの皆さまに使っていただいておりますが、
その中で、よくある質問をまとめておこうと思います。

①体験版をインストール後、アンインストールし、再度インストールを試みても、うまく稼動しない。

→同一マシンに再度インストールした場合、ライセンスは失われてしまいます。
 別マシンにインストールいただくか、別途ライセンスを発行しますので、サポートチームまで
 問合せください。
 ただし、
 別途ライセンス発行の場合、発効まで数日かかる場合があります。
 また、体験期間が30日以下になる場合もございますので、あらかじめご了承ください。


②スキーマワークベンチ(PSW)にて、パブリッシュ時に以下のようなエラーとなる。

pswErr.png

→workbench.bat(sh)のJavaの起動オプションに-Dfile.encoding="UTF-8"を追加し、再起動してください。
【修正例】
"%_PENTAHO_JAVA%" -Xms100m -Xmx500m -cp "%CP%" -Dlog4j.configuration=file:///%ROOT%\.schemaWorkbench\log4j.xml mondrian.gui.Workbench

"%_PENTAHO_JAVA%" -Xms100m -Xmx500m -Dfile.encoding="UTF-8" -cp "%CP%" -Dlog4j.configuration=file:///%ROOT%\.schemaWorkbench\log4j.xml mondrian.gui.Workbench


③アナライザーレポートからCSV出力で文字化けする。

→基本的にUTF-8で出力されますのでエクセルでCSVファイルを開くと文字化けします。
 (エクセルはshift-jisで開きますので)
 ver.3.8以降であれば、CSVの出力文字コードを指定できます。
 biserver-ee/pentaho-solutions/system/analyzer/analyzer.properties
 上記ファイルを編集。
 
 default.csv.encoding=shift-jis
 などとすればエクセルで開いたとしても文字化けしません。


④アナライザーレポートでPDF出力すると日本語が表示されない。

→デフォルトでは日本語フォント設定がされていないため、表示されません。
 biserver-ee/pentaho-solutions/system/analyzer/analyzer.properties
 上記ファイルを編集

(Windowsの場合)
 以下の行のコメントを外します。
#renderer.pdf.font.path=C:/WINDOWS/Fonts/MSGOTHIC.TTC,1
 ↓
renderer.pdf.font.path=C:/WINDOWS/Fonts/MSGOTHIC.TTC,1

(Linuxの場合)
必要なフォントをインストール後、
 日本語表示可能なフォントがあるパスを記載します。
例)
renderer.pdf.font.path=/usr/share/fonts/japanese/TrueType/sazanami-gothic.ttf


⑤レポートデザイナーのPDFプレビューで日本語が表示されない。

→(1)表示項目のfont設定(font-family)が日本語が表示可能なfontが設定されているか確認してください。
 (デフォルトはSerifなので、MSゴシックに変更するなど)
 (2)レポートデザイナーのメニュー
 「ファイル」-「レポート設定」より
  output-pageable-pdfのEncodingの項目を「utf-8」に変更してください。

prd-previewPDF.png



※バージョンにより、設定場所や名称が異なる場合があります。
 不明な点があればお問い合わせください。


★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム


スキーマワークベンチからスキーマをパブリッシュするとPUCのJPivotとAnalyzerのリストに表示されます。同じスキーマファイルであればスキーマワークベンチで編集後に再度パブリッシュを行っても既存の物に上書きされますが例えば新たなスキーマファイルを作成した為、既存のスキーマをJPivotとAnalyzerのリストから削除したいという場合、現在それらをPUCから削除する方法がありません。
そこで今回は不要になったスキーマをPUCのJPivotとAnalyzerのリストから削除する方法を紹介します。

スキーマワークベンチからスキーマをパブリッシュすると指定した箇所にxmlファイルが作成されますが、その時同時にpentaho-solutions/system/olap/datasources.xmlも更新されています。

remove_schema.jpg

datasources.xmlにはcatalogタグごとにパブリッシュしたスキーマの情報が記載されており、PUCのJPivotとAnalyzerのスキーマ選択リストはここの情報を元に生成されています。
パブリッシュしたxmlファイルを削除してもリストからスキーマのエントリーが消えないのはdatasources.xmlにエントリーが残っている為です。
削除したいスキーマのcatalogタグをdatasources.xmlから削除し、BIサーバーを再起動するとJPivotとAnalyzerのリストからスキーマは削除されます。

★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム

olap4jがV1.0としてリリース

|
先日、オープンソースのOLAPエンジンのスタンダードであるMondrian(モンドリアン)のチームより、olap4jがver1.0としてリリースされました。

olap4jは、MondrianのチーフアーキテクトであるJulian Hyde(Pentahoのテクニカルボードメンバー)が4年前にプロジェクトを始めたものです。すでにVer0.9台のものはPentahoにも組み込まれていますが、Ver1.0となりさらなる安定化と強化が図られています。

olap4jとは、OLAPサーバーのための共通APIです。例えるなら、データベースにおけるHibernateフレームワークみたいなものでしょうか。分析アプリケーションからみるとolap4jだけに接続すればよく、個々のOLAPサーバーを意識する必要がなくなります。またユーザーにとって見ると、優れた分析アプリケーションにスイッチしやすくなります。

olap4j_archi.jpg

http://www.olap4j.org/

Mondrianは、その機能とオープン性により、オープンソースOLAPエンジンのスタンダードとなりました。olap4jの成長により、今後さらに優れた分析アプリケーションが登場しそうで楽しみです。


★Have a Great Open Source Day★
KSKソリューションズPentahoチーム

mysql5.0とInfoBright3.4.1に同様のレコード数をINSERTし、
同様のキューブを作成。
アナライザーレポートにてレスポンスを比較してみました。

実際は発行されるSQLの実行速度を比較してます。
基本的にボトルネックはDBのレスポンスですので、SQLを比較。
画面表示まではMDXも実行されますが、こちらは一瞬なのでSQLのみ対象としてます。
MondrianのSQLログの設定はこちら

比較した操作方法や、データ内容の詳細および結果レポートを弊社デモ用サーバにて見れるようにしてますので
こちらをご覧ください。
http://www.pentaho-japan.com/pentaho/Login

user:demo
pass:demo

にてログインしていただき、
「mysql-IB比較結果分析」を参照ください。

結果や考察は以下に記載してますが、
このデモ用サーバにある「結果」を軸を変えたりフィルタリングしたりして
参照してみてください。


【結果】  (単位:秒)
20110131kekka.jpg


【考察】
・mysqlよりInfoBrightのほうが10倍~20倍ほど高速。
・mysql・InfoBrightに限らず、ディメンジョンテーブルのあるスタースキーマ型のほうが高速。
・mysqlのINDEX有(エリアIDに付与)とINDEX無について比較したが、INDEXがあるほうが高速とはかぎらなかった。むしろ遅い場合も。
(当然、単純な合計(操作1・2)は速いが。)
・mysqlのディメンジョン有・365万件で、最大1分ほどかかるため、遅すぎる。
 (1分超えると利用者は待っていられないし次やることを忘れそうなので現実的ではない)

【結論】
・数千万件以上の大量データの場合はやはりInfoBrightがおすすめ。
・ディメンジョンテーブルを利用し、スキーマワークベンチにてキューブの設定を行う方が高速。
・ハードのスペックにもよるが、mysqlであれば100万件レベルが限界かも。

【その他】
・操作7はSQLを発行しないので瞬時に表示されるため「-」表示。
・PUCの「新規データソース」から「データソースウィザード」にてデータソースを作成する方法は
 簡単ではあるが、あくまで簡易的な位置づけとし、多くとも100万件程度のものを使用することをお勧めします。

理由は以下
datawiz.jpg

上記のようなSQLで、あるテーブルから取得した値を分析する場合、
Mondrianから発行されるSQLは
---------------------------------------------------------------------
select `FACT`.`category_name` as `c0`
from (select * from testTable) as `FACT`
---------------------------------------------------------------------
という感じで、
どのSQLでもfrom句が毎回
(select * from testTable)
となり、全件取得してくるためかなり遅いです。

なので、
データソースウィザードから作成する場合は、
対象のテーブルの件数が多くても、
ある程度絞った上で分析用のキューブを作成するってのがよいかと思われます。
(例えば、売上ファクトテーブルは10年分で1000万件以上とかでも、
 一年分にwhere句で絞って100万件程度を対象にするなど)


★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム

Pentahoのデフォルト設定ではmondrianのログファイルは作成されません。そこで今回はmondrianログを出力する方法を紹介します。

①/biserver-ee/tomcat/webapps/pentaho/WEB-INF/classes/log4j.xml を開き、
Special Log File specifically for Mondrian,
Special Log File specifically for Mondrian MDX Statements,

Special Log File specifically for Mondrian SQL Statements

の各コードをコメントアウトします。

mondrianLog.jpg

②ファイルをセーブし、BIサーバーを再起動します。

起動後に
/biserver-ee/tomcat/binにmondrian.log, mondrian_mdx.log mondiran_sql.logが作成されていれば成功です。
Pentahoエンタープライズ版の機能であるアナライザーレポート機能を使うと複雑なレポートが簡単に作成できます。作成したレポートは、グラフで見たり、保存して他のメンバーと共有したり、ExcelやPDF等にエクスポートしたりすることができます。実際にPentahoデモサイトで作成してみましょう!

ana11.jpgのサムネール画像ana3-3.jpgのサムネール画像