2013年12月アーカイブ

2013年振り返りと2014年の展望

|
今年もあとわずかとなってきましたので、簡単にまとめてみました。

☆2013年振り返り☆
Pentahoは5.0リリースがメイントピックでした。
BI/BA業界ではデータブレンディング、アナリティクスプラットホーム、R連携がキーワードになっています。

☆2014年展望☆
日本でも上記のキーワードを含むインプリが先進企業で成果を出してくるのではないかと予想します。
より効率よく高度なデータ活用のために、インフラもツールも組織も人も進化が必要です。同業種内において、アナリティクスの活用差が業績を左右する大きなファクターになるでしょう。

PentahoにはWekaがありRとはやや距離を置いていますが、弊社扱いのRapidMinerはR,Wekaを含めて統合されていますので、Pentaho+RapidMinerで最強のOSS系アナリティクスプラットホームを構築できます。
Pentaho-Premium-Partner.pngrapidminer_KSKAnalytics.png

2014年も皆様と共にBI/BA活用に向けて進んでいければと思います。

よいお年をお迎えください。
★We wish you a very happy new year★
KSK Analytics Pentaho Team
PDIにてCSVファイルを入力として取り扱う場合、基本的にセパレータによって分かれるフィールドを一つひとつ指定する必要があります。
しかし、読み込むCSVファイル毎に「CSVファイルインプット」を作るのは効率が悪いです。
そんな時に使用するのが「Metadata Injectio」ステップです。
「Metadata Injection」ステップは、指定のTransformationを実行してくれるのですが、実行する際にTransformation内の各ステップの設定を指定した値で上書きして実行してくれます。

実際に使う場合は、以下のように設定します。
MetaInj1.png
以下は「Metadata Injection」ステップの設定項目です。
MetaInj2.png
ここでは、「read_csv.ktr」というTransformationを実行するように設定しています。
また、下部の設定欄に、「read_csv.ktr」内に配置されている「CSVファイルインプット」ステップの各設定項目が表示されます。ここのフィールド名項目に対しフィールド名のリストを引き渡して実行することで可変ファイルの対応を実施しています。

サンプルも置いておきますので、具体的な動きは実際に動作させてご確認ください。


それでは、また!


★Merry Christmas!!★
KSK Analytics Pentaho Team
私事ですが、今年に入ってからPentahoのカスタマーサポートをさせていただいてます。その中で、アナライザーレポートの、再現性が乏しく、原因の特定が難しい、不可解な挙動の不具合が数件ありました。
それらの不具合には、データソースのテーブル構成が、ディメンショナルモデルの生みの親Ralph Kimballさんのディメンショナルモデルからは少々外れているという共通点がありました。
ディメンショナルモデルの理解を欠いたテーブル構成では、そのような不具合になりがちなのかなと思いますし、逆にその抽象レベルでの理解がある程度あれば、状況に応じてデータウェアハウスを構築していけると思います。
もしかすると問い合わせをいただいた方は氷山の一角で、多くの方が同様の不具合に遭遇してPentahoを使うのを止めた、といったこともあるのかなと思います。
そこで、The Data Warehouse Toolkitに載っていた「避けるべきディメンショナルのありがちな間違い」を軽く紹介させていただきたいと思います。今年見た全てのテーブル構成に複数の、"次に挙げる間違い"が見られました。少々乱暴で至らない解釈も多いと思いますが、不可解な挙動やエラーが発生し、Pentahoを使うのをやめようかなと思われている方の目に止まればと思います。該当する方はご相談いただけないかなと思っています。

間違い10.ファクトテーブルの属性値がテキスト型
業務データベースからの数値はファクトテーブルへ、その数値を説明するテキスト属性値はディメンションテーブルへ。残りは、計算に使用されるようなものであれば、ファクトテーブルへ、フィルタリングやラベリングに使用されるようなものであればディメンションテーブルへ。

間違い9. 文字数を制限しディメンションテーブルのスペース削減
ユーザーにとってわかりやすいディメンショナルモデルにするには、ディメンションの属性値はファクトを十分に説明したものでないといけない。文字数が増えることにより大きくなるディメンションテーブルのサイズは、ファクトテーブルのサイズに比べると全然大したことない。

間違い8. ヒエラルキーを複数のディメンションテーブルに分ける
ヒエラルキー内では、下位の層はその一つ上の層とmany-to-oneの関係になる。(例:各製品は一つのブランドに属す。各ブランドは一つのカテゴリーに属す。)3NFの業務システムのモデラー視点ではなく、ユーザー視点で自然且つ効率的なヒエラルキーを作成する必要がある。
上位の階層が1つ以上ある場合は、1つのディメンション内に複数のヒエラルキーを含むことは多くの場合、理にかなっている。

間違い7. ディメンション更新のトラッキングを無視
現在の状況のみを反映した属性値のディメンションテーブルよりも、
ビジネスユーザーが属性値の変化の影響を把握したいケースは多いため、
Slowly Changing Dimensionのタイプ1のみに頼らない。
属性値の変更が頻繁な場合は、mini-dimensionにそれらの高ボラティリティー属性を格納することも一考の価値あり。

間違い6. 全てのパフォーマンス問題の解決をハードウェア側に見出す
サマリーテーブルでの集計は、クエリパフォーマンス向上のためにコスト効率性が高い方法。
高価なハードウェアの増設は、偏りのなくあらゆる点が考慮されたプログラムの一環で行われるべき。

間違い5. ディメンションとファクトを業務用キーで紐付け
時間のディメンション以外は、1からNまでの単純な整数値のサロゲートキーでディメンションとファクトは紐付けられるべき。Nはディメンションテーブルの行数。ディメンションのキーに業務で使用されているキーをするのは、運用上問題ありで、非生産的、残念な慣習。

間違い4. ファクトの粒度を軽視
データの粒度ははっきり特定されなければならない。一番小さい不可分な粒度レベルのファクトテーブルであれば、アドホックな要求にも耐えうる。粒度に沿ったディメンションを設計することは必要不可欠。粒度が異なる数値は、それと同じ粒度のファクトテーブルを用意し、そっちに納められる必要がある。

間違い3. レポートのためにディメンショナルモデルを設計
レポート毎にディメンショナルモデルを構築すると、レポート毎に少しづつ違うそれぞれのテーブルにデータの更新・作成が何回も、何回も、繰り返し行われる必要があり、管理が大変。最小粒度のデータとパフォーマンス強化のための必要最小限の集計が備わった機能的なスキーマひとつがあればユーザーの要望はさばける。

間違い2. 正規化されたデータへクエリ
集計されたデータでディメンショナルモデルを構築し、BIツールで正規化されたデータベースに詳細を求めシームレスにドリルダウンすることはできない。

間違い1. ファクトとディメンションの参照整合性を欠く
複数のソースからデータを取り込む場合は特に、ファクトとディメンション間に齟齬が生じないように注意。

今年上梓のpentaho関連書籍

|

Pentaho 5.0 Reporting by Example: Beginner's Guide

Pentaho Data Integration Beginner's Guide, Second Edition

Pentaho Data Integration Cookbook Second Edition

Pentaho for Big Data Analytics

Instant Pentaho Data Integration Kitchen

Mondrian in Action: Open source business analytics

(amazon.com検索結果順)

アマゾンで検索する限りでは、Packt Publishingから5冊、Manning Publicationsから1冊の計6冊もpentahoの関連書籍が今年発売されているようでした!Pentaho 5.0 Reporting by Example以外はPackt Publishingの各書籍ページからソースコードやサンプルデータ等が無償で入手できます。ログインしてダウンロードするか、メールでダウンロードリンクを送ってもらう方法があります。Mondrian in Actionもこちらの書籍ページにソースコードやサンプルページがあります。

こちらのPackt Publishingサイトでは、電子書籍の方であれば、おそらく期間限定の$5 eBook bonanzaキャンペーンで、各書籍500円ちょっとで買えちゃえます。
PDIのテキストファイルインプットステップ等のマトリックス上の設定(下のイメージのようなもの)はExcelへのコピーやExcelからのコピーが可能です。
pdi_copy1.png

まずExcelへのコピーですが、上記のような設定中に、コピーしたい行を選択し、右クリックから「選択した行をコピー」か「Ctrl+C」を実施します。
その後、Excelを起動し、貼り付けを実施するだけです。
pdi_copy2.png

逆にExcel上で上記のような設定を作成、コピーした後に、PDI上の設定マトリックスの行番号の上で右クリック→「行を貼り付け」、もしくは「Ctrl+V」を実施すると、PDI上の設定へExcel上の設定を貼り付けることが可能です。

テキストファイルインプットなどで、大量の設定を記入する必要がある場合などは、PDI上で作業を実施していると効率が悪い場合があります。
そのような場合には、使い慣れたExcelを使用して設定を作成し、PDIへ貼り付けるという方法で効率的に作業を進めることも可能かと思いますので、ご活用ください。

今日のところは以上です。
それでは、また!


★Happy PDI Life★
KSK Analytics Pentaho Team

Pentaho Analyzerの動作について

|
mondrian.pngのサムネール画像
ご存知の方も多いと思われますが、改めてPentaho Analyzerの動作を記載致します。

① ビジネスユーザーが、データを照会することを決定します。
② アナライザーが、MDXクエリーを作成します。
③ モンドリアンがディメンションとメジャーのキューブで構成された
   論理スキーマを使用します。
④ モンドリアンは、メタデータの記述に基づいてSQLクエリを生成し、
   データベースへクエリーを投げます。
⑤ データベースは、モンドリアンへクエリーの結果を返します。
⑥ モンドリアンは、アナライザーへデータを返します。
⑦ 最後に、ユーザにとって簡単に理解でき、また、操作しやすい表形式で
   データがグラフィカルにフォーマットされます。


KSKアナリティクスでは、Pentahoの期限付き体験版をご用意しております。
是非、ダウンロードしてPentahoの良さを体感してみて下さい。

お問合せお待ちしております!


★Have a nice open source day★
KSK Analytics Pentaho Team
PDIやっぱりすごいですね!というお話です。

個人的な事を書かせて頂きますと、公私あわせて
下記の開発言語の経験がありますが、

Java,C,C++,C#,VBA,FORTRAN,Cobol,css,html,ajax,
Perl,PHP,ASP,ASP.NET,VB,VB.NET,NX Open C/C++,
OpenGL,DirectX,JSP,MATLAB,R,
lex,yacc・・・プログラミング言語を作る開発言語です。

PDIに出会った時、感動とともにプログラミングの仕事が
世の中から減ってしまうと恐怖を覚えました。
しかもそれが無料で使えてしまうというのが恐ろしかったです。

しかし、設計者にとっては最高のツールです。
1人で設計した通りに動かすことが出来てしまいます。

本ブログでは、PDIだけでなく下記のようにカテゴリ分けで
PentahoやBIに関する有益な情報が記載されています。

※ 下記は現時点(2013/12/13)でのリンクです。

Pentahoの期限付き体験版をご用意しております。
是非、ダウンロードしてPentahoの良さを体感してみて下さい。

お問合せお待ちしております!


★Have a nice open source day★
KSK Analytics Pentaho Team

クラウドで使用できる情報共有ツールとしてチャットワーク(http://www.chatwork.com/ja/)がありますが、最近、そのチャットワークさんからAPIが提供されましたので、試しにPDIからメッセージ情報を取得してみました。

主に使用するのは、「RESTクライアント」と「Json入力」ステップです。
こんな感じです。
chatwork1.png

まず、チャットワークAPIを使用するために必要となるAPIトークンを「データグリッド」ステップで設定します。
chatwork2.png

次に「RESTクライアント」ステップにてAPIの仕様どおりURL等を設定します。
レスポンスはJSON形式となります。
chatwork3.png

APIトークンを設定します。
chatwork4.png

返却されたJSON形式のデータから「Json入力」ステップを使用して必要なデータを取得します。
「選択/名前変更」ステップは、必要なデータを取得したJSON形式データやAPIトークンを削除するために使用しているだけなので、説明は割愛します。

APIから返却された結果が"result"フィールドの中に入っているので、それを使用します。
chatwork5.png

今回は、message_idとbodyを取得します(レスポンス形式は別途チャットワークのAPIドキュメントをご参考ください)
chatwork6.png

最終的には以下のように取得できます。
chatwork8.png


今回は、一例としてメッセージ情報の取得を取り上げました。
このようなデータから、統計情報を取得し、情報共有に活発化させるための要因を分析したり、社内でよく発信されているキーワードをリアルタイムで拾い上げたり、また、ネットワーク分析などを活用して、社内的なつながりを可視化したり、ハブになっている人間を見つけたりと、使い方次第でいろいろなことができると考えられます。

非常に使いやすいAPIでもあるため、データを取得することだけではなく、API経由でチャットワークにメッセージを投稿することも同じような手順で簡単に可能です。
チャットワークさん、良いAPIを公開いただき、ありがとうございます!

それでは、今日のところは以上です!


★Have a nice open source day★
KSK Analytics Pentaho Team

メディア掲載:BigDataMagazine

|
"ビッグデータ業界のキーパーソンにお話をうかがう「ビッグデータマガジン・インタビュー」"という記事にて、本日より弊社がお話させて頂いた内容がアップされております。よろしければぜひご参照、いいね、Tweet,リンク等よろしくお願い致します。
bdm.jpg

KSK Analytics Pentaho Team


オープンソースBI勉強会参加

|
昨晩、勉強会に参加させて頂きました。

発表者の方々はPentahoコミュニティ版にとてもお詳しく、私も大変参考になりました。

LightningTalkでPDIアイコンのカスタマイズ例がありましたので、本Blog掲載の了承を頂きご紹介します。

以下がオリジナルのアイコンですが、
スクリーンショット 2013-12-11 1.36.32.png
こちらがカスタムバージョンです!
スクリーンショット 2013-12-11 1.36.20.png
Pentaho女子を増やすのが狙いとのことですが、外国人受けもすると思います。
お仕事が楽しくなりそうですね。
(ロイヤリティフリーの素材を利用されています)

次回開催が1月21日に決まり、皆様スピード感があります。
参加してみようという方は、ATNDやTwitter(#pentaho_jp)をウォッチ下さい。

★Have a nice open source day★
KSK Analytics Pentaho Team

(この勉強会は有志様による開催で、弊社とオフィシャルな関係ではございません)

ソーシャルコーディングの潮流

|
プログラマの皆さんであればGitHubをご存知かと思います。
GitHubを中心にソーシャルコーディングというムーブメントが起こっていますので簡単にご紹介致します。

ソーシャルコーディングはプログラムソースコードをクラウド上で共有して他者とコラボレーションしながらプログラム開発をするものです。
OSSやWeb系企業で昨年あたりから利用が広がり、実績を出しているようです。

旧来のOSS開発モデルに比べて以下のようなメリットがあります。

1. コミッターに負荷が集中してしまうことを避けられる
2. コード、モジュールが分岐分散してしまうことを避けつつ、独自ブランチも持てる
3.より多くの人が参加しやすい

Pentahoも5.0からGitHubを利用しており、現時点で278のリポジトリがあります。
githubpentaho.jpg

GitHubを利用しないソフトウェア開発は時代遅れになると言う人がいるほど、画期的なモデルです。(社内限定などクローズドな環境での利用も可能です)

またソフトウェア開発だけでなく、書籍や音楽などの著作物にも適用できる考え方です。
Pentahoに更なるイノベーションを起こすポテンシャルがあるため、ご紹介させて頂きました。

★Have a nice open source day★
KSK Analytics Pentaho Team

Pentaho名前の由来

|
クリスマスシーズンを迎え、讃美歌のパイプオルガンがBGMで流れると心地よいですね。

起源や由来などが気になる季節かもしれませんが、Pentahoという名前はどうやってつけられたのですか?(どんな意味がありますか、何に由来しますか)というご質問を頂くことがありましたので、以下に記述しました。


Pentaho伝説:
フロリダに18-19世紀に実在したと伝えられるインディアン種族の名前がPentahoです。
彼らは当時獰猛で危険だったマナティ(水生ほ乳類)を研究し、食物である水生植物を改良して温厚で人間に危害を加えない動物に変化させました。この伝説の信憑性は不明であり謎に満ちています。
 (一部省略、意訳)
mana.jpg
創業者の一人 Doug Morgan氏の話:
"Google検索でユニークになる、Lake Tahoeに似て発音しやすい、5を示すPentaにhoをつけた"

出典:
http://forums.pentaho.com/showthread.php?64814-I-give-up!-What-is-in-a-name
http://community.pentaho.com/faq/general.php

このお話は今週お会いしたPentaho通の社外の方から教えていただきました。
ありがとうございます。

Pentahoの輪、ますます広がっています。
★Happy Pentaho Life★
KSK Analytics Pentaho Team

オープンソースBI勉強会

|
今週もPentahoをきっかけに新たに素敵な方々にお会いする機会が多く、感謝しています。

そんな中で昨日お話しさせて頂いた方が"オープンソースBI勉強会"を12月10日の夜に開催されます。
今後、ユーザー企業側視点での技術系スキルアップ&交流会に発展する可能性もありますので、ご紹介させて頂きます。
atnd.jpg

南米などスペイン語やポルトガル語圏でPentahoコミュニティが広がっていますが、日本でもこのような活動が広がるとよいですね。

★Please join Pentaho Community★
KSK Analytics PentahoTeam

(本件は有志様による開催で、弊社とオフィシャルな関係ではございません)

Pentahoトレーニング参加者様の声

|
先月トレーニングにてご訪問しましたパートナー様よりコメントを頂きましたのでご紹介致します。

電通イーマーケティングワン大和田様、寒河江様より
--------------------
ハンズオン形式での講義を通じて、Pentahoの基本機能や役割について一通り理解することができました。
Pentaho製品特有の話だけではなく、BIシステムの概念やTips等(DB設計のポイント・考え方)、
今後の提案活動や導入の際に役立つ知識についても同時に得ることができました。
--------------------
pentahotrain2013nov.jpg


大和田様、寒河江様 ご受講ならびにコメントありがとうございました。

これからもトレーニング参加者様、ブログを見て頂いている皆様とPentahoをご一緒に広げていければと思いますので、引き続きよろしくお願い致します。

おまけ画像:トレーニング後、先方オフィスのお近くで偶然素敵なイルミネーションを鑑賞することができました。
pentahotrain2013nov2.jpg

次回Pentahoトレーニングは1月21-23日、オンサイト(講師派遣)は随時ご相談を承っておりますのでぜひお問い合わせ下さい。
★Please join and enjoy our training and night viewing★
KSK Analytics Pentaho Team

PDI MarketPlaceのご紹介

|
いよいよ12月、年末の慌ただしい時期となりますがPentahoブログも継続更新できればと思います。

今回はPentaho Data IntegrationのMarketPlaceをご紹介致します。

PDIにはアドインを自由に追加することができますが、いくつかのアドインをオンラインサービス化して利用しやすくしたのがMarketPlaceです。

メニューバーのヘルプからMarketplaceをクリックするとネットにつながり、ポップアップ画面が表示されます。
pdimarketplace1.jpg

インストールは使用したいプラグインを選択し、Install this pluginボタンをクリックするだけです。
pdimarketplace2.jpg

今回インストールしたApple Push NotificationはiPhoneやiPadなどのiOSデバイスにプッシュ型でメッセージを送るものです。
pdimarketplace3.jpg


MarketPlaceでアドイン利用者が増え、相乗効果でアドイン開発者も増えるとよいですね。
皆さんの作ったシンプルでちょっと便利なアドインも世界中で利用される可能性がありますので、よろしければ弊社までお知らせ下さい

★Join and enjoy Pentaho community★
KSK Analytics Pentaho Team

2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30