2010年6月アーカイブ

Pentahoは、データマイニング用ツールを提供しています。データマイニングとは、人の頭では処理しきれないほどの膨大なデータの中から法則性を発見するツールです。世界中の大学の情報処理系で もっとも多く使われている高度なデータマイニングソフト『Weka』の機能を100%引き継いでいます。

Pentahoデータマイニング(Weka)とは
ニュージーランドのWaikato大学で開発されたデータマイニングのオープンソースです。アカデミック分野では、データマイニングソフトのスタンダードになっています。Pentahoは、2006年よりWekaプロジェクトに投資を行い、これらの製品の開発、サポートに関わっています。Pentahoエンタープライズ版ではアドオンツールとして提供されます。

Wekaのダウンロード
Wekaのオープンソース版は、以下のサイトからダウンロードできます。
http://sourceforge.jp/projects/weka-jp/

使い方
Wekaの使用にはデータマイニングの知識が必要になります。初めての方は、下記のブログなどを参考にしてください。
社会人MBA-技術者編:Wekaの起動から基本的な分析まで分かりやすく解説されています。
Weka-jp:Wekaの日本語サイトです。
データマイニング・Weka:Wekaに関する詳細な情報が豊富、やや専門的。
Weka・Wiki:同様にWeka Knowledge Flowに関する情報。

Wekaで行うことができる代表的な分析の種類
・アソシエーションルール 例)マーケットバスケット分析、缶ビールと紙おむつなど
・クラスタリング       例)似たもの探し=顧客セグメントの分類など
・クラス分類(予測)    例)売上予測や株価予測など
  (最近傍アプローチ) 例)Amazonの「あわせて買いたい 」にみられるリコメンデーション。
・決定木           例)ルールの発見、湿度が○○%以上ならゴルフをするなど。
・ニューラルネットワーク 例)パターン認識、クレジットカード会社の与信管理など。

Pentaho データ統合ツール(PDI)との統合
データマイニングでは、マイニングを行うためのデータセットの用意に手間がかかります。
データ作成→アルゴリズムの選択→設定→テスト・・・・の繰り返しが必要です。
Pentahoでは、強力なデータ統合ツールとの組み合わせにより、Wekaでの分析に必要なデータ(CSV形式やARFF形式のファイル)を作成したり、分析したスコアを活用したりすることができます。

weka_pdi.jpg★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム









本日、Pentaho無料紹介セミナーを品川イーストワンタワーにて開催させて頂きました。

前回より定員を増やし宣伝を一切しなかったにもかかわらず2週間前に満席となる盛況で、Pentahoの注目度は更にアッ プしています。

ご参加いただいた皆様、ありがとうございまし た。

製品や内容の充実度を上げて次回は7月27日(火)開催の予定です。
0630semi.jpg
ログイン後の画面をカスタマイズする方法です。

通常は
06_00.jpg

こんな画面が表示されますが、
これは
biserver-ee\tomcat\webapps\pentaho\mantle\launch\launch.jsp
で設定されています。
なのでこの
launch.jsp
をいじればいろいろカスタマイズできるということです。



例1)
------------------------------------------------------------
<head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<title>Launch</title>
</head>
<body>
<iframe src="http://www.yahoo.co.jp/" width="100%" height="100%" frameborder="0">
  <p>Your browser does not support iframes.</p>
</iframe>
</body>
</html>
------------------------------------------------------------
こう書いて

06_01.jpg

yahooを出したり



例2)
------------------------------------------------------------
<%@ page contentType="text/html; charset=utf-8" %>
<%@ page pageEncoding="utf-8" %>
<html>
<head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<title>Launch</title>
</head>
<body>
<h1>Launch pad</h1>
<p>以下のレポートを参照してください</p>
<ul>
  <li><a href="http://localhost:8080/pentaho/ViewAction?&solution=XXX&path=XXX&action=XXXXX.xaction">エリアチャート</a></li>
  <li><a href="http://localhost:8080/pentaho/ViewAction?&solution=XXX&path=XXX&action=XXXXX.xaction">マーケティング分析</a></li>
</ul>
</body>
</html>
------------------------------------------------------------
こう書いて

06_02.jpg

レポートへのリンクを貼ったり



例3)
------------------------------------------------------------
<%
    String xactionPath = "http://localhost:8080/pentaho/ViewAction?solution=xxx&path=xxx&action=xxxxx.xaction";
    response.sendRedirect(xactionPath);
%>
------------------------------------------------------------
こう書いて

06_03.jpg

いきなりレポートを表示したり


と、
いろいろできます。


★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム

ワールドカップ、日本は見事に一次リーグを突破しました!
出場選手だけでなく控えの選手もサポートする人も応援する人も一体感があるように感じました。

私達もBIの世界では新興勢力であり、規模や実績数では大企業には勝てません。
しかしながら個別案件では勝利を重ね、機動力と先見性があり情報感度の高いお客様やパートナー様との一体感があります。

Pentaho社との関係も同様で、昨日も開発部門とWebEX会議をしましたが、創業メンバーでありチーフエンジニアである方が直接サポートしてくれます。

また、サポートの動きは外部から参照できるように公開されています。
fixedJP.JPG

私達もよい製品を安価に提供できるよう頑張り、お客様、パートナー様にもご協力頂く。
とかく自社利益最優先に考え勝ちのビジネス世界で、オープンソース系は切磋琢磨と貢献の文化が大きな特徴だと感じます。

★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム
Action SequenceはPentaho BI Platformのユニークでパワフルな特徴の一つです。
Pentahoのデザインツールやユーザーコンソールの機能だけでは難しかったサードパーティーのフレームワークとのインタラクションなどもAction Sequenceを使うと簡単に行う事が出来ます。

Action Sequenceとは?
Action Sequenceとはタスクを実行するのに必要なアクションを順序付けて定義したXMLドキュメントです。Action Sequenceはレポーティングやバースティングなどに有効で、result setをループ、他のAction Sequenceをコール、条件的なコンポーネントの実行なども行えます。
通常はXMLファイルにDOMで記述、もしくはDesign StudioのGUIを使用してAction Sequenceを作成します。

Solutionとは?
共通のテーマや目的の為に作成されたAction Sequenceの集合をSolutionと呼びます。一般的に各SolutionはSolutionごとにディレクトリを構成し、それらはすべてpentaho-solutionsのサブディレクトリとなります。ソリューションレポジトリはそれらをミラーリングしているので、BI Platformはその情報を基にユーザーやロールのアクセスをコントロールします。

Design Studioの使用
Action Sequenceは拡張子が.xactionのXMLファイルです。Action Sequenceの各コンポーネントはユニークなinput, output, action 定義を持っているので直接XMLを記述してAction Sequence を作成するのは非常に困難です。Design StudioのAction Sequence Editorを使用すればグラフィカルインターフェイスで各コンポーネントの入力項目が表示されるので簡単にAction Sequenceを作成する事が出来ます。またDesign StudioでAction Sequence作成中でもタブをクリックするだけでDOMベースでの表示、編集が可能です。

Design Studioは弊社のパートナーサイトよりダウンロード頂けます。

★Have a nice Open Source Day★
KSK ソリューションズ Pentahoチーム
Pentahoが分析するデータ・ウェアハウスへの接続は、JDBC、ODBCで行います。
データ・ウェアハウスを構築するデータベースの性能がパワフルで高速であればあるほど、大量データの分析や複雑な分析が可能となってきますので、データベースの選択は非常に重要になってきます。

今回は、分析アプリケーションやデータ・ウェアハウスに最適なハイパフォーマンスデータベース、Infobrightをご紹介いたします。
Infobrightの大きな特徴の2つを以下に記載します。

・列指向データベースとナレッジグリッドアーキテクチャー

Infobrightのテクノロジーは、分析ニーズに理想的なソリューションを提供するために列指向データベースとナレッジグリッドアーキテクチャーを組み合わせます。他のデータベース製品はインデックスを作成、データを分割、物理データ構造を構築といった手間を必要としますが、Infobrightの自己管理ソリューションはこういった手間を省き、複雑なクエリーに対して素早いレスポンスを返します。

・データ圧縮

他のデータベース製品は高いパフォーマンスと拡張性を提供するために、複雑で高価なハードウェアインフラストラクチャーを必要としますが、Infobrightソリューションは一つのサーバーで50TBまで拡張でき、業界最高のデータ圧縮(10:1~最大40:1)でストレージ使用率を大きく抑えます。

処理速度が非常に早い、かつ、データ圧縮による使用率拡大、低コスト。
Infobrightは、まさにこれから求められるデータ・ウェアハウス向けのデータベースと言えるでしょう。
Infobrightの詳しい内容やお問い合わせはこちらから

★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム
IT業界の方ならおそらく皆さんよくご存知の、情報処理技術者試験を実施している独立行政法人情報処理推進機構、通称IPA。

Pentahoを扱う上でも参考になる資料がダウンロードできますので、ご紹介いたします。

IPA.JPGのサムネール画像

オープンソース系ソフトウェア調査
もはやオープンソースを企業システムで利用するのはあたりまえになっています。
以下の資料は日本のOSSの実態についての資料で参考になります。
オープンソフトウェア活用ビジネス実態調査(2010/04/30)

以下の点が興味深いです。
・IT関連事業は厳しい経済環境の中縮小傾向だがOSSの利用率は上がっている。
・従業員が多い企業の方がOSSの利用率が高く、着実に利用されている。
・官公庁、公共系で利用率が高い。

開発手法
BIシステムの構築は依頼者も厳密な要件を決められない場合が多く、変更も頻繁にあります。
一方でBIツールを利用するため画面や帳票設計・実装の大幅な効率化と制約も発生します。
このためBIシステムを成功させるには、アジャイル手法が適していると言われています。

下記の資料はアジャイル手法でプロジェクトを進めるのに有効となる情報があり参考になります。
"非ウォーターフォール型開発に関する調査"(2010/03/31)

まだアジャイル手法でプロジェクト実施のない方でも、ぜひPentahoをきっかけにチャレンジいただければと思います。


★Have a nice BI system implementation★
KSKソリューションズ Pentahoチーム

「オープンソース」=「コストダウン」というイメージが強いのですが、実際にオープンソースBIを導入した場合に商用オープンソースはどれほど安いのか、さらにどういった課金体系になっているのか等、なかなか見えてきません。

今回は、情報管理、BI、分析分野のリサーチアナリストであるMark Madsen氏によるホワイトペーパーから、コマーシャル(商用)オープンソースのコスト感をつかんでいきます。このホワイトペーパーでは、BIのコストを既存のベンダーとオープンソースベンダーのPentahoを比較しています。

BI製品を比較するには、様々な視点がありますが、まず1ユーザー当たりにかかるコストで比較することができます。導入の規模やユーザー数によっても大きく変わってくるので、各ベンダーごとに、導入時のユーザー数と合わせて比較していきます。
下のグラフは、導入の規模のがsmall, medium, largeと分類されていますが、それぞれユーザー数が25、100、500人を想定しています。

●ユーザー一人当たりの3年間の平均コスト(ベンダー/ユーザー規模別)
Figure4.jpg
ご覧いただくとPentahoの特徴は、まず圧倒的に低コストであることと、ユーザー数が多くなるにつれて、1ユーザー当たりにかかるコストが低くなっているのがお分かりになると思います。これはPentahoがユーザーが増えるごとに課金していくのではなく、サーバーのCPU単位で課金しているためです。
つまり、ユーザー数が増えても、サーバーのCPU数が変わらない限り、金額は上がりません。

通貨単位が円でないので少し分かりづらいですが、大まかな価格感は見ていただけるかと思います。
次に、課金体系を見ていきます。

BIを導入する際にかかってくる大きなコストを3つ挙げてみると、
・労働力に対する対価
・ソフトウェア
・サポート
となります。

下の表はライセンスとサポートにかかるコストを各ベンダーごとに、ユーザー数の規模も合わせて比較しています。

●3年間のトータルコスト(ベンダー/ユーザー規模別)

Table2.jpg
PentahoのTotal Licence Cost(ライセンス料)の欄がゼロになっていますが、これはPentahoは サポートを含めた使用権(サブスクリプション)に対して課金するためこのような表記になっています。
ライセンスとサポートにそれぞれコストがかからないところが、特徴かもしれません。

以上大まかに、オープンソースBI Pentaho でのコストと価格体系を引用し説明いたしました。ホワイトペーパーでは他にも様々な切り口で説明しています。ご関心がある方は、ホワイトペーパーの方もご覧下さい。


ホワイトペーパーの原文(英文)
"Lowering the Cost of Business Intelligence With Open Source"

こちらのサイトからtdwiに登録すると、ダウンロードいただけます。


★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム
本日から月1度の頻度で、Pentaho ブログ「統計分析手法」シリーズと名打って、
統計分析手法をテーマにしたブログ投稿を行いたいと思います。

社内に蓄積された重要なデータ群を整理する為に軸を決め、BIツールによる加工の後、
加工前のデータ群は、経営の局面だけではなく様々な局面における意思決定に生かせる
客観性を持つ生きたデータへの第一歩を踏み出すことになります。
しかし、せっかく加工したデータも数値の集合体や整形されたレポートの一部として眺めているだけ
では、100%有能なデータ活用を行っているとは言いがたいと思います。

例えば、定点観測の為の定点は定めました・・・観測を開始したらデータ推移を確認できました・・・
しかし、そこからさらに意味を抽出することが容易ではない・・・・左記の様な局面の為にも統計学が
学術分野として確立されており、なおかつBIツールが力を発揮できる分野でもありますので、次回の Pentaho ブログ「統計分析手法」シリーズでは、意思決定の為にデータの有効活用を
行っていただける統計分析手法について投稿する予定です。

2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30