Pentahoデータマイニング

| | コメント(0) | トラックバック(0)
Pentahoは、データマイニング用ツールを提供しています。データマイニングとは、人の頭では処理しきれないほどの膨大なデータの中から法則性を発見するツールです。世界中の大学の情報処理系で もっとも多く使われている高度なデータマイニングソフト『Weka』の機能を100%引き継いでいます。

Pentahoデータマイニング(Weka)とは
ニュージーランドのWaikato大学で開発されたデータマイニングのオープンソースです。アカデミック分野では、データマイニングソフトのスタンダードになっています。Pentahoは、2006年よりWekaプロジェクトに投資を行い、これらの製品の開発、サポートに関わっています。Pentahoエンタープライズ版ではアドオンツールとして提供されます。

Wekaのダウンロード
Wekaのオープンソース版は、以下のサイトからダウンロードできます。
http://sourceforge.jp/projects/weka-jp/

使い方
Wekaの使用にはデータマイニングの知識が必要になります。初めての方は、下記のブログなどを参考にしてください。
社会人MBA-技術者編:Wekaの起動から基本的な分析まで分かりやすく解説されています。
Weka-jp:Wekaの日本語サイトです。
データマイニング・Weka:Wekaに関する詳細な情報が豊富、やや専門的。
Weka・Wiki:同様にWeka Knowledge Flowに関する情報。

Wekaで行うことができる代表的な分析の種類
・アソシエーションルール 例)マーケットバスケット分析、缶ビールと紙おむつなど
・クラスタリング       例)似たもの探し=顧客セグメントの分類など
・クラス分類(予測)    例)売上予測や株価予測など
  (最近傍アプローチ) 例)Amazonの「あわせて買いたい 」にみられるリコメンデーション。
・決定木           例)ルールの発見、湿度が○○%以上ならゴルフをするなど。
・ニューラルネットワーク 例)パターン認識、クレジットカード会社の与信管理など。

Pentaho データ統合ツール(PDI)との統合
データマイニングでは、マイニングを行うためのデータセットの用意に手間がかかります。
データ作成→アルゴリズムの選択→設定→テスト・・・・の繰り返しが必要です。
Pentahoでは、強力なデータ統合ツールとの組み合わせにより、Wekaでの分析に必要なデータ(CSV形式やARFF形式のファイル)を作成したり、分析したスコアを活用したりすることができます。

weka_pdi.jpg★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム









トラックバック(0)

このブログ記事を参照しているブログ一覧: Pentahoデータマイニング

このブログ記事に対するトラックバックURL: http://www.pentaho-partner.jp/mt/mt-tb.cgi/110

コメントする

2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30