Pentaho Dataminingの最近のブログ記事

本ブログではSAS Institute社様※の製品にて利用可能なSASデータセットファイル読み込みデータ統合ステップ(SAS Inputステップ)の検証をご紹介いたします。

本検証内容はPentahoデータ統合プロジェクトのチーフアーキテクトのMatt Casters 氏からの発表を元に、SASデータセットファイル(*.sas7bdat形式)の読み込み機能がETL処理の一部として実行可能であるとの内容となっております。

参照元URL:

SAS Institute社 

本検証では以下のデータセットを利用させて頂きました。
データセット名:
candyinfo.sas7bdat

データセット取得元URL:

検証内容:

SAS_input.JPG

sas7bdat形式データのフィールドを取得SAS_input2.JPG

データ内容を参照
SAS_input3.JPG


弊社は皆様のビジネスの役に立つようにビジネスインテリジェンスだけではなく、DWH、ビジネスアナリティックスにも力をれておりますが、米Pentaho社もまたBAに対して本格的に取り組みを行っていくと言う姿勢が伺えるかと思います。

弊社では、ビジネスインテリジェンスおよびDWH、ビジネスアナリティックスと言う、戦略系ソリューションをワンストップでご提供させて頂いております。

戦略系システムの整備の必要がある、または戦略系システムの必要性を感じていられる
ご担当者様は一度、こちらから弊社までご相談下さい。

☆Have a strong data integration ☆
KSKソリューションズ
前回ポストでご紹介したPentahoデータマイニング(weka)日本語版ですが、弊社サイトから実行形式のものをダウンロードいただけるようにしました。一足先に日本語版のwekaを使用したいという方はどうぞ。「体験版ダウンロード依頼」はPentaho日本語サイトより可能です。

また4月5日(火)13:30-16:00に、品川イーストワンタワーでPentaho無料紹介セミナーを開催致します。Wekaを用いたビジネスアナリティクスやデータマイニングのセッションもあります。ぜひご参加ください。


★Have a Great Open Source Day★
KSKソリューションズ Pentahoチーム
www.pentaho-partner.jp
またまたPentahoデータマイニング関連のポストとなります。よくいただく質問に「日本語の属性やデータが文字化けする」というものがあります。

多くの場合、これはエンコード設定の問題です。以下に手順を記載します。

【日本語文字化けの解消:エンコードの変更】
1.WekaインストールディレクトリのRunWeka.iniをテキストエディター等で開きます。
2.下記のようにデフォルトのエンコード(Cp1252)をコメントアウトし、「fileEncoding=utf-8」を記載します。

weka_runwekaini.jpg


3.ファイルを上書き保存し、Wekaを再起動します。
4.arffファイルやcsvファイルを読み込んでみましょう。(読込ファイルのエンコードはutf-8である必要があります。)日本語属性が表示されます。

weka_attributes.jpg





★Have a Great Open Source Day★
KSKソリューションズ Pentahoチーム
www.pentaho-partner.jp


Weka (Pentaho Data Mining) 日本語化

|
KSKソリューションズでは、データマイニングのオープンソースソフトウェアWeka(Pentaho Data Mining) の多言語対応と日本語化を行い、Wekaプロジェクトに寄贈しました。

【従来の問題点】
Wekaは、ニュージーランドのワイカト大学を中心に開発が進められるオープンソースのデータマイニングプロジェクトです。アカデミックでは、データマイニングソフトウェアとして普及が進んでいます。しかし、GUIのローカライズはあまり考慮されておらず、Pentahoの他のソフトウェアのようにプロパティファイルによる多言語対応がされていませんでした。

【弊社で行ったこと】
KSKソリューションズでは、Wekaで多言語表示が行えるようにソースコードを改編し、外部プロパティファイルを設置して、GUI表示をコントロールできるようにしました。併せて、GUIの日本語化を行い、Wekaプロジェクトに寄贈しました。(Ver3.6.3に対応)


weka_menu.PNG


weka_explorer.PNG


weka_decision_tree.PNG

【今後の対応】
今後この改善により、多言語での対応が可能になります。KSKソリューションズでは、引き続きWeka(Pentahoデータマイニング)のローカライズを実施していきます。Pentahoデータマイニングについてのサポート、コンサルティング等も積極的に行ってまいります。詳細のご質問・ご要望は、Pentaho日本語サイトよりお問い合わせください。

現在弊社では、Wekaを含むオープンソースでのビジネスアナリティクス・統計解析・データマイニングを進めるためのデータアナリストやビジネスパートナーを募集しております。ご興味がございましたら、ぜひお問い合わせください。

★Have a Great Open Source Day★
KSKソリューションズ Pentahoチーム

Pentahoは、データマイニング用ツールを提供しています。データマイニングとは、人の頭では処理しきれないほどの膨大なデータの中から法則性を発見するツールです。世界中の大学の情報処理系で もっとも多く使われている高度なデータマイニングソフト『Weka』の機能を100%引き継いでいます。

Pentahoデータマイニング(Weka)とは
ニュージーランドのWaikato大学で開発されたデータマイニングのオープンソースです。アカデミック分野では、データマイニングソフトのスタンダードになっています。Pentahoは、2006年よりWekaプロジェクトに投資を行い、これらの製品の開発、サポートに関わっています。Pentahoエンタープライズ版ではアドオンツールとして提供されます。

Wekaのダウンロード
Wekaのオープンソース版は、以下のサイトからダウンロードできます。
http://sourceforge.jp/projects/weka-jp/

使い方
Wekaの使用にはデータマイニングの知識が必要になります。初めての方は、下記のブログなどを参考にしてください。
社会人MBA-技術者編:Wekaの起動から基本的な分析まで分かりやすく解説されています。
Weka-jp:Wekaの日本語サイトです。
データマイニング・Weka:Wekaに関する詳細な情報が豊富、やや専門的。
Weka・Wiki:同様にWeka Knowledge Flowに関する情報。

Wekaで行うことができる代表的な分析の種類
・アソシエーションルール 例)マーケットバスケット分析、缶ビールと紙おむつなど
・クラスタリング       例)似たもの探し=顧客セグメントの分類など
・クラス分類(予測)    例)売上予測や株価予測など
  (最近傍アプローチ) 例)Amazonの「あわせて買いたい 」にみられるリコメンデーション。
・決定木           例)ルールの発見、湿度が○○%以上ならゴルフをするなど。
・ニューラルネットワーク 例)パターン認識、クレジットカード会社の与信管理など。

Pentaho データ統合ツール(PDI)との統合
データマイニングでは、マイニングを行うためのデータセットの用意に手間がかかります。
データ作成→アルゴリズムの選択→設定→テスト・・・・の繰り返しが必要です。
Pentahoでは、強力なデータ統合ツールとの組み合わせにより、Wekaでの分析に必要なデータ(CSV形式やARFF形式のファイル)を作成したり、分析したスコアを活用したりすることができます。

weka_pdi.jpg★Have a nice Open Source Day★
KSKソリューションズ Pentahoチーム









2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30      

2011年10月: 月別アーカイブ