統計分析手法 1.度数分布

|
過去にブログ投稿いたしました、
統計分析手法 イントロダクション の投稿から少々日が経過いたしましたが、
本投稿では、統計分析手法の基本の一つである度数分布とPentahoでの活用例を
ご紹介したいと思います。

まず度数分布とは、定量的データが得られた場合に中心的傾向やばらつき、
偏りなどの母集団の形態をわかりやすく確認する為に用いられる統計手法となります。

今回の活用例では、sampledata.org のデータマイニング用サンプルデータにて公開されている
こちらのデータを利用したいと思います。

では、今回使用するデータの性質を先にご紹介いたします。

データ名 : 赤ワイン品質(含有成分)

データ元 : http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv

データ件数 : 1599件

データ内容 : 含有率
不揮発酸
酢酸類縁体
クエン酸
残存糖
塩化物
亜硫酸ガス
濃度
水素イオン指数
硫酸塩
アルコール

ブログ上での説明を行う為に、今回はアルコール含有率を利用したいと思います。
このサンプルデータ内では、アルコール含有率の数値範囲は「8.4% ~ 14.9%」となっており
重複を除いた場合65個の数値が存在しています。
今回は、このばらつきを利用して級分けを行いますが、一般的にデータ数と級の数は
以下の様に定義されています。

データ数 50~100 → 級数 6 ~10 
データ数 100~250 → 級数 7 ~12 
データ数 250以上 → 級数 10 ~ 20 

今回用いるデータは250以上に該当(1599データ)いたしますので、20個の級を策定いたします。

では、実際にPentaho による度数表表示を確認したいと思います。


frequency.JPG


同じく、ヒストグラムの表示を行います。
histogram.JPG


今回は例としてサンプルのデータを利用して度数分布のみを行いましたが、
弊社では、いかに顧客様の意思決定をになうデータを提供出来るのか?と言う課題に対しても
日々取り組みを行っておりますので、ご興味を持っていただいた場合はこちらから弊社窓口までご相談ください。



☆Have a nice BI system with Statistics solution☆
KSKソリューションズPentahoチーム