2013年3月アーカイブ

Pentahoの新機能として公開されているインスタビューですが、ビッグデータ関連のさまざまなデータソースを簡単にビジュアル化し、分析することが可能です。現在Pentaho社より、いろいろなテンプレートが公開されています。

(YouTubeでは自動字幕キャプション機能がつきました。画面右下の四角いキャプションボタンをクリックして英語字幕や日本語字幕をご選択ください。日本語字幕の精度はいまいちですが参考にはなります。)

Twitter用テンプレート


MongoDB用テンプレート




www.pentaho.com/big-data-video-of-the-week
次週はAmazon Redshiftのテンプレート、次々週は、Cloudera IMPALAテンプレートを予定しております。またこちらでもご紹介してまいります。


   Have a Great Open Source Day
★KSKアナリティクス Pentahoチーム★
Pentaho日本語サイト Pentaho-Partner.jp


JDBCドライバの追加

|
東京は桜が満開です。皆様のお近くではいかがでしょうか?

桜にはソメイヨシノ以外にも様々な種類がありますが、生物もITも多様性が更なる発展の原動力になっているかもしれませんね。

Pentahoは多様なデータベース製品に接続できるのが特徴の1つです。
今回はJDBCドライバの設定について記述します。

Pentahoのサーバや各クライアントツールでデータベースに接続するには、事前にデータベースドライバをインストールしておく必要があります。 
データベース管理者やITマネージャーから適切なドライバが提供されるはずですが、そうでない場合はデータベースベンダー、 またはドライバ開発者のWebサイトからご自身でダウンロードを行って下さい。 
ドライバが取得できれば以下のインストラクションに従い、各BIスイートコンポーネントのドライバディレクトリにコピーして下さい。

1.古いドライバのバックアップ
新たなドライバのインストール時に同じディレクトリに古い(異なった)バージョンのドライバがインストールされていない事を確認して下さい。
もし古いドライバが存在する場合は問題事前回避の為にバックアップをとりディレクトリから削除します。
この問題はPentaho solution repositoryに使用しているデータベースと追加するデータソースが同じデータベースの時によく見受けられる問題です。 手順等に疑問のある場合は弊社サポートにご確認下さい。

2.JDBCドライバのインストール
以下のディレクトリにJARファイルのドライバをコピーして下さい

BI Server: /pentaho/server/biserver-ee/tomcat/lib/
Enterprise Console: /pentaho/server/enterprise-console/jdbc/
Data Integration Server:
/pentaho/server/data-integration-server/tomcat/webapps/pentaho-di/WEB-INF/lib/
Data Integration client: /pentaho/design-tools/data-integration/libext/JDBC/
Report Designer: /pentaho/design-tools/report-designer/lib/jdbc/
Schema Workbench: /pentaho/design-tools/schema-workbench/drivers/
Aggregation Designer: /pentaho/design-tools/agg-designer/drivers/
Metadata Editor: /pentaho/design-tools/metadata-editor/libext/JDBC/

nsmail.jpg

3.再起動
ドライバのインストールが終わったらサーバ、またはクライアントツールの再起動を行ってください。

付記:統合Windows認証を使用してMicrosoft SQL Serverへ接続する場合
JDBCドライバはintegratedSecurity接続Stringプロパティーを使用してWindows
でType 2の統合認証をサポートしています。 統合認証を使用するには JDBCファ
イルをコピーしたすべてのディレクトリへsqljdbc_auth.dll ファイルをコピー
してください。

★Have a nice DB connection★
KSK Analytics Pentaho Team

PDIでSqoopステップを実行する

|
HadoopのエコシステムにはHadoopとRDB間のデータ移行を並列処理するためのSqoopがありますが、PDIも4.4.0から対応するようになりました。

実際に使用すると以下のようになります。
pdi_sqoop1.png

今回は、MySQLからCDHへデータ移行を行いました。
設定項目は、以下のとおりです。
・データソースのMySQLのコネクションと対象Table
・出力先のNameNodeのホスト名とポート、JobTrackerのホスト名とポート、出力先ディレクトリ

さらに、"Advanced Options"を押下すると以下の様な画面になります。
ここでは、より詳細な設定を行うことが可能です。
pdi_sqoop2.png

ビッグデータを取り扱う際には、元データをどのようにHadoop側へ移行してくるかという点も検討しなければなりません。
その際にSqoopを検討されるお客様も多いかと思いますが、PDIであればGUIを使用してより簡易に設定することが可能になりますので、一度ご使用いただければ幸いです。
不明点等あれば、こちらよりお問い合わせください

★Have a nice Open Source Day★
KSK Analytics Pentaho Team

Pentaho + Infobrightで素早く、快適にBIを始めよう!

image

Pentaho 世界で最も使用されているオープンソースのBIスイート

Infobright MySQLベースの高速・低価格・簡単なデータウェアハウス


この世界的な2つのOSS製品を組み合わせることで、低コストでハイパフォーマンスなBI/BAシステムを構築することが可能です。KSKアナリティクスでは、多くのお客様に検討いただくためこの2製品の期間限定キャンペーンを行います。



キャンペーン概要

名称
Pentaho+Infobright 同時スタートキャンペーン
内容 1.Pentahoオープントレーニング: KSKアナリティクスが主催するPentahoのオープントレーニング(2013年4月~9月順次開催)に無料でご招待いたします。
2.Infobrightハンズオン・トレーニング:
Infobrihgtの特別ハンズオントレーニング(Pentahoトレーニング後、同日開催)に無料でご招待いたします。
対象 エンドユーザー企業様
期間 2013年4月1日 - 6月末日迄の新規同時ご発注分
お問合わせ KSKアナリティクス セールスグループ こちらよりお問い合わせください。

Pentahoセミナー実施中

|
ご好評いただいております、弊社4製品(Pentaho,Infobright,Rapid-I,Jedox)をご紹介するセミナーを本日開催中です。おかげ様で満席となっています。
20130312seminar.jpg
ご参加頂いている皆様、ありがとうございます。

短時間でご紹介しきれない部分はフォロー体制も拡充していますし、個別訪問にてセミナーと同等のご説明にお伺いすることも可能ですので、ぜひお問い合わせください。

★Join and enjoy our seminar★
KSK Analytics Pentaho Team

Pentahoライセンスキーの確認・更新方法につき、以前こちらで紹介しましたが、
サーバーを立ち上げてブラウザから設定する方法でした。

今回は、コマンドラインで実施する方法をご紹介致します。

設定ツールは以下にあります。
Linuxの場合:
/pentaho/server/enterprise-console/license-installer/
(/pentahoはPentahoをインストールしたルートディレクトリ)
Windowsの場合:
C:\pentaho\server\enterprise-console\license-installer\
(C:\pentahoはPentahoをインストールしたフォルダ)
licenseinstaller.jpg
ここにあるinstall_license.sh(Windowsは.batファイル)に引数を指定し実行します。
現在の設定を参照するにはdisplay,  新たなライセンスキーファイルを設定する場合は install とライセンスキーファイル名です。

Linux例:
 install_license.sh install /home/pentaho/downloads/Pentaho\ BI\ Platform\ Enterprise\ Edition.lic
(ファイル名にスペースがあるためバックスラッシュでエスケープ)
Windows例:
install_license.bat install "C:\Users\pentaho\Downloads\Pentaho BA Platform Enterprise Edition.lic"

確認はdisplayを引数で渡します。
licensedisplay.jpg

Webベースのエンタープライズコンソールは簡単なUIで便利ですが、GUIが使えない環境や定期自動実行するような場合はコマンドラインも有効ですので、お試しください。
★Enjoy your nice GUI and CUI tools★
KSK Analytics Pentaho Team

ビジネスインテリジェンス学習を進めると様々なjargonに出くわします。

そこで、理解できたところを少しずつ整理して行ければと思います。

何かお気づきの点がありましたらご指摘いただけますと幸いです。


まずは、Slowly Changing Dimensionsについて。


Slowly Changing Dimensionsはデータウェアハウスを構築する上で直面するディメンショナルデータの更新に対する考え方で、下記の6つのタイプに分類される。ラルフキンボールさんにより90年台前半に導入され、その後、データベースモデリングコミュニティの方々により改良されている。


タイプ1:Overwrite the Value

  • タイプ1は単に古い属性値を新しい値と置き換え、常に最新の情報を反映する一番シンプルな方法
  • ファクトテーブルは変更なし
  • 長所は速く、簡単な仕組みであり、短所は履歴が残らないこと


タイプ2:Add a Dimension Row

  • 履歴をしっかり残すための方法。
  • ファクトテーブルは、行を遡って編集せず、新たなサロゲートキーで行を挿入する
  • ナチュラルキーが別個に保存された同一アイテムをつなぐ。
  • アイテム数をカウントする時はナチュラルキーを使用する
  • 新たに挿入されたディメンションテーブルの行はファクトテーブルにも区画される
  • ファクトを参照する際に有効なサロゲートキーを識別するためにステージングエリアでは有効期間の属性が必要
  • 時間軸を用いて分析する際に頼れる方法
  • 短所は、行が増殖するのでテーブルが大きくなるのが速いこと

変更前

type2_before.jpeg


変更後

type2_after.jpeg


セールスファクト

type2_fact.jpeg



タイプ3:Add a Dimension Column

  • 新たな行を生成せず、新たなカラムで属性の変更を捉える方法。
  • 一つ前の情報を保持するためのカラムを持つ
  • タイプ2と異なる点は、現在と以前の値が共に有効と見なせる点。
  • 履歴を辿る必要がある場合は使えない。

変更前

type3_before.jpeg


変更後

type3_after.jpeg



タイプ4:Mini Dimensions

  • ディメンションテーブルが、1億行を超えるといった、大きくなりすぎる場合や、更新頻度が高く年間に行数が2倍、3倍と膨れ上がる場合に用いる。
  • 更新頻度に応じてグループ分けし、複数のディメンションテーブルに分離する。
  • ファクトテーブルに分離したテーブルのディメンションキーを追加する。
type4.jpeg

customerディメンションから変更頻度の異なるgeography属性とdemography属性を分離



タイプ5:Separate History Table

  • ディメンションテーブルの各属性の変更を正確に捉えることを目的とした履歴用テーブル
  • あるトランザクション時にどのレコードが有効だったかを特定することを可能にする
  • 他のタイプと併用して用いられる
  • ファクトテーブルを参照する分析には用いない
  • ファクトテーブルと同様の性質を持つが、保持するのはファクトではない
  • アイテム数や変更回数をカウントすることでアクティビティを分析することが出来る
  • 他用途多数
type5.jpeg type5.jpeg

タイプ5のテーブルと親ディメンションテーブルの例



タイプ6:Hybrid Techniques

  • タイプ1から3を混ぜたハイブリッドな方法(1+2+3=6)
  • タイプ3の一つ前の情報を保持するカラムを用いて、タイプ2で変更を捉え、さらに変更を加える場合はタイプ1で行う

変更前

type6_before.jpeg


変更後

type6_after.jpeg


さらに変更後

type6_and_after.jpeg


Pentaho Data Integrationのステップ:

  • Insert / Updateはタイプ1に、
  • Dimension lookup/updateはタイプ1、タイプ2にそれぞれ対応したステップ
  • その他のタイプは上記2つを筆頭にその他のステップを用いて行う事ができる


出典:

メタデータエディタ

|
春めいた気温でコートが不要な季節が近づきますが、花粉症に悩まされる方も多いでしょうか?
今回はPentahoが提供するツールの1つメタデータエディタの話題です。

メタデータエディタはインタラクティブレポートでWebブラウザから簡単にレポートを自分で作成する時に選択する、データソースを操作するクライアントツールです。
datasourceselect.jpg
各社BIツールが"セマンティックレーヤ"、"ビジネスビュー"、"メタモデル"などの呼称で同様の機能を提供する、DWH/BIの世界で一般的な概念ですが、Pentahoの実装は以下の特徴があります。

★★業界標準技術に適合★★
 PentahoはCommon Warehouse Metamodel(CWM)に準拠しています。
  Pentahoメタデータエディタで作成したファイルはXMI(XML Metadata Interchange)形式で保存され、CWMに準拠したツール間でのメタデータ交換が可能です。
metadataxmi.jpg

★★多言語対応の構造★★
注意して頂きたいのは"xx語をサポートしています"というだけではなく、コアの部分で容易に多言語に対応できる構造になっていることです。
Pentahoメタデータエディタではビジネス業務用語の各名称などを含め、各国語での設定が可能です。
metadataeditor-locale.jpg

★★マルチプラットホーム対応★★
Javaアプリケーションですから、WindowsでもLinuxでもMacOSでも動作可能です。
Web系技術者の勉強会に出るとMacBookをよく見ますが、Pentaho開発者達もMacBookの比率が高いです。


特定ベンダーの独自規格にロックインされると、広く普及している新しい技術への対応が困難になりがちですので、ツール選定では上記ご配慮いただくことをお奨めします。

Pentahoならすべての機能がユーザー数無制限で利用できます。


★Have a global standard technology★
KSK Analytics Pentaho Team

2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30