TreasureDataへの接続(PDI編)

|
Pentahoは、さまざまなデータソースに対しアクセスできますが、今日はクラウド上でDWHを提供しているTreasureDataを使用する例をご紹介したいと思います。

なお、TreasureData社さんに関しては、すでにいろいろと情報が出ていますので詳細な説明は割愛させていただきます。
特に以下のブログが詳しかったのでご紹介しておきます。
http://d.hatena.ne.jp/naoya/20130322/1363946401

それでは早速、PDIからTreasureDataへクエリを投げて結果を取得するというものをご紹介いたします。
TreasureDataへの接続関しては、TreasureData社さんが作成しているJDBCドライバを使用します。
なお設定方法等についてはこちらに詳しく書かれておりますが、簡単に言えばJDBCドライバをPDIの指定の場所に配置して、コネクションの設定を行うだけで使用できてしまいます。
※今回は、PDI4.4.0 + td-jdbc-0.2.2-jar-with-dependencies.jar で検証しています。


まずは、JDBCドライバをダウンロードし、以下の場所に配置します。
<pdi-home>/data-integration/libext/JDBC/td-jdbc-0.2.2-jar-with-dependencies.jar

次にTransformationを新規作成し、コネクションを作成します。
以下の様な感じです。
td_pdi_1.png

コネクション作成後は「TableInput」ステップにて、SQLを書くとTreasureDataにてデータを取得して結果を返却してくれます。
以下の様な感じです。
td_pdi2.png

また、TreasureData側では以下の様なJOBが実行されています。
td_pdi3.png

「TableInput」ステップにてデータを取得したあとは、通常のETL処理になりますので、PDIにてデータ加工等を行います。
TreasureDataを有効的に使用するためには、大量データの集計に関してはTreasureData側で全て済ませてしまい、その後別のデータソースと結合する処理をPDI側で実行するという方針となるかと思います。

今日は、まずはPDIからどのように接続できるかというのを簡単にご紹介しましたが、JDBC経由での接続となりますので、PDIだけではなくBIサーバから直接接続することももちろん可能となります。
その他の使用方法等については、追って本ブログにてご紹介して参りますので、しばしお待ちいただければ幸いです。
もし早急に情報を知りたいということであれば、こちらよりお気軽にご相談ください


今日のところは以上です!

★Have a nice Open Source Day★
KSK Analytics Pentaho Team

2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30