弊社内で、Pentaho 社の2011年度の製品ロードマップに記載されているHbase統合プロジェクトの
検証を開始いたしました。
Pentaho社はHBase統合に対し、データ統合クライアント(Spoon)にて以下ステップを準備しており
PentahoデータマイニングWEKAプロジェクトの責任者MarkHall氏が開発担当をしております。
・HBase Input (HBaseからデータ取得)
・HBase Output (HBaseに対してデータ挿入)
今回は上記ステップの動作検証を主目的とし以下検証を行いました。
・HBase Input を利用しHBaseのテーブルからテキストファイルにデータの書き込み
・HBase Output を利用しテキストファイルからHBaseのテーブルにデータの挿入
それぞれの詳細は以下に記載します。
Tweet
■HBase Input
・HBase Input ステップにzookeeperを設置している接続先(複数設定可能)を設定し、
データ取得元を設定
(上記設定の代わりにhbase-site.xml, hbase-default.xmlの設定を行う事も可能)
・出力先のテキストファイルへの書き込み項目を設定
設定項目はHBase Inputステップより取得
・テキストファイルに対しデータの書き込みを行っている様子
■HBase Output
・HBase Output ステップにzookeeperを設置している接続先(複数設定可能)を設定し、
データ挿入先を設定
(上記設定の代わりにhbase-site.xml, hbase-default.xmlの設定を行う事も可能)
・HBaseテーブルのメタ情報を取得し書き込みフィールドに設定
・データが挿入されている事を確認(HBase Output実行前)
・データが挿入されている事を確認(HBase Output実行後)
本ブログでHBase統合の取り組みをご紹介させて頂いたように、
Pentahoプロジェクトでは、ビッグデータに対する取組みも順調に進んでおり、
戦略系システムをビジネスインテリジェンスからビジネスアナリティクスに昇華させる基盤
としてビッグデータ統合は非常に有効な施策となります。
Pentaho Hadoop 統合プロジェクトに関心を持っていただいた場合、
是非こちらよりお問い合わせください。
☆ Have a nice HBase Integration ☆