オープンソースBIのPentaho(ペンタホ)ブログでタグ「ETL」が付けられているもの

Talend 統合検証

|
Pentahoデータ統合プロジェクトのチーフアーキテクトのMattCaster氏が
自身のブログにて記載していたTalend統合への取り組みを検証いたしました。

参照URL:
Matt Caster on Data Integration

取組概要:
オープンソースETLツールのTalendにて定義した処理内容をそのまま
Pentahoデータ統合上で実行可能にする取組み。

検証内容は以下に記載いたします。

1.Talend上でETL処理内容を定義
talend_pre.JPG

2.Talend上から定義内容をエクスポート
talend_1.JPG

3.Pentahoデータ統合クライアント(Spoon)上でTalend Job Executionステップを定義
talend_3.JPG

4.通常のPentahoデータ統合処理と同様にETL処理を開始し実行
talend_4.JPG

本検証を通じ、Talend上で定義されたETLロジックをそのまま実行可能な事を
立証いたしました。

今現在Talendを使用されてETL処理を行われている担当者様は、Talendにて定義された
処理内容をそのまま保持頂いた状態で、Pentahoデータ統合機能をご使用いただけますので、
そのまま、既存の財産をご利用いただく形でデータ統合を行っていただけます。

ご興味を持たれたご担当者様は、ぜひ一度こちらより弊社までご相談ください。

☆ have a nice data integration day ☆

HBase 統合検証

|
弊社内で、Pentaho 社の2011年度の製品ロードマップに記載されているHbase統合プロジェクトの
検証を開始いたしました。

hbase_logo_med.gifのサムネール画像

Pentaho社はHBase統合に対し、データ統合クライアント(Spoon)にて以下ステップを準備しており
PentahoデータマイニングWEKAプロジェクトの責任者MarkHall氏が開発担当をしております。

・HBase Input (HBaseからデータ取得)
・HBase Output (HBaseに対してデータ挿入)

今回は上記ステップの動作検証を主目的とし以下検証を行いました。
・HBase Input を利用しHBaseのテーブルからテキストファイルにデータの書き込み
・HBase Output を利用しテキストファイルからHBaseのテーブルにデータの挿入

それぞれの詳細は以下に記載します。
PentahoでのDWH(データウェアハウス)構築の際に、「Pentahoデータ統合(ETL)の処理能力はどうか?」といったご質問をよくいただきます。本ホワイトペーパーでは、その質問に100%答えることはできないものの、ある程度の目安となる情報を教えてくれます。

●タイトル:「クラウドやオンプレミス(自社運用型)での 大量データ処理のスケーリング」

●出典:
本ホワイトーペーパーは、Pentahoのパートナーであるバイロン社のニコラス・グッドマン氏のホワイトペーパーを日本語訳したものです。
http://www.nicholasgoodman.com/bt/blog/2009/04/21/pdi-scale-out-whitepaper/

●ダウンロード
日本語版はこちらよりダウンロードいただけます。

●概要:
このホワイトペーパーでは、以下の主要な問いに答えています。
問1: クラスターにノードを追加するとき、PDI(Pentahoデータ統合)は比例して変化するか?
問2: より大量のデータを処理するとき、PDIは比例して変化するか?
問3: クラウドでのETLに関する主要な価格とパフオーマンス指標は何か?
問4: アマゾンEC2にPDIをデプロイした人は何を知っておく必要があるのか?

問1では、以下のように、Pentahoデータ統合(ETL)のノードを増やすことで処理能力が比例的に向上していくことが示されています。
scales1.JPG

問2に対しては、以下のように、データベース(データウェアハウス)のデータ量が増えるにしたがい、リニアにスケールすることが示されています。scales2.JPG
問3については、Pentahoデータ統合(ETL)における平均のスループットを定義しています。
average_throughput.JPG


問4については、Amazon EC2(クラウド)でのデータ統合処理を行う上での、EBS(Elastic Block Storage)やIPアドレスについてのアドバイスや注意点が記載されています。

本ドキュメントのダウンロードは、Penthao日本語サイトのドキュメントから可能です。ぜひご一読ください。

Have a great Open Source Day with Pentaho
★KSKソリューションズ Pentahoチーム★


2018年11月

        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  

月別 アーカイブ