PDIでSqoopステップを実行する

|
HadoopのエコシステムにはHadoopとRDB間のデータ移行を並列処理するためのSqoopがありますが、PDIも4.4.0から対応するようになりました。

実際に使用すると以下のようになります。
pdi_sqoop1.png

今回は、MySQLからCDHへデータ移行を行いました。
設定項目は、以下のとおりです。
・データソースのMySQLのコネクションと対象Table
・出力先のNameNodeのホスト名とポート、JobTrackerのホスト名とポート、出力先ディレクトリ

さらに、"Advanced Options"を押下すると以下の様な画面になります。
ここでは、より詳細な設定を行うことが可能です。
pdi_sqoop2.png

ビッグデータを取り扱う際には、元データをどのようにHadoop側へ移行してくるかという点も検討しなければなりません。
その際にSqoopを検討されるお客様も多いかと思いますが、PDIであればGUIを使用してより簡易に設定することが可能になりますので、一度ご使用いただければ幸いです。
不明点等あれば、こちらよりお問い合わせください

★Have a nice Open Source Day★
KSK Analytics Pentaho Team

2014年4月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30