PDIでHadoopと連携する方法

|
PDIでせHadoop(Hive)データベースに接続させる方法を紹介いたします。

①PDIでは接続にJDBCドライバーが必要になりますので、各バージョンに対応しているJDBCドライバーをpentaho/data-integration/libの中に格納してください。
(例:Cloudera Hadoop5.3.3を使用し、かつHiveの0.13.1を使用している場合、
hive-jdbc-0.13.1-cdh5.3.3.jarファイルを格納する)
②次に、data-integration/plugin/petaho-bigdata-pluginの中にある、plugin.propertiesファイルを開き、
その中のactive.hadoop.configration=hadoop-20の部分をご使用のHadoopのバージョン等に変更してください。
(例:Cloudera Hadoop5.3.3を使用している場合、active.hadoop.configration=cdh53
Apache Hadoop2.4を使用している場合、active.hadoop.configration=hadoop-24)


plugin.properties1-2.png

plugin.properties1-1.png





③この状態でSpoonを開き、ウィザードからデータベース新規接続をクリックしてください。

④データソース名を入力し、、接続可能なデータベースにHadoop HiveまたはHadoop Hive2を選択して、ドライバ・タイプにはJDBCを選択してください。
(Hiveserverを設定している場合はHadoop Hive、Hiveserver2を設定している場合はHadoop Hive2を選択してください)

⑥サーバー名、ポート番号、データベース名の入力を行ってください。
(Hiveポート番号のデフォルトは10000です)

⑦ユーザー名とパスワードを入力し、テスト接続ボタンを押してください。






2015年8月

            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31