【連載】PDI 誌上ハンズオン - 2

|
PentahoのETL(PDI)でデータ変換を作成するハンズオンの
2回目は、ファイルの入出力を行う方法をご紹介します。

本ハンズオンは、Pentaho 5.2で動作確認を行っております。

使用するテキストファイルは、事前にこちらからダウンロードをお願いします。
country.txt

スライド43.PNG
「ETL」というのは、それぞれ次の処理を指します。
E(Extract:抽出)
T(Transform:変換)
L(Load:ロード)

テキストファイルからの入力がExtract、
テキストファイルへの出力がLoadに当たります。

T(Transform:変換)の事例として「選択/名前変更」ステップを使用し、
不要なフィールド(列)を削除する処理を行います。

スライド44.PNG
新規→データ変換 を選択します。
「入力」ノードから「テキストファイル入力」ステップを選択し、
キャンバスにドラッグします。ダブルクリックして、ステップの編集を行います。


スライド45.PNG
ダブルクリックして編集画面を表示します。
「参照」ボタンをクリックして入力ファイル指定し「追加」ボタンをクリックします。
指定したファイルのファイル名が、「ファイル名のリスト」欄に追加されます。


スライド46.PNG
「全般」タブを表示します。
フィールド区切り文字は、デフォルトの「;」(セミコロン)を削除して、右側の「入力 タブ」ボタンをクリックしてタブを入力します。


スライド47.PNG
文字コードは、ドロップダウンリストから適切な文字コードを選択します。今回は「UTF-8」を選択します。
フォーマットは行末コードを「DOS」「Unix」「mixed」から適宜選択します。


スライド48.PNG
「フィールドを取得」ボタンをクリックします。「サンプル出力するレコード数」ダイアログが表示されるので、OKをクリックします。


スライド49.PNG
フィールドをサンプリングした結果が表示されます。内容を確認して「閉じる」ボタンをクリックします。
「OK」ボタンをクリックして編集画面を閉じます。


スライド50.PNG
取得されたフィールドの内容を確認します。問題なければ「OK」をクリックして閉じます。


スライド51.PNG
「変換」ノードから「選択/名前変更」ステップをキャンバスにドロップし、2つのステップを接続します。
 「選択/名前変更」ステップをダブルクリックして編集します。
画面左上のステップ検索も利用可能です。


スライド52.PNG
「除去フィールド」タブを表示します。
「フィールド名」の下の欄をクリックすると、欄の右端にドロップダウンの三角形が表示されるので、それをクリックして、「last_update」列を選択します。


スライド53.PNG
「テキストファイル出力」ステップを追加し、ホップで接続します。「Main output of step」を選択します。


スライド54.PNG
「テキストファイル出力」ステップをダブルクリックして編集します。ファイル名の「参照」ボタンをクリックして出力先のファイル名を指定します。

スライド55.PNG
「全般」タブを表示します。「タブの挿入」ボタンをクリックして、区切り文字としてタブを指定します。
文字コード「UTF-8」を指定します。


スライド56.PNG
「テキストファイル出力」ステップを選択状態にして、ツールバー上のプレビューをクリックします。プレビューが実行されます。


スライド57.PNG
ツールバー上の「実行」をクリックします。「データ変換の実行」画面が表示されるので、「実行」ボタンをクリックします。


スライド58.PNG
データ変換実行前に保存します。


スライド59.PNG
実行結果を確認します。
出力先のファイルを開き確認して、終了です。

次回は、Excelファイルの入出力を行う方法をご紹介する予定です。

2015年12月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31