Pentaho Data Integration (ETL)の最近のブログ記事

PDIの暗号化・復号化ステップを使用して、ファイルやデータを暗号化・復号化してみます。

■暗号化の準備
1.GPGツールを端末にインストールします。
フリーソフトなので寄付なしでもダウンロード可能です。

2.ダウンロード後インストールします。設定はデフォルトで結構です。

3.ツールを起動しファイルから個人用のオープンキーを作成します。
名前、メールアドレス(ダミーでも構いません)、パスフレーズを設定します。
18050100.PNGのサムネール画像
準備はここまでです。

■ファイルを暗号化する
PDIより新規JOBを作成します。
「START」を起点とし、暗号化ファイルの「ファイル暗号化(PGP)」を配置し、最後に「成功」を配置します。
以下のようなフローになります。
18050101.PNG

「ファイル暗号化(PGP)」の設定は以下のようになります。

「GPGロケーション」にはGPGのツールのパスを設定します
(デフォルトではC:\Program Files (x86)\GnuPG\bin\gpg.exe)

「ソースファイル/フォルダ」には暗号化の対象のファイルパスあるいはフォルダパスを設定します。

「ユーザーID」には作成したキーのメールアドレスを設定します。

「出力先ファイル/フォルダ」には暗号化後のファイルを格納するファイルパスあるいはフォルダパスを設定します。

設定後実行すると暗号化されたファイルが出力されます。
暗号化されたファイルは復号化しない限り開けません。

■ファイルを復号化する
PDIより新規JOBを作成します。
「START」を起点とし、暗号化ファイルの「ファイル復号化(PGP)」を配置し、最後に「成功」を配置します。以下のようなフローになります。
18050102.PNG

「ファイル復号化(PGP)」の設定は以下のようになります。

「GPGロケーション」にはGPGのツールのパスを設定します
(デフォルトではC:\Program Files (x86)\GnuPG\bin\gpg.exe)

「ソースファイル/フォルダ」には復号化の対象のファイルパスあるいはフォルダパスを設定します。

「出力先ファイル/フォルダ」には復号化後のファイルを格納するファイルパスあるいはフォルダパスを設定します。

設定後実行すると復号化されたファイルが出力されます。
復号化されたファイルは通常に開くことができます。

■データを暗号化する
PDIより新規データ変換を作成します。
「テーブル入力」を起点としSampleDataのCUSTOMERSテーブルのデータを入力します。
暗号化の「PGPで暗号化」を配置し、最後に「ダミー」を配置します。
以下のようなフローになります。
18050103.PNG

「PGPで暗号化」の設定は以下のようになります。

「GPGの場所」にはGPGのツールのパスを設定します
(デフォルトではC:\Program Files (x86)\GnuPG\bin\gpg.exe)

「キー名」にはキーの名前を設定します。

「データフィールド名」には暗号化したいフィールを設定します。

「結果フィールド名」には暗号化後のデータのフィールド名を設定します。

設定後、実行すると暗号化されたデータが出力されます。
暗号化されたデータは復号化しない限り閲覧できません。

■データを復号化する
先ほどのデータ変換の「PGPで暗号化」と「ダミー」の間に「PGPで復号化」を配置します。
以下のようなフローになります。
18050104.PNG

「PGPで復号化」の設定は以下のようになります。

「GPGの場所」にはGPGのツールのパスを設定します
(デフォルトではC:\Program Files (x86)\GnuPG\bin\gpg.exe)

「パスフレーズ」にはキーのパスフレーズを設定します。

「データフィールド名」には復号化したいフィールを設定します。

「結果フィールド名」には復号化後のデータのフィールド名を設定します。

設定後、実行すると復号化されたデータが出力されます。
復号化されたデータは暗号化する前のそれと一致します。

データのマスキングなど、これらの暗号化や復号化のステップを使用することで、
簡単に実装できるのでぜひお試しください。


新トレーニング"PentahoとHadoopフレームワークの基本"を開催しますに記載しておりますように、弊社では新しくPentahoとHadoopフレームワークの基本に関するトレーニングを開催いたします。 

 
本ブログでは上記トレーニングについて、具体的に何を学習することができるのかについて紹介いたします。  

本トレーニングは2日間(10:00~17:00)のトレーニングとなっております。
また、このトレーニングでは以下のコンポーネントの紹介をいたします。 

HDFS 
Flume 
Sqoop 
MapReduce 
YARN 
Pig 
Oozie 
Hive 
Impala 
HBase 
Spark 

トレーニングは基本的にコンポーネント毎に以下の順序で進めていきます。
・コンポーネントの紹介(コンポーネントの特徴、ロジック、メリット等) 
・PDIにおける各コンポーネントに対応するステップの紹介 
・(HDFS, MapReduce, Hive, Impala, HBaseのみ)実機でPDIを使用してコンポーネントの操作 


本トレーニングの対象者は 
・HadoopならびにHadoopエコシステムの初学者 
・PDIを使ってHadoopコンポーネントの操作に興味のある方 
が中心となります。 


・Hadoop関連のコンポーネントに熟知されている方 
・Hadoopの導入方法、運用管理方法を知りたい方 
は本トレーニングでは対象外となるため、別途ご相談いただけますと幸いです。 
弊社ではビッグデータ基盤構築の支援を行っております) 
 

もう少し具体的に詳細を知りたい方はお気軽に以下の問い合わせフォームよりご相談ください。


皆様のご参加をお待ちしております。
Image result for hadoop logoImage result for hadoop spark

ご要望の多かったPentahoデータ統合コースの続編 「PentahoとHadoopフレームワークの基本」(DI2000)を提供することになりました。まずは2017年8月3日-4日に開催しその後定期コースとして開催してまいります。、

Pentahoデータ統合(DI1000)の次のステップとして、Pentahoがどのように以下の Hadoop関連テクノロジーと連携するかを効果的に学習することができます。ビッグデータ統合を検討される方、ぜひご検討ください。

  • HDFS
  • Sqoop
  • Pig
  • Oozie
  • MapReduce
  • YARN
  • Hive
  • Impala
  • HBase
  • Flume
  • Spark

詳細は、PentahoとHadoopフレームワークの基本(DI2000)トレーニングページをご覧ください。







Pentaho7.1がリリースされました。今回のトピックスは以下です。 評価版もありますので、ぜひお試しください。

1.ビッグデータ対応、SPARKの完全サポート
SPARKに完全対応しました。PDI(Pentahoデータ統合)を使うことで、ドラッグ&ドロップの環境で、特別な技術知識のない方でも、SPARKを使ったデータ統合が可能になりました。

2.Microsoft Azure HDInsight
従来からの様々なクラウド環境に加えて、今回マイクロソフトのHDInsightに対応しました。

3.高度なデータ可視化
PDIでの様々なビジュアリゼーションが可能になりました。これによりデータ取得・変換・可視化までが素早く行えるようになっています。

4.Hortonworks Hadoopセキュリティ
ホートンワークスのHadoopセキュリティーに対応しました。具体的には、Kerberosインパーソネーションのサポート、Apache Rangerのサポートを行っています。





Pentaho7.0がリリースされました!

|
Pentaho1年ぶりのメジャーバージョンアップとなる7.0がリリースされて提供が始まりました。今回の主な強化ポイントは以下となります。




1.データ加工と分析の融合
PDI(Pentaho Data Integration)の可視化機能が進化し、データ統合を行いながら分析(可視化)を行ったり、可視化した結果をもとにデータ統合プロセスを見直したり、など加工~分析がやりやすくなりました。