2015年11月アーカイブ

Pentaho Data Integration (オープンソース愛称Kettle)は、オープンソースのコミュニティ活動が活発でさまざまなサブプロジェクトが広がっています。その中でも地理空間情報に特化した製品がGeoKettle(ジオケトル)です。

以下、サイトからの引用です。詳細は、以下の開発元サイトを参照ください。
ダウンロード(OSS版)はこちらから可能です。
http://sourceforge.net/projects/geokettle/files/


****************************************

ETL (抽出、加工、読み込み)

GeoKettle は以前 Kettle と呼ばれていた Pentaho Data Integration で地理空間情報を扱えるようにしたものです。これはデータウェアハウスやウェブサービスのための地理空間情報データベースを、複数の異なるソースから生 成、更新するための強力なメタデータ駆動型 ETL (Extract, Transform and Load) ツールです。

GeoKettle はソースからデータを抽出し、誤り修正のために変形,整理、構造変更、標準規格への変換、DBMS/GIS ファイル/地理空間情報 Web サービス へのロードが行えます。GeoKettle はフォーマット変換、異なるデータベースへの取り込み、feed データのデータヘースへの取り込みなど、繰り返し作業が必要になる複雑な変換の自動化に特に威力を発揮します。

地理空間情報分野の商用の空間 ETL ツールである FME と Geokettle を比較すると、GeoKettle は安定、高速に動作し、標準規格に準拠、何百ものファイルフォーマット、サービス、 DBMS の読み書きに対応しています。GeoKettle は政府関連機関、銀行、保険、地理空間サービス作成企業など、世界中の様々な組織で利用されています。

project logo

主な機能

  • データの展開:
    • 35 以上のデータベース: MySQL, PostgreSQL/PostGIS, Oracle, ...
    • XML ファイル
    • XLS ファイル
    • Xbase ファイル (dBase、Foxpro、 他)
    • ファイルシステム情報
    • 自動生成データ
    • MS Access
    • LDAP
    • SOLAP (Spatial OLAP) システム: GeoMondrian
    • 地理空間情報データフォーマット: シェープファイル、 GML 3.1.1、 KML 2.2、 OGR がサポートしている全てのフォーマット
    • OGc Web サービス: WFS、SOS、CSW
  • データの変換:
    • エンジンベースのデータ変換(コード生成なし)
    • データベース、ファイル、メモリからのデータ探索
    • 演算
    • スクリプト: Javascript、SQL、RegExp
    • トリム
    • マップ
    • 選択
    • 分割
    • フィルタ
    • マージ
    • 結合
    • 複製
    • クラスタリング (MPP)
    • 回転
    • 地理空間情報解析: buffer, centroid, distance, intersection, union, ...
    • 高度な地理学的処理: clipping, delaunay, simplify/smooth geometry, split features, ...
    • 空間集約
    • 作成地図のプレビュー
  • 対象フォーマットへのデータの読み込み:
    • データベース: MySQL, PostgreSQL/PostGIS, Oracle, ...
    • データウェアハウスの母集団
    • 地理空間情報データフォーマット: Shapefile, GML 3.1.1, KML 2.2, OGR がサポートする全てのフォーマット
    • OGC ウェブサービス: CSW ...
    • 分散ローディング
    • バルク読み込み
    • クラスタリング
  • 環境:
    • 全ての変換オプションを編集できる GUI インターフェース "Spoon"
    • コマンドラインツール: ジョブと変換の実行
    • Webサーバ: リモート実行、巨大なデータベース処理にクラウドコンピューティングでのクラスタリング環境
    • Java API
    • プラグインエコシステム

準拠している標準規格

  • OGC 標準 (SFS, CSW, SOS)

詳細

ウェブサイト: http://www.geokettle.org/

ライセンス: GNU Lesser General Public License (LGPL) version 2.1

バージョン: 2.6

動作環境: Windows, Linux, Mac, Solaris

API: Java, Javascript

サポート: http://www.spatialytics.org & http://www.spatialytics.com


********************************************
Pentaho 6.0の日本語版のご提供は、もう少し先の話になりますが、
内容をいくつか先取りしてご紹介したいと思います。

PDI(ETL)の新機能として「データサービス」が追加されております。

データサービスでは、PDIのデータ変換の任意のステップを通過するデータを、
JDBCのインターフェイス経由で外部に公開したり、
あるいは、PDIの内部で利用したりできる機能となっております。

ステップのコンテキストメニューに、下記のように「Data Services」が追加されており、
「New」「Edit」「Delete」「Test」というメニューが並んでいます。
Data Services.png


Newを選ぶと、データサービスの定義画面が表示されます。
名前を指定して[OK]ボタンをクリックすると、それでひとまず作成完了です。
WS000131.PNG


[Test Data Service]のボタンをクリックするとテスト画面が表示されます。
この画面のように、SQLを利用して、データ変換のアウトプットを取得する形式になります。
先ほど指定したデータサービスの名前は、ここでテーブル名として利用されます。
WS000132.PNG

[Execute SQL]ボタンをクリックすると、元のステップ(今回はデータグリッド)で生成したデータが
表示されます。
WS000135.PNG

今回は以上です。

データサービスでは、追加の機能として
・グローバルキャッシング
・PushDownオプティマイゼーション(主に「テーブル入力」でWHERE句の条件を指定する仕組み)
を持っていますので、また後日ご紹介できればと考えております。

Pentaho 6.0はPentaho社のサイトからダウンロードもできますので、
よろしければお試しください。


【連載】PDI 誌上ハンズオン - 4

|
PentahoのETL(PDI)でデータ変換を作成するハンズオンの
4回目は、データベースからデータを取得する方法をご紹介します。

本ハンズオンは、Pentaho 5.2で動作確認を行っております。

スライド79.PNG
Pentaho 6.0では、対応する各種フレームワークのバージョンも、
新しいものに更新されています。

詳細は「製品バージョンマトリクス」というページが用意されておりますので、
そちらをご覧ください。

Pentaho Release Product Version Matrix 6.X
http://wiki.pentaho.com/display/PEOpen/Pentaho+Release+Product+Version+Matrix+6.X

いくつかピックアップしますと、

Pentaho:6.0
Tomcat:8.0.24
Java(JRE):1.8
Mondrian:3.11
SpringFramework:3.2.14

WS000199.PNG

参考までに、Pentaho 5.4では下記のバージョンでした。

Pentaho Release Product Version Matrix 5.X
http://wiki.pentaho.com/display/PEOpen/Pentaho+Release+Product+Version+Matrix+5.X

Pentaho:5.4
Tomcat:6.0.43
Java(JRE):1.7
Mondrian:3.10
SpringFramework:2.5.6


なお、5.Xまでのより詳細な製品マトリクスはこちらにございます。

Pentaho Release Product Version Matrix
http://wiki.pentaho.com/display/PEOpen/Pentaho+Release+Product+Version+Matrix

ご参考にしていただけましたら幸いです。



【連載】PDI 誌上ハンズオン - 3

|
PentahoのETL(PDI)でデータ変換を作成するハンズオンの
3回目は、Excelファイルの入出力と変換ステップの使い方をご紹介します。

本ハンズオンは、Pentaho 5.2で動作確認を行っております。

使用するExcelファイルは、事前にこちらからダウンロードをお願いします。
jira.xlsx


2015年12月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31