talend5.4~もう少し深く知る~(技術セッション)

30
2Talend 5.4のご紹介 20140228日(金) 15:0017:15 於:Talendセミナールーム Talend株式会社 Talend 5.4 ~ もう少し深く知る ~

Upload: talend-kk

Post on 12-May-2015

32.431 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Talend5.4~もう少し深く知る~(技術セッション)

1  ©  Talend  2014  

(2) Talend 5.4のご紹介

2014年02月28日(金) 15:00~17:15 於:Talendセミナールーム Talend株式会社

Talend 5.4 ~ もう少し深く知る ~

Page 2: Talend5.4~もう少し深く知る~(技術セッション)

2  ©  Talend  2014  

アジェンダ

Ù  Talend  5.4をインストールする  Ù  Talend  5.4でデータ統合・連携処理を開発する  

Ù  Talend  5.4でデータ統合・連携システムを運用する  

Page 3: Talend5.4~もう少し深く知る~(技術セッション)

3  ©  Talend  2014  

Talend  Pla)orm  for  ….  

Data Integration ESB Big Data

Data Services

Enterprise Integration MDM

Data Management Big Data

Talend 5.4商用製品体系

Talend  Enterprise  

With  Big  Data

With  Big  Data

With  Big  Data

Page 4: Talend5.4~もう少し深く知る~(技術セッション)

4  ©  Talend  2014  

Talend 製品機能比較表

# 製品機能

Talend Enterprise … Talend Platform for …

Data Integration

Big Data ESB Data Management

Big Data Data Services

Data Services with Big Data

MDM MDM with Big Data

Enterprise Integration

Enterprise Integration with Big Data

Universal

1 Talend Enterprise Data Integration機能:ジョブ開発用スタジオ・運用管理・維持管理機能

※version 5.1 Professional Edition相当 ◯ ◯ N/A ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯

2 Hadoop, NoSQL用コンポーネント N/A ◯ N/A N/A ◯ N/A ◯ N/A ◯ N/A ◯ ◯

3 Hadoop Map Reduceジョブ開発機能 N/A ◯ N/A N/A ◯ N/A ◯ N/A ◯ N/A ◯ ◯

4 マルチスレッドパラレル機能 N/A ◯ N/A ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯

5 高可用性機能(フェールオーバー・ロードバランシング) N/A ◯ N/A ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯

6 Talend Enterprise ESB機能:メディエーションスタジオ+データサービス開発・運用管理・

ESB Runtime機能等 N/A N/A ◯ N/A N/A ◯ ◯ ◯ ◯ ◯ ◯ ◯

7 Talend Data Quality機能:プロファイリング・標準化・ファジーマッチング・データスチュ

ワード機能等 N/A N/A N/A ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯ ◯

8 Talend Big Data Quality機能:ビッグデータプロファイリング・ビッグデータ標準化・ビッグ

データマッチング機能等 N/A N/A N/A N/A ◯ N/A ◯ N/A ◯ N/A ◯ ◯

9 Talend Master Data Management機能:MDMスタジオ・MDMコンポーネント・MDM WEBインタフェー

ス・ワークフロー・MDM Runtime機能等 N/A N/A N/A N/A N/A N/A N/A ◯ ◯ N/A N/A ◯

10 Talend Business Process Management機能BPMスタジオ・BPM Runtime・データサービスコネクタ・BPM

Runtime機能等 N/A N/A N/A N/A N/A N/A N/A N/A N/A ◯ ◯ ◯

◯   ・・・ 機能搭載  N/A  ・・・ 機能非搭載

Page 5: Talend5.4~もう少し深く知る~(技術セッション)

5  ©  Talend  2014  

Talend製品の共通基盤:Talend Unified Platform

Page 6: Talend5.4~もう少し深く知る~(技術セッション)

6  ©  Talend  2014  

Talend製品の指向性

r  

コードジェネレーション方式 ブラックボックエンジンと ならない透明性の高い実装モデル

Java   SQL   Map  Reduce  

Camel   ……  

標準・普及技術への準拠 ベンダーロックインを除外し、習得コストを削減

分散型アーキテクチャ 軽量コンテナによる分散型アーキテクチャが 実現するハイパフォーマンス処理の実現

Page 7: Talend5.4~もう少し深く知る~(技術セッション)

7  ©  Talend  2014  

Talend 5.4をインストールする インストールの前提事項-1

Ù  

①OS  (32bit  /  64bit)  Windows  Server  /  Linux

④JVM  (32bit  /  64bit)  Oracle  JDK  SE  1.7  

②TAC用DB   ③Subversion  

Talend  サーバーモジュール

Ù  

⑤OS  (32bit  /  64bit)  Windows  Server  /  Linux

④JVM  (32bit  /  64bit)  Oracle  JDK  SE  1.7  

Talend  クライアントモジュール

サーバー クライアント

①Ubuntu  10.04,  12.04,  13.04  /  Red  Hat  Linux  5.5-­‐5.9,  6.1以上  /    SUSE  Linux  10,  11  /  Oracle  Solaris  10,  11  /    MicrosoV  Windows  Server  2008R2,  2012

⑤①に加え、以下  MicrosoV  Windows  Vista  SP1,  7,  8,  8.1  Mac  OS  X    10.7,  10.8

②MySQL  5.1,  5.5,  5.6  /  Oracle  10,  11  /  MicrosoV  SQL  Server  2005,  2008,  2012  /  PostgreSQL  9.2  /  H2  1.3

③Apache  Subversion  1.7以上 /  Visual  SVN  Server  2.5以上 /  Bitnami  Subversion  Stack  (based  SVN  1.7)  /    Svnserve  (based  SVN1.7)  

④ Oracle  JDK  SE  1.7

Page 8: Talend5.4~もう少し深く知る~(技術セッション)

8  ©  Talend  2014  

Talend 5.4をインストールする インストールの前提事項-2

# 設定事項(サーバー)

1 ■$JAVA_HOMEの設定    OSの環境変数に$JAVA_HOMEを設定して下さい(例: JAVA_HOME=c:\Java\jdk1.7.0_45)  ■デフォルトJava環境の設定    デフォルトで、$JAVA_HOMEのJavaが起動するように設定して下さい。Linuxの場合、標準的なOpen  JDKに、Windowsの場合、    system32配下のjava.exeにパスが通っている可能性があります。

2 ■TAC用DBへのTalend用ユーザーの設定    ※TalendインストーラーがインストールするH2の場合、必要ありません。  ■TAC用DBのTAC用スキーマの設定    (例:talend_administrator)    ※TalendインストーラーがインストールするH2の場合、必要ありません。

3 ■SubversionへのTalend用ユーザーの設定  ■Subversionにおける成果物格納用trunkの設定(例:talendrep)  ■Subversionにおける外部ドライバ格納用trunkの設定(例:talend_external_libraries)  

4 Firewall等でポートを閉じている場合、Talendモジュールが使用するポートを開いて下さい。

Page 9: Talend5.4~もう少し深く知る~(技術セッション)

9  ©  Talend  2014  

Talend 5.4をインストールする Talend製品のインストール作業-1

Ù  Easy  Installモード  •  ライセンスファイル  

•  インストール先ディレクトリ  

•  管理者ユーザー/パスワード  

•  以降はデフォルト設定でインストール  

※Server  /  Clientが選択可能  

※TAC用DBは、埋込み型H2を使用  

※Customインストールは選択出来ない(「Next」後に警告メッセージが表示)  

Ù  Advanced  Installモード  •  ライセンスファイル  

•  インストール先ディレクトリ  

•  インストールモジュールの選択  

•  管理者ユーザー/パスワード  

•  TAC用DBの選択と設定  

•  モジュール別使用ポート番号  

•  サービス登録可否等  

※Server  /  Client  /  Customが選択可能  

以下、4タイプのインストールが可能:    1.  Talendインストーラー: GUIモード  2.  Talendインストーラー: テキストモード  3.  Talendインストーラー: サイレントモード(Unahended  mode)  4.  個別モジュールごとに手動設定

Page 10: Talend5.4~もう少し深く知る~(技術セッション)

10  ©  Talend  2014  

Talend 5.4をインストールする Talend製品のインストール作業-2

Ù  ライセンストークンの設定が必要  

Ù  「Go  to  db  config  page」より  •  インターネットに接続している環境であれば自動

的にライセンストークンを取得して活性化  

•  インターネットに接続できない場合、手動にてトークンを取得  

•  180日ごとにトークの更新が必須  

※ トークン取得サイト(hhp://www.talend.com/api/get_js_validajon_token_form.php)  

Page 11: Talend5.4~もう少し深く知る~(技術セッション)

11  ©  Talend  2014  

Talend 5.4をインストールする 設定(Configuration)

Ù  TACログイン後  

Ù  [Menu]-­‐>[設定]-­‐>[Configurajon]  Ù  必須設定項目  

p  CommandLine/primary  

p  Job  conductor  

p  Log4j  

p  Svn  Ù  自動設定項目  

p  Database  

p  General  

Page 12: Talend5.4~もう少し深く知る~(技術セッション)

12  ©  Talend  2014  

Talend 5.4をインストールする 外部ドライバのダウンロードとインストール-1

Ù  外部ドライバの別途設定が必要となります。また、ドライバによっては、別途ライセンスへの承認が必要となります。  •  WEBサービスで公開されているドライバに

ついては、ウィザード画面からダウンロード&インストールが可能。  

•  ネット非接続環境においては、ローカルディスクからインストールが可能  

Ù  Talend商用製品については、一括ダウンロード・ライセンス承認のウィザード機能がStudio初回起動時に表示されます。

Page 13: Talend5.4~もう少し深く知る~(技術セッション)

13  ©  Talend  2014  

Talend 5.4をインストールする外部ドライバのダウンロードとインストール-2

商用版における設定  

l  商用版については、タスク設定時にサーバーサイドでも実行モジュールの構築を行う(ジョブの生成)必要があるため、外部ドライバの設定が必要となります。  

l  Talendインストーラーでインストール時に「ジョブ等の成果物格納用リポジトリ(従来)」と同時に「外部ドライバ格納用リポジトリ」の設定が必要となります。  

l  Studioから、TACへ接続した状態で外部ドライバのダウンロード&インストールを行うことで自動的に共有リポジトリ(Subversion)へ格納されます。  

l  Commandlineは、必要に応じて「外部ドライバ格納用リポジトリ」より外部ドライバ・ライブラリを抽出して実行モジュールを生成します。  

l  Studioユーザー間では、SVNに設定されることで共有されます  

Page 14: Talend5.4~もう少し深く知る~(技術セッション)

14  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発するプロジェクトの設定とStudioからのアクセス

ユーザー作成

プロジェクト作成

プロジェクトへのアクセス権設定

Page 15: Talend5.4~もう少し深く知る~(技術セッション)

15  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新規追加コンポーネント-1

# コンポーネント 機能サマリ 同梱製品

1 tFileInputRaw スキーマ定義をもたないオブジェクト型ファイルの読込

全ての商用製品に含まれます。

tFileOutputRaw スキーマ定義をもたないオブジェクト型ファイルの作成

2 tS3BucketCreate Amazon S3ストレージのBucket作成

tS3BucketDelete Amazon S3ストレージのBucketを削除

tS3BucketExist Amazon S3ストレージ上のBucket存在チェック

tS3BucketList Amazon S3ストレージ上に存在するBucket名一覧の取得

tS3Close Amazon S3ストレージの接続終了

tS3Connection Amazon S3ストレージの接続開始

tS3Delete Amazon S3ストレージ上のファイル削除

tS3Get Amazon S3ストレージ上のファイルを取得

tS3List Amazon S3ストレージ上のファイル名一覧を取得

tS3Put Amazon S3ストレージ上にファイルを転送

3 tGSBucketCreate Google StorageのBucket作成

tGSBucketDelete Google StorageのBucketを削除

tGSBucketExist Google Storage上のBucket存在チェック

tGSBucketList Google Storage上に存在するBucket名一覧の取得

tGSClose Google Storageの接続終了

tGSConnection Google Storageの接続開始

tGSCopy Google Storageのファイルをコピー/移動

tGSDelete Google Storage上のファイルを索状

tGSGet Google Storage上のファイルを取得

Page 16: Talend5.4~もう少し深く知る~(技術セッション)

16  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新規追加コンポーネント-2

# コンポーネント 機能サマリ 同梱製品

tGSList Google Storage上のファイル名一覧を取得 全ての商用製品に含まれます。 tGSPut Google Storage上にファイルを転送

4 tSAPHanaClose SAP HANAの接続終了

Talend Enterprise Big Data, Talend Platform for Big Data, Talend Platform for Data Services with Big Data, Talend Platform for MDM with Big Data, Talend Platform for Enterprise Integration with Big Data

tSAPHanaCommit SAP HANAへのコミット発行

tSAPHanaConnection SAP HANAの接続開始

tSAPHanaInput SAP HANAからSQLによるデータ取得

tSAPHanaOutput SAP HANAへのデータ挿入/更新/削除/UPSERT、及びテーブルアクション

tSAPHanaRollback SAP HANAへのロールバック発行

tSAPHanaRow SAP HANAに様々なコマンド発行

5 tRiakBucketList Basho Riakクラスタ上のBucket名一覧の取得

tRiakClose Basho Riakクラスタへの接続終了

tRiakConnection Basho Riakクラスタへの接続開始

tRiakInput Basho Riakクラスタからのデータ取得

tRiakKeyList Basho Riakクラスタのキー値一覧取得

tRiakOutput Basho Riakクラスタへのデータ反映(UPSERT/DELETE)

6 tHiveCreateTable Hiveによるテーブル作成

tHiveLoad Hiveへのデータロード/挿入

7 tSqoopMerge Sqoop差分追加

8 tMongoDBBulkLoad MongoDBへのバルクロード。CSV, TSV, JSONファイルをサポート

9 tCassandraBulkExec SSTableからCassandraへのバルクロード

tCassandraOutputBulk バルクロード用SSTableスペースの生成とSSTableへのデータ出力

Page 17: Talend5.4~もう少し深く知る~(技術セッション)

17  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新規追加コンポーネント-3

# コンポーネント 機能サマリ 同梱製品

tCassandraOutputBulkExec SSTableへの出力からCassandraへの一気通貫でのバルクロード処理 Talend Enterprise Big Data, Talend Platform for Big Data, Talend Platform for Data Services with Big Data, Talend Platform for MDM with Big Data, Talend Platform for Enterprise Integration with Big Data

10 tAvroInput Avro形式ファイルの読込

tAvroOutput Avro形式ファイルの出力

tFileInputJSON JSON形式ファイルの読込

tFileOutputJSON JSON形式ファイルの出力

tHDFSInput HDFS上のファイル(テキスト/シーケンス)を読込

tHDFSOutput HDFS上のファイル(テキスト/シーケンス)を作成

tJavaMR Map Reduceコードの記述が可能

tLogRow Talendコンソールに結果データを表示

Map  Reduceジョブ生成時のコンポーネント

Page 18: Talend5.4~もう少し深く知る~(技術セッション)

18  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新機能-1

Ù  tMap  /  tXMLMapのマップエディタ内で項目名検索機能を追加  

Ù  大量の項目をもつデータの変換設定時に迅速に対象にリーチ

Page 19: Talend5.4~もう少し深く知る~(技術セッション)

19  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新機能-2

Ù  Studioワークスペース内でコンポーネント名称を入力することで自動配置  

Ù  必要なコンポーネントをパレットから検索するオペレーションは不要  

Page 20: Talend5.4~もう少し深く知る~(技術セッション)

20  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新機能-3

Ù  Hadoop用ドライバの追加・更新  •  Cloudera  CDH  4.3,  4.4,  4.3+(YARN)  •  MapR  2.1.3,  3.0.1  

Ù  Hadoopディストリビューションのサポート追加  •  Pivotal  HD  1.0.1  

Ù  In-­‐memory  DBサポート  •  SAP  HANA  

Ù  Hadoopクラスタ環境におけるKerberos認証をサポート  ➜  Hadoopクラスタ上のデータへのセキュアなアクセスを実装  

➜  tHDFSXXX、tHCatalogXXX、tHiveXXX、tPigXXX、tSqoopXXXで設定が可能  

Ù  Big  Dataジョブのサンプルプロジェクトを同梱  ➜  Apacheアクセスログ、SqoopによるMySQL以降、Hive  ELT処理等  

➜  Cassandra,  MongoDBジョブ等  

Big  Data

Page 21: Talend5.4~もう少し深く知る~(技術セッション)

21  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新機能-4 Ù  Map  Reduceジョブデザインワークスペースでインディケーターを表示  

•  実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示  

•  Map  Reduceジョブのチューニングがビジュアルに可能  

Big  Data

Page 22: Talend5.4~もう少し深く知る~(技術セッション)

22  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を開発する5.4の新機能-5

Ù  Sequence  file,  RC,  ORC,  Avro形式ファイルに対応  •  各々、tHiveCreateTable,  tHiveLoad,  tAvroXXX,  tJSONXXX,  tPigLoad,  tPigStoreResult,  

tHDFSXXXにて指定が可能  

Big  Data

Page 23: Talend5.4~もう少し深く知る~(技術セッション)

23  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を運用する5.4の新機能-1 Ù  Amazon  EC2をジョブ実行サーバーとして設定が可能  

•  EC2上へのJob  Serverインストールは必要  

•  オンプレミスのTACより、直接EC2インスタンスの起動・終了・停止等の制御が可能  

•  タスク終了時にEC2インスタンスの起動・終了・停止の設定が可能  (ご参考)hhp://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ec2-­‐instance-­‐lifecycle.html  

Page 24: Talend5.4~もう少し深く知る~(技術セッション)

24  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を運用する5.4の新機能-2 Ù  「Monitoring」にてタスクの運用監視状況をリアルタイムに監視  

Ù  「Execujon  History(TASK  EXECUTION  MONITORING)」で、実行履歴の詳細ウィンドウをポップアップ表示  •  ログ詳細情報へのより迅速なアクセス  

Page 25: Talend5.4~もう少し深く知る~(技術セッション)

25  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を運用する5.4の新機能-3 Ù  「TIMELINE」でグラフィカルにスケジュールタスクを表示  

Ù  表示タイムスケール等を1クリックで容易に切換え  

Page 26: Talend5.4~もう少し深く知る~(技術セッション)

26  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を運用する5.4の新機能-4 Ù  Job  Server設定時に実行環境時間での設定が可能  

Page 27: Talend5.4~もう少し深く知る~(技術セッション)

27  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を運用する5.4の新機能-5 Ù  タスクの起動トリガー設定時に「Job  Server時間」「TAC時間」「その他」を指定可能  Ù  タスクから直接「Execujon  History」に切り換えるボタンを追加(指定のタスクでフィ

ルタ済み)  

Page 28: Talend5.4~もう少し深く知る~(技術セッション)

28  ©  Talend  2014  

Talend 5.4でデータ統合・連携処理を運用する5.4の新機能-6 Ù  TAC用DBや共有リポジトリの定期バックアップをTAC(「設定」→「Backup」)で設定  

タスク、ダンプ先設定

バックアップ対象DB/SVN設定

タスク実行スケジュール設定  (CRONトリガと同一)

Page 29: Talend5.4~もう少し深く知る~(技術セッション)

29  ©  Talend  2014  

(ご参考)Talend製品のモジュール一覧

① ②

⑧ ⑨

⑩ ⑪

⑬ ⑭

Page 30: Talend5.4~もう少し深く知る~(技術セッション)

30  ©  Talend  2014  

ご清聴有難う御座いました

Talend株式会社

〒107-0062 東京都港区南青山 5-10-13 デコパージュ南青山4F オフィス:03-6427-6370 | [email protected] http://jp.talend.com | https://www.talend-bc.jp