ビッグデータマガジン

オープンソースでシェア拡大中のETLツール「Talend Open Studio」

time 2015/09/03

オープンソースでシェア拡大中のETLツール「Talend Open Studio」

今回のビッグデータマガジン・インタビューでは、オープンソースのETLツール[1]として世界的にシェアを伸ばしている「Talend Open Studio」(以下、TOS)を提供している、Talend株式会社の代表取締役社長 有延敬三さまにお話を伺いました。

ビッグデータ利活用には、データを「集める」「貯める」「整える」「分析する」といった工程が必要になりますが、中でも「整える」工程-いわゆるデータクレンジング[2]-は、データサイエンティストのタスクの50~80%を占めると言われています(The New York Times , Aug.18,2014)。

そのような重要な工程のツールとして、なぜTalendが選ばれているのか、その秘密を有延さまからお伺いします。

 

―――Talendの基本的な機能について教えてください。

 

ETLツール「Talend Open Studio」インタビュー

Talend株式会社 代表取締役社長 有延敬三氏

Talendは、商用版およびオープンソース版でも利用可能なETLツールです。データをTalend内で変換、統合することができ、データ分析前の、データ同士を“つなぐ”部分を担うことができます。また、各社のデータベース(DB)やアプリケーション等800以上とネイティブに接続可能ですので、余計な手間をかけずに、多くのデータを扱うことができます。

弊社はETLツールベンダーとしては後発ですが、海外、特にヨーロッパではすでに広く普及しています。日本国内でも、現在(2015年6月)までのオープンソース版TOSのダウンロード総数は約40,000名分、6月だけでも約3,000名の方にダウンロードいただいています。

 

 

―――直近でも多くの方が使い始めているのですね。Talendにはどんな特徴があるのでしょうか。

 

Talendの特徴は主に3つあります。

1つ目は、オープンソースであるという点です。オープンソースの利点は、ユーザが独自に追加機能を開発することができ、結果としてツールがユーザの手で成長していくところですね。先ほど、各社のDBやアプリケーションとのコネクタが800以上あると言いましたが、それ以外にユーザが独自開発したコネクタが2,000ほどあります。それらはTalend のコミュニティ上でどなたでも入手可能ですので、接続できないDB、アプリケーションはほぼありませんし、ソースコードを公開していますので、もし無ければご自身で作ることができます。

2つ目は、ビジネスモデルです。Talendは開発ユーザ数で課金するモデルをとっています。従来のITツールは、CPUコア数、サーバー数、接続アプリケーション数等で課金するモデルが一般的でしたが、このような課金モデルは将来にわたっての投資額が読みにくく、ユーザに不親切だと感じていました。
Talendは、そのようなサーバー課金モデルへのアンチテーゼとして、ユーザ課金モデルを採用しています。データ量やシステムが急激に増加しても予測可能な原価基準が設定できますので、結果的に投資額を安く抑えられます。

3つ目は、Talendの機能です。まず、TalendはJavaコードを生成し起動しているため、データクレンジングの過程、結果もJavaコードとして確認することができます。TalendはJavaの生成装置という側面もあるのです。
これはどういうことかと言いますと、ユーザはTalendに依存しないで済むということです。つまり、Javaという汎用性の高い言語がそのまま使用可能なことによって、ベンダーロックインに陥らず、Talendという一つのツールに縛られないフレキシブルな運用が可能になるのです。この点は、ベンダーロックインを嫌う海外では特に好まれています。

さらに、Talendはユーザとの交流が活発なため、常にユーザの意見を取り入れ、ユーザ視点で先端技術を取り込んだ製品をアップデートすることができる点も大きな特徴です。実際に、Talendは他社ツールに比べて、いち早くApache Sparkに対応することができました。

 

―――なるほど、オープンソースだからこそ、常に機能が進化していっているのですね。多くの企業様に利用されているかと思いますが、特にどのような企業様で活用されているのでしょうか?

 

海外に支社を持っているようなグローバル企業、またはHadoopによるビッグデータの検証をする企業様が多いですね。グローバル企業は、各国の支社にあるデータを統合するのにTalendが有効である点が支持されている理由です。

また、ネイティブの最適化されたコード生成によってHadoopディストリビューションの大規模な並列化環境を活用できるのはTalendだけですので、Hadoopとの相性は良いですよ。

 

―――特徴的な事例がございましたら、教えてください。

 

最近のデータ利活用では、データの取り込みと結果の生成を仕組にしてアプリケーションに落とし込み、運用を自動化するケースが多くなっています。例えば、ダイナミックプライシング[3]の分野では、米国ウォルマート様の事例があります。ウォルマートのスーパーでは、同じ商品でも地区ごとに値段が異なっています。商品の値段は、各地区の気温、降水量、1世帯あたりの平均収入、イベントの有無など様々なデータの統合、分析から算出されているのですが、そのデータ処理にはTalendが使用されています。

 

―――今後の展望や、有延様がイメージするTalendの活用シーンがありましたら、お聞かせください。

 

ビッグデータ分析では、内部(社内)データと外部(オープン)データを掛け合わせることが重要です。その掛け合わせにより、データの実態を浮き彫りにすることができます。BIツールは現在では広く認識されるようになってきましたが、ETLツールも今後のビッグデータ分析では不可欠になりますので、確実に広まっていくでしょう。

Talendは、お陰様で既に多くのユーザの方々にご活用いただいておりますので、私としては、システム会社に最低1人はTalendマスターがいるようになってほしいと思いますね。

活用シーンとしては、これからは製造業を中心としたIndustory4.0や、GEが提唱しているインダストリアル・インターネットが盛り上がってきますので、ぜひ日本の現場のデータ活用で使ってもらいたいと思います。

 

―――最後に、読者にメッセージをお願いします。

 

「Talend Open Studio」インタビューもしETLツールの必要性を感じていらっしゃる方がいましたら、まずは一度Talend商用版かTOSをダウンロードして触ってみて欲しいと思います。TOSはオープンソースであるため、そういった気軽なアプローチが可能ですし、web上のTalendコミュニティ等を活用すれば、多くのことが実現できると実感してもらえると思います。また、弊社では無料のハンズオントレーニングも実施していますので、そちらにもぜひお気軽にご参加ください。

 

<Talend Open Studio 無料ハンズオントレーニング>

9月16日(水) 14:00-17:00 東京開催 (株)エアー(東京) 5F会議室
9月17日(木) 14:00-17:00 大阪開催 (株)エアー(大阪) 1F会議室
10月21日(水)14;00-17:00 東京開催 Talend(株)トレーニングルーム
10月22日(木)14:00-17:00 大阪開催 (株)エアー(大阪) 1F会議室

詳細、お申し込み

http://jp.talend.com/about-us/news-events


 

[1] Extract/Transform/Load(データの抽出、変換、ロード)を行うツール(wikipedia)

[2] データベースに保存されているデータの中から、重複や誤記、漏れなどを探し出し、削除や修正、正規化などを行い、データの品質を高めること(IT用語辞典)

[3] 需給状況に応じて価格を変動させることによって需要の調整を図る手法。需要が集中する季節・時間帯は価格を割高にして需要を抑制し、需要が減少する季節・時間帯は割安にして需要を喚起する。(コトバンク)

    

down

コメントする




CAPTCHA


01_解説

06_統計

ビッグデータ活用 ご相談ください
はじめての機械学習
IoT 企画・活用講座

副編集長のぼやき

Google + ページ

ビッグデータ活用 ビッグデータマガジン

連携サイト

ビッグデータ活用 ビッグデータマガジン
 
ビッグデータ活用 ビッグデータマガジン

お問い合わせ

  • 記事に関するお問合せ、
    ビッグデータにまつわるお悩みやご相談等
    お気軽にお問い合わせください

    【お問合せフォームへ】
  •