ビッグデータマガジン

ゼロから学ぶデータ統合~データクレンジング・データ統合の必要性とその進め方~

time 2015/10/16

ゼロから学ぶデータ統合~データクレンジング・データ統合の必要性とその進め方~

ビッグデータ/IoTによってデータ量が爆発的に増加しました。その結果、データがあってもその精度が問題となり、使えるデータにするまでの作業に多くの時間を費やす状況になるといった課題が具現化してきました。
そのような中、今回はデータ統合ソフトを開発されているインフォマティカ・ジャパン株式会社 久國淳さまとともに、データ統合について考えてみたいと思います。
インフォマティカさまは、ガートナー社のデータ統合ツールのマジック・クアドラント レポートにおいて 10 年連続でリーダーに位置付けられるデータ統合ツール分野のリーディングカンパニーです。

 

データ統合自体は従来からある考え方だと思いますが、最近の特徴等があれば教えてください。

 

最近はデータの発生する場所が多様化しています。従来はデータの発生場所は大半がシステムからでした。しかし最近では、ソーシャル、モバイル、マシンデバイス等々、あらゆるところでデータが発生し、データがうまれるところや使われるところが組織および技術的にも分散しています。
そして、最近の特徴としては、技術発展によって従来よりも安価にそして多くデータが蓄積できるようになりましたが、それらを管理する基盤の整備や管理する技術者が育成されるよりも先にデータだけが蓄積されている状態になっていると感じています。その結果、企業がコストをかけてデータを収集し、様々なシステムやデータストアに保存しているにも関わらず、実際に利活用も分析することもなく、アクセスさえしていないデータが発生します。

我々はこれらのデータのことを「ダークデータ」と呼んでいます。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

そのため、せっかく収集・蓄積されているデータが、どんどんダークデータ化しないようにしなければいけないと思っています。そして、弊社では、そのダークデータを資産に変えていくお手伝いをしたいと考えています。

 

ダークデータを資産にするために何を行ったらよいのでしょうか。

 

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

私たちインフォマティカでは5つのステップでデータを資産に変えていけると考えています。

 

1.Discover(発見):データ資産の所存を可視化する
2.Profile(把握):データの品質・傾向を把握する
3.Cleanse(品質改善):データの品質・価値を高める
4.Integrate(統合):データを統合する
5.Deliver(供給):データを供給する

 

1.Discover(発見):データ資産の所存を可視化する

まずは、「1.Discover(発見)」です。
これは、企業内のどこにどんなデータがどんな形で存在するかを把握するところから始まります。
また、これは、そのデータがどう移動しているかも含みます。つまり、包括的なデータ地図を把握する必要があります。
データが存在する場所としてさまざまなシステムやデータベースが考えられますが、それらにひとつひとつに対応したコネクタを用いてデータを抽出します。その上で、インフォマティカでは、どういうデータを持っているのかを階層型でデータカタログとして見える化します。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

ETLツールを使っていれば設定情報はあるため、どのシステムのデータなのかはわかるでしょう。しかし、当社のプラットフォームを用いてデータを横断的に可視化することで、そのデータがどこで発生して、どこでどう参照・更新されるかを俯瞰できるようになります。つまり、ある項目のデータは、どのタイミングでどう生成され、そのもとになるデータはどこから来て、そしてどういうロジックで作られたかといった上流をさかのぼっていくことができるのです。もちろんその逆も可能で、このデータはどこで使われているか等下流にくだって影響分析も行えます。
これらは、データガバナンス時代には必要な機能で、これによってレポートとして報告された内容はどのデータを使って算出したかを明確に説明できるようになります。

 

2.Profile(把握):データの品質・傾向を把握する
3.Cleanse(品質改善):データの品質・価値を高める

Step1でデータ自体を把握した次は、データの品質を把握し価値を高める必要があります。
なぜならば、せっかく収集したデータをBIツールなどで可視化しても、データ自体の品質が悪ければ、間違った示唆となるためです。
たとえば、カタカナや英数字、全角か半角か、「ヤ/ャ」、「ア/ァ」などといった大文字小文字の違い、カタカナとアルファベットの違い、株式会社の表記違い(株式会社/(株)/(株)/㈱)といった表記ゆれがあった状態で集計・分析していても、同一レコードとはみなされず、分析結果が実態とかい離してしまいます。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

 

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

また、以下のように管理メッシュが異なることで正しい意思決定を阻害する場合があり、クレンジングの重要さをおわかりいただけると思います。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

 

よって、正しい示唆のためにStep2では現在の品質を把握します。
どんな欠損値やブランクがあるのか、表記ゆれ等の把握だけではなく、複数テーブルの相関関係での分析など、データ精度や傾向といった品質をしっかり確認します。
その後、あるべきデータにすべくルールを定義し、それに沿ってクレンジングを行います。そして、整備されたデータをその後も定常的にモニタリングし、品質を分析するといったマネジメントサイクルを回し続けます。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

データ分析作業の約80%がデータクレンジングを含めたデータ準備であるとよく言われるのが、まさにここの作業です。
インフォマティカではこれらの作業を効率よく正確に行うためにさまざまな機能を提供しています。たとえば、プロファイリングでは、実際のデータを分析し、どうクレンジングすべきか、データの傾向を分析できます。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

IoT活用時においては、デバイスごとにデータの表記法が異なり、ますます効率の良いデータクレンジングが必要とされるため、このプロファイリング機能は非常に有効な機能になると考えています。
また、品質向上ともに、データをマスキングすることで機密データを保護するなど、データの信頼性を担保しています。
そして、ユーザーに対して、「このデータをこうクレンジングしたら良いかも?」「このデータセットも一緒にしたらどうですか?」といったレコメンデーションする推測エンジンも開発しています。

 

4.Integrate(統合):データを統合する
5.Deliver(供給):データを供給する

前プロセスでデータを準備した後は、データを統合して供給します。
さまざまなアプリケーションやデータベースに蓄積されているデータへの接続を、ひとつひとつ対応するのは大変です。インフォマティカでは、さまざまな接続コネクタを用意しており、ノンコーディングでバッチからリアルタイムまで要件に応じたデータ連携を実現しています。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

 

また、さまざまなパターンのデータ連携を実現しています。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

 

最近ではデータをもともとのシステムから移動させずに仮想化させる事例も増えています。

インフォマティカ・ジャパンさまインタビュー

<クリックにて拡大表示されます>

 

たとえば、国内某商社さまでは、データを仮想統合してリアルタイム販売分析を実現しています。

img

<クリックにて拡大表示されます>

仮想統合ではDWHを構築する必要がなく、短期間・低コストでリアルタイム販売分析を実現しました。

 

最後に読者のみなさんへメッセージをお願いします。

DSC00693

インフォマティカ・ジャパン株式会社
セールスコンサルティング部
ソリューションアーキテクト
久國淳さま

インフォマティカのインテリジェント データ プラットフォームは、単なるデータクレンジングツールではありません。
さまざまな機能がありますが、インフォマティカのインテリジェント データ プラットフォームは、仮想データエンジンを搭載することでデータ統合のためのマッピングを一度作成すれば、他のプラットフォームにも適用することが出来ます。そのため、はじめは一部分の機能から導入し、効果を検証しながら他の機能を追加することができますし、数ユーザーからはじめて、それを事業部や全社レベルにスケールアップすることも可能です。また、システムやデバイスを気にせず接続でき、クラウドとオンプレミスが混在した環境での活用もスムーズに行えます。

せっかく収集したデータも使えるデータにしておかなければ意味がありません。
しかし、データを資産に変えるために必要な準備作業および基盤の構築は、非常に煩雑です。

そのような中、私たちインフォマティカは、データにまつわるさまざまなソリューションを提供することで、データ分析に携わる方々に本来のデータ分析へ注力いただきたいと考えています。ダークデータに光をあてて、それらのデータを資産にしていただけるようお手伝いしていきます。

 

 

 


【執筆者情報】
土本 寛子(つちもと ひろこ)
ビッグデータマガジン副編集長

 

LINEで送る
Pocket


down

コメントする




CAPTCHA


06_統計

ビッグデータ活用 ご相談ください
はじめての機械学習
IoT 企画・活用講座

Google + ページ

ビッグデータ活用 ビッグデータマガジン

連携サイト

ビッグデータ活用 ビッグデータマガジン
 
ビッグデータ活用 ビッグデータマガジン

お問い合わせ

  • 記事に関するお問合せ、
    ビッグデータにまつわるお悩みやご相談等
    お気軽にお問い合わせください

    【お問合せフォームへ】
  •