ビッグデータマガジン

「ビッグデータ」は大きくなり続けるの?~「データに語らせよう、新たな価値創造のために」シリーズ第一回~

time 2014/12/04

国際大学グローバル・コミュニケーション・センター
准教授/主任研究員 中西 崇文

■ビッグデータを利活用しないのは損?

ビッグデータという言葉を聞いて、やはりバズワードと考える方が多いです。ビッグデータにせよ、これまでのデータ、いわゆるスモールデータにせよ、データは利活用し、価値創生できることに越したことはないのです。

データを利活用しないリスクとは何でしょうか?IT関連のコストだけがかかってしまうという世界が待っています。クラウド化したとは言え、データが多くなればなるほど、ストレージのコストは高価になります。データを貯めておくだけですと、コストだけを生み、足を引っ張るだけなのです。私はこのようなデータを「死蔵データ」と呼んでいます。

さらに、データは今後、爆発的に増え続けるのです。なぜでしょうか。それは「センサーデバイスの発達、廉価化」、「デバイスの多様化と個人化」、「認識技術発達」です。

「ビッグデータ」時代以前のこれまでは、センサーデバイスも高価なものが多く、多数のセンサーデバイスを購入してセットしておくことは不可能でした。そのため、仮説を立て、モデリングをした結果から、そのモデリングに合った場所にセンサーデバイスを設置していたのです。

しかし、センサーデバイスが安くなったら、どうなるでしょうか?センサーデバイスが安くなったら、面倒な仮説やモデリングの工程を経ずに、適当な間隔にセンサーデバイスを設置して、全ての地点を観測することになるのではないでしょうか。細かく知りたければ知りたいほど、センサーデバイスの設置間隔を狭めて観測をするでしょう。

また、スマートフォンの普及により人間自身もセンシングの対象となりました。例えば、読者の方がスマートフォンでもってSNSに投稿した場合、その読者がいつどこでどのような状況でどういうことを感じたか(メッセージの内容)が、GPSセンサー、近接センサー、輝度センサー、加速度センサー、ジャイロスコープ、場合によっては、カメラ、音声、実際の手入力をセンサーデータとして取得することが可能になります。

さらに、多様なセンサーデバイスの認識技術も発達しています。実際、Apple.incの iPhoneには、”Siri”という対話機能がありますが、これこそ、音声認識技術の発達の賜物と言えます。これは主に機械学習(Machine Learning)という技術を用いています。

このように、たくさんの種類、量のデータがリアルタイムで取得できるような環境になってきました。これは、コンピュータが計算可能な仮想空間で、現実世界をより詳しく表現できるようになったということになります。そして、これは、コンピュータ上で現実の世界を客観的にわれわれにしめしてくれるチャンスなのです。現実の世界を客観的に知ることができれば、コストの元となっている事象を最適化することでコスト減を図ることも可能でしょう。これこそが、データ利活用の基本なのです。

 

■ビッグデータ利活用によって教えてくれるもの 「因果関係」でなく「相関関係」

そうはいうものの、「ビッグデータ」分析結果自身をむやみやたらと信じてはいけません。間違えた判断をすれば、思わぬリスクを背負ってしまうことになります。「ビッグデータ」の分析、利活用もあくまでもツールとして考えるべきなのです。「ビッグデータ」が教えてくれることについて、述べたいと思います。

「ビッグデータ」分析において、データから「相関関係」を導くことが可能になります。決して因果関係が明確になるということではありません。この点は非常に重要です。

例えば、「ビッグデータ」の利活用例の例として最近注目されているアプリを紹介しましょう。Sickweather (http://www.sickweather.com)というアプリがあります。Sickweatherは風邪やインフルエンザなどウイルス性の感染症で体調を崩している人が多い場所を特定し、利用者がそこに近づくとアラートを発するアプリがあります。

Sickweatherはソーシャルメディアのデータから、このような感染症に関わる言葉を見つけ、その流行しているエリアとの「相関関係」を見つけているのです。

ただし、ソーシャルメディアに発信をしたユーザが、必ずしも本当に感染者かどうかは特定できません。ただし、なにかしらかの相関があることはデータから確かなのです。

例えば、周りで感染症が流行ってきたので、慌ててソーシャルメディアにつぶやいた人がいるのかもしれません。そう考えていくと、ソーシャルメディアの書き込みと感染者の相関関係を活かすことは可能だと考えられます。

つまり、「ビッグデータ」の分析、および利活用的に向けては、ソーシャルメディアに発信をしたユーザが多い時期、地域では、予防を徹底したほうがいいというのが正しい選択と考えられます。

「ビッグデータ」の分析、利活用が教えてくれるものは、「理由」ではなく「答え」だという風に考えた方が分かりやすいかもしれません。

 

■どんなビッグデータがあるの?

ビッグデータが本当にあるのか、具体的なデータの種類を挙げていきましょう。

(1)  オープンデータ

名前の通り、開示されたデータを意味します。予算のデータ、社会経済的のデータ(政府系のデータを含む)、環境データ(土地、海洋、天候、天文学)、法令関連のデータ、スポーツデータなどがあります。

(2) ソーシャルネットワーク

ソーシャルネットワーク上では、日々雑多なデータがアップロードされています。ここでは、ソーシャルネットワーク上の公開されたデータ、パーソナルデータを含みます。

(3) Internet of Things (IoT)

もののインターネットとも呼ばれます。全てのものがインターネットに繋がっているという概念です。物理的なセンサーや環境に埋め込まれたセンサー、ホームオートメーションのためのセンサー、その他のセンサーデバイスを含みます。

(4)   パーソナルデータ

パーソナルデータというのは氏名、住所、電話番号だけではありません。ウエアラブルコンピュータや健康機具などの個人的な医療、予防医療データ、ライフログ、クラウドの中のバックアップのデータも含みます。

(5)   その他のUGC(User Generated Contents)

Consumer Generated Media(CGM)などとも呼ばれたりしますが、利用者自身が創り上げる作品コンテンツを指します。画像、音楽、音声、動画などがあります。

(6)  商取引データ

公開されたもの、非公開のものを含めた商取引のデータを指します。

「ビッグデータ」と一般的に呼ばれるものについて、ここに記載した6種類が主に上げられています。

2013年11月にアメリカ政府は、1日単位で天文学的な量のデータを管理するクラウドシステムとデータサイエンティストが必要だと呼びかけています。天文学的な量とは具体的にどれくらいの量なのでしょうか。

「テラ」「ペタ」「エクサ」「ゼタ」「ヨタ」・・・、現状どれくらいのデータが存在するのかを確かめてみましょう。現在、毎秒、20年前のインターネット全体のデータ量よりも多いデータ量がインターネット上を行き来しています。1990年代のインターネット全体のデータ量が2010年代の1秒間にインターネット上を行き来していると思うと驚きです。さらに2012年には1日に2.5EB(Exabyte,エグザバイト)の情報が作られたわけです。1EBとは100万TB(Terabyte, テラバイト)です。

現在、執筆時点では、1TBの外付けハードディスクが10,000円弱で販売されています。ハードディスクも安くなったものですが、それでも、インターネット上の1日のデータ量を外付けハードディスクで保持しようとするだけでも、100億円くらいの莫大な値段がかかる訳です。それだけでなく、現在40カ月ごとにデータ量が2倍に膨れ上がっております。

 

■大量のデータで新たなサービスの模索や最適化を

 

自動車の通行データのことをプローブデータと呼びますが、これらをリッチにして新たなサービスを模索する企業が現れました。

例えば、フォードは音声コマンド方式の車載コネクティングシステムを340万台以上の利用者に拡大すると発表しました。

これは、これから340万台の車を売るわけではなく、フォードは2007年に車載コネクティングシステムのプラットフォームであるSYNCの搭載をはじめて、2010年以降はSYNCを発展させたSYNC AppLinkを100万台以上の同社利用者に提供しており、現在ではSYNC AppLinkをダウンロードできる利用者が340万台以上いるということを意味しているのです。

データ量で考えると、440万台の車が1日に1MBのデータを生成すると仮定すると、1年間に1.6EB(Exabyte,エグザバイト)のデータが生成されるようになります。

また、SYNC AppLink対応の60種類以上のアプリがiOSとAndroidで提供されています。フォードは、スマートフォンアプリの仕様を公開する初めての自動車メーカーとなり、この戦いは続いていくと思われますが、SYNC AppLinkによるデータ抽出の準備はすでに万端と言えます。

これから公開されるアプリによって、どのようなサービスが展開されるのか楽しみなところです。

また、センサーをたくさん使い、最適化を実現した例を示しましょう。

ゼネラル・エレクトリック(GE)社では、1秒間に1,000個のデータを吐き出す100個のセンサーを持つガスタービンを開発しています。1個のガスタービンを精密に監視する事が可能な時代になったのと同時に、これらのデータを速く分析できれば異常検知の早期発見だけでなく、機械学習による予測も可能となるでしょう。データ量は莫大な量になりますが、これだけの監視を厳重にすることにより、コストが20%削減できるのです。

 

■多くのデータによって現実社会を最適化する

これだけの大量のデータを集めて何をするのでしょうか。それはこれまで記述してきたことを実施し、現実世界に価値を見いだすのです。つまり、データの「コネクションメリット」による価値生成です。散在したデータを繋げ合わせる、これが基本となるでしょう。例えば、スマートカーとホームオートメーション、および他の出どころから集められたデータを分析し、連携することで、潜在的に生活を豊かにする、具体的には、最適化をし、コスト削減やゆとり時間の確保、リスク管理、ヘルスケアに貢献するでしょう。

さらに、「ビッグデータ」分析を行い、これを現実世界で利活用することにより、これまで構築されてきたインフラや組織が変革され、コストダウンに繋がるでしょう。

データにもう一度問いかけてみませんか?

 


【執筆者情報】

中西 崇文 国際大学グローバル・コミュニケーション・センター 准教授中西 崇文

国際大学グローバル・コミュニケーション・センター 准教授/主任研究員 博士(工学)

1978年12月28日生まれ、三重県伊勢市出身。2006年3月、筑波大学大学院システム情報工学研究科にて博士(工学)の学位取得。独立行政法人 情報通信研究機構にてナレッジクラスタシステムの研究開発、大規模データ分析・可視化手法に関する研究開発等に従事し、2014年4月、現職に至る。
つまり、「ビッグデータ」という言葉が流行する前から、異種異分野大規模データ分析に関する研究を続けている。
専門は、データ分析システム、統合データベース、感性情報処理、メディアコンテンツ分析。近年は、ビッグデータ分析手法を通したデータ分析工学分野の創出、ソーシャルメディアコンテンツ伝搬モデルデザインに興味を持つ。知的財産管理に関する諸問題にも造詣を持つ。

著書として、「Perspectives on Social Media: A Yearbook」(Piet Kommers, Pedro Isaias, Tomayess Issa (編))のChapter 4「Toward Realizing Meta Social Media Contents Management System in Big Data」担当(共著)(Routledge刊、2014年8月発売予定)がある。

また、趣味は楽曲制作、ピアノ演奏。ララバイブラザーズのピアノララバイとして、「三枚目のダイアローグ」(GOK RECORD)など、これまで3枚のアルバムCDリリースがある。

Twitter: @piano_lullaby
Facebook: http://facebook.com/pianolullaby
Homepage: http://www.glocom.ac.jp

 

LINEで送る
Pocket

down

コメントする




CAPTCHA


06_統計

ビッグデータ活用 ご相談ください
はじめての機械学習
IoT 企画・活用講座

Google + ページ

ビッグデータ活用 ビッグデータマガジン

連携サイト

ビッグデータ活用 ビッグデータマガジン
 
ビッグデータ活用 ビッグデータマガジン

お問い合わせ

  • 記事に関するお問合せ、
    ビッグデータにまつわるお悩みやご相談等
    お気軽にお問い合わせください

    【お問合せフォームへ】
  •