ビッグデータマガジン

日本の統計数理研究の中心的研究機関  統計数理研究所さまインタビュー

time 2014/09/11

日本の統計数理研究の中心的研究機関  統計数理研究所さまインタビュー

ビッグデータ業界のキーパーソンにお話をうかがう「ビッグデータマガジン・インタビュー」。
統計・確率の理論やその応用に関する研究を行う研究機関であり、統計科学、数理工学、機械学習、データマイニングといった「データ中心科学」の研究者が多数集結している日本で唯一の研究拠点、統計数理研究所。

その統計数理研究所で、統計科学技術センター長を務める中野教授から、ビッグデータ活用と今後の課題を伺いました。

■まずは自己紹介をお願いします。

ビッグデータマガジン インタビュー 統計数理研究所

統計数理研究所 統計科学技術センター
 センター長 中野 純司 教授

1955年7月生まれです。大学では計数工学を専攻していましたが、当時は計算機より数学の方が好きでした。大学には大型計算機があったのですが、当時はそれを使うために順番待ちが起きていまして・・・並ぶのがいやで理論を確認するための最低限のシミュレーションにしか使いませんでした。

修士課程を終えてからは、地元の徳島大学で助手を務めました。その際、IBMのDOSをはじめて購入し、少しでもお金を節約するために自作でPCを作っていました。それで計算機がとても好きになりました。その後、埼玉大学大学院政策科学研究科(現在の政策研究大学大学院)を経て、一橋大学経済学部助教授となりました。

それから、もっと計算機統計を探求したいという思いがあり、統計数理研究所に移りました。現在は、統計科学技術センター長として、スーパーコンピュータ(以下、スパコン)を使った共同研究等を行っています。

 

統計解析システム「R」との関わりでいいますと、私がRの前進である「S」に初めて出会ったのが、1987年9月に開かれた国際統計協会(ISI)総会の時でした。ちょうどそのころ、勤務先の徳島大学でApolloワークステーション(Apollo Computer社の、科学技術計算などに特化した業務用の高性能コンピュータ)を買っても良いということになり、契約書を全て日本語に翻訳して事務と交渉し、入手しました。Apolloワークステーション上でSが動いたときは感動しました。

その後、2002年にニュージーランドのオークランド大学統計学科を訪れる機会があり、そこでRの作成メンバーのRoss Ihaka氏、そして彼の元学生でRのグラフィックスライブラリGridの作者であるPaul Murrell氏と話をする機会がありました。そこから、私もRを使い始め、2005年からはほぼ毎年、Rの研究集会を11月末から12月初め頃に日本で開催しています。当時、私も自分たちで統計ソフトウェアを開発していたのですが、ソフトは作れても英語のドキュメント作成がうまくいかず、普及はなかなか進みませんでした。一方でRが急速にユーザーを獲得していたこともあり、現在では総合的なシステムはRに任せています。

 

■統計数理研究所が行っているビッグデータの普及活動について教えてください。

統計思考力を備えた人材のためのより良い教育・研鑽の場として、2011年に統計思考院を設立しました。新しい統計学の創成を目指す研究者や学生、固有分野の研究で統計学の必要性を感じた人など、さまざまな人が集い切磋琢磨しながら「統計思考」の訓練や研究をする、いわば「道場」の気風を持つ場となることを目指しています。外部向けにも、公開講演会、公開講座、大学院学生の指導や集中講義等のプログラムを提供しています。公開講座は毎回人気があり、最近では満員になることが多いです。

 

道場さながらの統計思考院入口(画像は統計思考院のホームページより引用)

道場さながらの統計思考院入口(画像は統計思考院のホームページより引用)

 

また、データ解析・統計分析に関わる問題でお悩みの方々のために「共同研究スタートアップ」プログラムがあります。このプログラムは、企業、公的機関、個人などから持ち込まれた課題とデータを、共同で分析・研究していくものです。(※具体事例は次項にて解説)

総合研究大学院大学にて、日本では珍しい統計科学専攻も開設しています。入学者数は、5年博士課程で年1,2人、後期3年博士課程で年4,5人ほどです。学生の半分くらいは、社会人でPh.D取得を目指している方々です。

 

■外部と連携した共同研究の事例について教えてください。

共同研究スタートアップにて、いくつか成功事例があります。

大成功だったといって良い事例が、大手通信社と共同で行ったプロ野球のマジックナンバーの計算に関する研究です。マジックナンバーの計算は結構複雑になっていまして、以前はマジックナンバーが誤って報道されてしまったこともありました。

そこで、最小の勝ち数を正確に与える新しい指標を定めるために、共同研究を行うこととなりました。成果として、クライマックスシリーズ(CS)進出までの必要な勝利数を表すCSクリンチナンバーという新しい指標を定め、2010年シーズンから配信しています。

他には、外国語学習を専門に研究されている大学教員から統計解析の相談を受け、共同研究に発展した例もあります。「封筒の中にある50個の英単語をあなたが考える意味のまとまりにグループ分けしてください。」という指示を、ネイティブスピーカーと日本人の各グループ30人に与えた実験結果のデータをもとに、グループ間の心内辞書の違いを解析することが相談者の方の目的でした。この例では、従来よく使用されていたデンドログラムという分類モデルではなく、並べ替え検定という手法を用いて分析しました。
その成果として、外国語学習法の改良に繋がる興味深い結果が得られただけでなく、デンドログラムの構成方法によっては並べ替え検定の一致性が保証されないという統計学的な研究結果も得られ、これらの結果は共著論文や国内外の学会で発表されています。

このほかにも、当研究所のホームページには多数の研究事例が紹介されていますので、ぜひご覧ください。(http://www.ism.ac.jp/

 

■統計数理研究所では、BI(Business Intelligence)ツールとして「Spotfire」を導入されているとのことですが、使用してみての印象を教えてください。

ビジュアライゼーション機能が非常に優れていると思います。Spotfireは、データと人間がお互いに影響を与え合うインタラクティブなツールとして、静的なビジュアライゼーションが得意なRを補完するものとしても良いと思います。数百万件のデータでも問題なく処理できています。直観的に使いやすいので、特に初期データ解析に良いのではないでしょうか。

 

■ビッグデータを活用する人材に関して、どのような課題・対策があるとお考えですか。

「統計リテラシー不足」が一番の課題だと思います。その原因として、まず日本では、統計というものがあまり一般的ではありません。専門家の数も少なく、また学校教育での学習機会もほとんどないのが現状です。また、日本人の特徴として、数字より感性に重きを置く国民性があります。例えば、昔の野球界での長嶋監督の“カンピュータ”と野村監督の“コンピュータ”のエピソードは有名ですが、日本人には“カンピュータ”の方が人気でしたね。

また、そもそも統計というものが正しく理解されているとは言い難い状況です。日本では統計は数学の一部として扱われていますが、統計と数学は別物です。統計はデータの科学であり、今の情報から将来を予測するのが大きな役割です。当然、不確定性が残ります。数学のように、一つの答えが決まっており、それに向けて手法を駆使していく学問ではないのです。とはいえ、数学は非常な有効なツールとして活用されていますが。計算機はもう一つの有効なツールですね。

統計リテラシー不足を改善していくためには、小中高からしっかりと学習機会を作っていくのが良いと考えています。最近は統計研究者が、学校カリキュラムの改訂に向け働きかけています。社会人の方については、統計を学ぶ目的がはっきりしていると思いますので、活用イメージと紐づけて学習していけば、リテラシーを身につけるのは早くなるでしょう。数式のマニピュレーション(操作)は考えられているほど重要ではありませんので、不確実な現象を推測・予測するという統計の本質を意識することが大切です。

 

■最後に、ビッグデータマガジンの読者の皆さまに、メッセージをいただけますか。

グローバル化が進んでいる現在では、以心伝心や阿吽の呼吸というものが通用しなくなっています。世界では、数字で主張することが当たり前ですので、今後は様々な場面で、ビッグデータの活用が不可欠になってくるでしょう。

以前はデータの量が少なく、十分に説明できなかったことでも、現在のビッグデータなら対応できます。ビッグデータを活用すれば、かなり正確に「人間社会」を説明できる状況になっています。それを使わないのは、まさに“自殺行為”や“博打”と同じといっても過言ではありません。もちろん、データとプライバシーの問題など、まだクリアすべき課題は残っていますが、読者の皆さんには、ぜひ積極的にビッグデータの利活用に取り組んでほしいと思います。

ビッグデータマガジン インタビュー 統計数理研究所

統計数理研究所・中野教授(左)、 ビッグデータマガジン廣野【右)

【インタビュー終了後】

インタビュー終了後、中野さまのご厚意により、統計数理研究所内のスパコンを見せていただけるという、貴重な機会をいただきました。

統計数理研究所のスパコンは3台あり、統計研究に特化したものとしては世界一の性能を誇っているということです。

以前はスパコン1台1台が大きかったので、地下にある広めの冷却ルームいっぱいに並んでいたようですが、現在では省スペースが進んでいるため、空いている空間が目立ちました。

今年度導入したばかりのスパコンはまだフル稼働していませんでしたが、すぐに順番待ちの状態になるはずだそうです。

img003 img004

スパコンのほかにも、地下の収蔵スペースには、過去に利用されてきたコンピュータの遺産たちが展示されていました。こうした統計研究におけるコンピュータの歴史の保管も、統計数理研究所が担う重要な役割なのでしょう。

img005

 

 

LINEで送る
Pocket


down

コメントする




CAPTCHA


01_解説

06_統計

ビッグデータ活用 ご相談ください
はじめての機械学習
IoT 企画・活用講座

Google + ページ

ビッグデータ活用 ビッグデータマガジン

連携サイト

ビッグデータ活用 ビッグデータマガジン
 
ビッグデータ活用 ビッグデータマガジン

お問い合わせ

  • 記事に関するお問合せ、
    ビッグデータにまつわるお悩みやご相談等
    お気軽にお問い合わせください

    【お問合せフォームへ】
  •