Show Your Hand!!

本、映画、音楽の感想/レビューなど。

『ビッグデータの正体 情報の産業革命が世界のすべてを変える』/ビクター・マイヤー=ショーンベルガー、ケネス・クキエ(その1)

ビッグデータの正体 情報の産業革命が世界のすべてを変える

ビッグデータの正体 情報の産業革命が世界のすべてを変える

タイトル通り、「ビッグデータ」とはいったいいかなるもので、それがこの世界に引き起こす影響とはどのようなものであるのか、について書かれた一冊。「そもそもビッグデータとは何なのか」、「ビッグデータの時代におけるデータの価値と、それを利用したビジネスのモデルについて」、「ビッグデータ社会におけるリスクと、求められる新しいルールについて」といった内容がまとめられている。ビッグデータを活用した商業的なアイデアや実例がたくさん挙げられているところ、ビッグデータ社会のリスクについて多くのページが割かれているところが特徴的だろうか。何回かに分けて、簡単にノートを取っておこうとおもう。

 *

まずは、「そもそもビッグデータとは何なのか」ということについて。

現在のところ、「ビッグデータ」という用語に厳密な定義はなされていないという。が、まあ、一般的な解釈としては、「IT技術の発展とインターネットの普及によって生み出された、従来型のデータベースでは処理し切れないような巨大で複雑、多種多様で非定型、更新頻度の早いデータの集合及びそれを扱うシステムのこと」、といったところになるはずだ。ただ、近年の情報爆発によるデータの蓄積は、もはや単なる量的な変化に留まらず、質的な変化をも引き起こしつつある、と著者は語っている。この、質的な変化というのが、本書における「ビッグデータ」というコンセプトを理解するための鍵だと言っていいだろう。

現時点でビッグデータの捉え方(と同時に、本書の方針)は、次のようにまとめることができる。「小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の創出によって、市場、組織、さらには市民と政府の関係などを変えること」。(p.18)

ビッグデータは、従来のデータ処理(スモールデータ)の大規模版というだけのものではない。圧倒的に大きな規模のデータの管理と分析が可能になったことで、いままで見過ごされてきたデータやその組み合わせから、従来ではかんがえられなかったような価値を生み出すことができるようになっている、ということだ。

 **

そんなビッグデータの扱いにおいては、大きく3つの鉄則がある、という。

ひとつは、「あるテーマに関して、一部のデータや統計的なサンプルで済まさず、できる限りすべてのデータを分析する」こと。ありとあらゆるものがデータ化されるようになり、そして、大量のデータの保存や処理にかかるコストがじゅうぶんに低下したビッグデータの時代には、いわゆる標本抽出ではなく、とにかく手に入るすべてのデータを対象として分析を行うべきだ、ということだ。

ふたつめは、「正確さに拘泥せず、現実の乱雑なデータをそのまま受け入れる」こと。現象の全体を包括するようなデータが手元にあるのであれば、その数字からは「精度」ではなく、全体的な「傾向」や「確率」を読み取るようなアプローチを取るべきであって、個々の測定値の正確さにこだわり過ぎる必要はない、という意味だ。

そしてみっつめは、「予測にあたっては、因果関係を追求するのではなく、相関関係を積極的に信頼する」こと。スモールデータの時代には、まず、現象の仕組みについて専門家が仮説を立て→その上でデータを収集して→仮説が正しいか分析する、という流れで検証を行っていたけれど、ビッグデータの時代においては、まず、大量に集められたデータのなかから相関関係を見出し、そこを起点に理解を深めていけばよい、ということだ。「結論」がわかりさえすれば、その「理由」がわからなくても問題ないケースっていうのは、結構あるはずだよね、というわけだ。

この、因果関係の時代から相関関係の時代へ、という話は本書のメインテーマのひとつであり、説明のために多くの例が挙げられている。たとえば、中古車ディーラーから提供されたデータをもとに、相関分析のアルゴリズムによって問題のありそうな車を抽出してみたところ、「オレンジ色に塗装されたクルマは欠陥が大幅に少ない」ことがわかった、という話。「オレンジ色の塗装」と「中古車の状態の良さ」のあいだにあるかもしれない因果関係、いかにもそれらしい理屈というやつを見つけるのはなかなか困難だけれど、こういった場合には、因果関係を気にせず、明らかになった相関関係だけに注目した方が有意義な結果を残すことができるのではないか、というのが著者の主張だということになる。

 ***

本書の裏表紙には、「DATA IS NEW OIL.」と記されている。情報の大量供給・大量消費によってもたらされるビッグデータ時代とそれによって創出される新たな価値は、石油のようにパラダイムシフトを引き起こし、ビジネス面のみならず、人間の生活や思考にまでも影響を与えてくることになる――たとえば上記のように、物事の決定に際して因果関係というものの重要性が低下する、とか――ということなのだろう。では、そのようなビッグデータの時代においては、どのようなリスクが発生し、私たちはどのようにそれに対処すべきなのか?次回はその辺りについてノートを取ってみようかとおもう。