現在、科学でもビジネスにおいても ビッグデータ をいかにうまく利用できるかが注目を集めており、データの重要性を疑う人は居ないでしょう。今では当たり前となった大規模データの重要性にいち早く気づき、その重要性を世間に広めた方がMicrosoftで技術フェローを務めていた故ジム・グレイ氏です。彼はこの大規模データの利用を科学における第4のパラダイムと呼んでいました。
科学におけるパラダイムの変化
パラダイムとは「ある時代に支配的な物の考え方・認識の枠組み(goo辞書)」ですが、グレイ氏は科学にはこれまでに4つのパラダイムが存在したと述べています。
1つ目のパラダイムは 実験科学 (experimental science)です。実験的事実こそが科学の基盤であり、実際に実験的に証明することが最も確実に科学の発展に寄与します。
2つ目のパラダイムは 理論科学 (theoretical science)です。これまでに惑星運動に関するケプラーの法則や、ニュートンの運動法則、マクスウェル方程式などに代表される様々な理論が確立されています。このような理論によって、無数に考えられる実験条件を実際に検証せずとも得られる結果を予想することが可能となりました。
3つ目のパラダイムは シミュレーション (simulation)です。理論モデルが徐々に複雑化していくにつれて、モデルから結果を予測することが困難になってきました。そこで理論を解析的に解くのではなく、コンピュータによる数値計算によって結果を得るシミュレーションが注目を集めてきました。
そして、4つ目のパラダイムが データ集約型科学 (data-intensive science)です。シミュレーションは大量のデータを生み出し、さらに測定機器の進化によって実験科学からも大量のデータが短時間で得られるようになってきました。このような背景の下に現代では大量のデータが各地で量産されており、これらのデータを一か所に集約することによって新たな知見を得るというアプローチが第4のパラダイムであるデータ集約型科学です。
データ集約型科学の現状と未来
ジム・グレイ氏が提唱したデータ集約型科学はまだ比較的新しいパラダイムであることから、乗り越えるべき課題は複数存在しますが、その進歩も目を見張るものがあります。その中心人物であったジム・グレイ氏は2007年に洋上で行方不明となり、そのまま帰らぬ人となりました。突然のジム・グレイ氏の死を悼み、追悼のためにMicrosoftの研究者が中心となってデータ集約型科学のエッセイ集「The Fourth Paradigm: Data-Intensive Scientific Discovery」が2009年に出版されました。2009年の出版と、進歩の早いこの分野ではやや古い本になってきたと思いますが、当時の(そして今も)最先端の研究に携わっている方々のエッセイが多数まとめられており、データ集約型科学の現状の把握と目指すべき将来の姿が分かりやすく描かれています。
この本では、大きく次の4つの章に分かれており、1つの章につき8個前後のエッセイが書かれています。
- 地球と環境
- 健康と福利
- 科学的基盤
- 学術コミュニケーション
この中では、全てのデータがオンライン上にあるというゴールを目指すためにどのようにデータを集積するべきかといった一般的な話から、各分野(特に地球・宇宙科学と生命科学)におけるデータの特徴、クラウドやマルチコアプロセスの活用、データの可視化、個人情報の扱い方などのデータポリシーなどなど非常に多岐にわたるトピックが語られています。
個人的には、集積したデータを効率的にまとめるためのオントロジーとセマンティック・ウェブの重要性が述べれていたことは非常に納得のいく話であり、現在の潮流とも合っていると感じました。
また単に大規模データを扱うと言っても、同じ様なデータの扱うサイズを大きくする スケールアップ と、異なる病気のデータをまとめて扱うなどの似てはいるが異なる形式のデータを扱う スケールアウト の2つの考え方が必要であることを本から学びました。さらに、大規模データから特定の事象に関するデータを取り出せるかという スケールイン という能力の重要性も強調されていました。多くのデータベースではデータの扱い方を一般化しすぎることによって特定の事象を見逃しがちになるそうです。
最後に
繰り返しになりますが「The Fourth Paradigm: Data-Intensive Scientific Discovery」はやや古い本ではありますが、非常に広範にわたる知識がまとめられています。そのため、読む人や読んだ時の興味によって気になる点は変わってくると思います。この本は洋書ではありますが、kindle版が100円と内容からは考えられない破格の値段となっていますので、目次から気になるエッセイだけでも一読されることをぜひお勧めします。