さて、ここからは、本題の「趣味の週末自宅データ分析」に立ち戻り、検証を続けていきたいと思います。
前述の数千万行のデータの解析をやっていた時、私は世間が「ビッグデータ」とやかましく騒いでいる一方で、「ビッグデータ」が世の中のどこにもないことに気がついていました。
企業が業務データをオープンデータとして公開するわけがないのは、当たり前としても、当時「ビッグデータ」を推進していた政府自身が、データを公開していないのです。
私は当時、「GPS電波の偏差状況を計測することで、地震の予知が可能となるかもしれない」という論文を読んで、GPSを管轄している行政庁のWebサイトにアクセスして、自宅に、GPS電波状況の生データをリアルタイムで取得して、解析するシステムを作ろうと考えていました。
しかし、そのデータを入手するのに、面倒な手続が必要になる上に、もらえるデータが「3カ月前のデータ」。揚げ句「CD-ROMで配送、手数料あり」と記載されているのを見て ―― キレました。そんな、3カ月もの間、冷蔵庫の外に放置しつづけた生肉……もとい、生データに、何の価値があるのか、と憤慨していました。
で、今回、あらためて調べてみたのですが、やっぱり、生のデータを公開しているような行政機関は見つけられませんでした。
もっとも上記のe-Statなどは、コラム執筆に際してさんざんお世話になってきましたし、鉄道人身事故のデータを開示してくれた国土交通省さんにも感謝しています。ですが、それでも「生データが欲しい」という気持ちに変わりはありません。
例えば、『国勢調査の全データを、生データで開示してくれたら』 ―― と思うことは、度々あります。生データさえあれば、私の考える珍奇な仮説(例えば、25歳以内で2回離婚した男性はその後、何度も結婚を繰り返す、など)を読み取れる(かもしれない?)からです。生のビッグデータを使って、私の独自の観点の仮説検証をしてみたいという誘惑は大きいのです。
もっとも、国勢調査の全データが、生データで全公開されたら、仮に名前が伏せられていたとしても、本人にたどりつくのはそれほど難しくないので、プライバシーの問題から、許可されないのも当然だとは思うのですが。
Copyright © ITmedia, Inc. All Rights Reserved.