しかし、私たちが個人として使えるビッグデータが、全くないかと言えば、そうでもありません。例えば、次のようなビッグデータは、使い放題です。
自分の電子メールのログというのは結構、侮れないのです。あれはビッグデータというよりは、自分専用のデータベースといってもよいです。
例えば、1年前にやった(父の)確定申告の手続き方法、購入するのに身分証明書が必要な劇薬系除草剤の名前とか、そんなものを思い出すのに、とても便利です。仕事でお世話になった人の名前を思い出せない時には、仕事の内容で適当に検索すれば、その人の名前をすぐに見つけ出すことができます。
自分のブログは、コラムを執筆する時のネタ元として、なくてはならないものですし、特にパソコンの設定方法や、試しに作ってみたプログラムなどが、どれほど後々に重宝するかは、言うまでもありません。
また、ネットに転がっている、他の人のブログやTwitterのログがなければ「ダイエット」や「飛び込み自殺」の記事は書けなかっただろうと思います(参考記事一覧)。これらは、十分に「趣味の週末自宅データ分析」に欠かせない、私にとっての貴重なビッグデータです。
しかし、個人的に言えば、これらのデータは、まだまだ「ビッグ」なデータとは言えません。私にとって、「ビッグデータ」とは ―― それを「ビッグデータ」と呼んでよいのかはさておき ―― 私が自作したシミュレーションプログラムが吐き出す、膨大な計算結果です。
データの行数が億の単位を超えると、本当に「何がなんだか分からない」という状態になります。そんな膨大なデータを視認するのは、人智を超えた所業です(今、Windowsのコマンドプロンプトの画面(80行=19cmで換算)で測ってみたら、1億行のデータは237kmになることが分かりました(東京〜浜松間くらい)。これを100年分やると(以下省略)。
米国大統領選挙のシミュレーションでは、14時間ほど要したのですが、その結果を見た後で、解析用のプログラムコードを追加するなどという作業をやっていたら、1日1回しかシミュレーターを回せないことになり、何のためにシミュレーションやっているのか、分からなくなります。
このように、シミュレーションにおいても、『コンピュータの計算能力向上のおかげで、やれることがヤマほど増えて、そのためにできないことがヤマほど増える』という、典型的な負のループに陥るわけです。
Copyright © ITmedia, Inc. All Rights Reserved.