メディア

おうちにやってくる人工知能～国家や大企業によるAI技術独占時代の終焉：Over the AI ―― AIの向こう側に（11）（7/9 ページ）

» 2017年05月31日 11時30分公開

[江端智一，EE Times Japan]

前のページへ 1|2|3|4|5|6|7|8|9 次のページへ

個人として使えるビッグデータとは？

　しかし、私たちが個人として使えるビッグデータが、全くないかと言えば、そうでもありません。例えば、次のようなビッグデータは、使い放題です。

　自分の電子メールのログというのは結構、侮れないのです。あれはビッグデータというよりは、自分専用のデータベースといってもよいです。

　例えば、1年前にやった（父の）確定申告の手続き方法、購入するのに身分証明書が必要な劇薬系除草剤の名前とか、そんなものを思い出すのに、とても便利です。仕事でお世話になった人の名前を思い出せない時には、仕事の内容で適当に検索すれば、その人の名前をすぐに見つけ出すことができます。

　自分のブログは、コラムを執筆する時のネタ元として、なくてはならないものですし、特にパソコンの設定方法や、試しに作ってみたプログラムなどが、どれほど後々に重宝するかは、言うまでもありません。

　また、ネットに転がっている、他の人のブログやTwitterのログがなければ「ダイエット」や「飛び込み自殺」の記事は書けなかっただろうと思います（参考記事一覧）。これらは、十分に「趣味の週末自宅データ分析」に欠かせない、私にとっての貴重なビッグデータです。

　しかし、個人的に言えば、これらのデータは、まだまだ「ビッグ」なデータとは言えません。私にとって、「ビッグデータ」とは ―― それを「ビッグデータ」と呼んでよいのかはさておき ―― 私が自作したシミュレーションプログラムが吐き出す、膨大な計算結果です。

　データの行数が億の単位を超えると、本当に「何がなんだか分からない」という状態になります。そんな膨大なデータを視認するのは、人智を超えた所業です（今、Windowsのコマンドプロンプトの画面（80行＝19cmで換算）で測ってみたら、1億行のデータは237kmになることが分かりました（東京～浜松間くらい）。これを100年分やると（以下省略）。

　米国大統領選挙のシミュレーションでは、14時間ほど要したのですが、その結果を見た後で、解析用のプログラムコードを追加するなどという作業をやっていたら、1日1回しかシミュレーターを回せないことになり、何のためにシミュレーションやっているのか、分からなくなります。

　このように、シミュレーションにおいても、『コンピュータの計算能力向上のおかげで、やれることがヤマほど増えて、そのためにできないことがヤマほど増える』という、典型的な負のループに陥るわけです。

自作シミュレーション結果を解析する手法