未来を占う人工知能 〜人類が生み出した至宝の測定ツール:Over the AI ―― AIの向こう側に(19)(3/11 ページ)
今回は、統計処理技術についてお話します。え? 統計? それってAIなの?――そう思われた読者の方、確かにAI技術とは言えません。ですが、統計処理技術はAIの根底を成すものであり、これを知らないままでは、「英単語を知らずに英語を話そうとする」ようなものなのです。
コンピュータ登場前から存在する統計処理技術
こんにちは、江端智一です。今回は、前半で「統計処理」と「確率論」について、後半ではマルチエージェントで使われている「行動経済学」についてお話したいと思います。
AI技術としての確率論については、以前、「時をかける人工知能 〜 たった1つの数値で結果から原因に遡る」でお話しましたので、本日は主に、標準偏差、正規分布、回帰分析、無作為抽出などの観点から論じたいと思います。
「統計処理技術が"AI技術”なのかどうか」については、『江端AIドクトリン』を出すまでもなく、明らかにAI技術ではない、と断定できます。何しろ統計処理技術は、コンピュータが誕生する前から存在していました。
そして、統計処理技術は、現在のAI技術が束になってかかっても、到底敵わないほど強力で有効な武器であり、さらには、現在のAI技術にとって、統計処理技術なしでは、何一つできない、と断言しても過言ではありません。
特に、標準偏差や正規分布の知識なくして、AI技術の理解は不可能です(英単語の意味を知らずに、英文を読むようなもの)。なので、今回は、全てのAI技術に必要となる統計処理技術の中でも、特に技術と正規分布に特化してお話したいと思います。
この世で最も信用できる「占い」
「統計処理とは何か?」 ―― と問われれば、私は、
―― この世界で最も信用できる「占い」
と答えます。
しかも、当たるか当たらないかの確率を、厳密な数値で導き出し、しかも、その論理的な根拠までも説明可能という、「人類至上最強の占い」といっても良いものです。
私は、統計学の書籍は「占いのコーナー」に置かれるべきだと思うし、逆に、「占いの本」を執筆する人は、その本が「統計学のコーナー」に置かれても遜色のないレベルにまで、その占いのアルゴリズムとデータをビッシリと書き込むべきだと思っています。
ちなみに、「占い」についての批判は、「へつらう人工知能 〜巧みな質問を繰り返して心の中をのぞき見る」に、そして、「占い師」についての批判は、同記事のこちらのページに山ほど記載してありますので、ご一読ください。
統計処理の本来の目的は、たくさんの数からなる集団の傾向を見える化することですが、実は、それにとどまらず、高精度な未来予測を可能とする最強メソッドなのです。
正規分布を知ろう
まず、この統計処理技術の基本中の基本である、正規分布についてお話します。
私たちの世界においては、平均値を算出できる対象であれば、その対象の出現する確率は、私たちが望もうが望むまいが、例外なく必ず以下のような形になり、これに逆らうことができません。
正規分布とは、テストで平均点近くの人の人数が一番多くなり、点数が平均点から離れる程に人数が減っていく様な確率分布関数のことです。テスト以外でも、身長や体重などでも、必ずこの分布になります。
標準偏差とは、「○○大学に入学するには、57.5以上の値が必要」といわれる、"57.5"のことではありません。それは、受験用に作られた「偏差値」です。標準偏差は上の図の"σ"(「シグマ」といいます)の値のことです。
では、その"σ"とは何かというと、平均値から各受験者のテストの点を引き算したものを二乗して、その全てを足したものをテストの人数で割ったものの平方根の値である ―― という説明は、もうやめます。私、もう、この説明をするのに疲れました。
テストの受験者が100人いたときに、テストの平均値から平均値の±σ値までの間に68人が入り、±2σ値までの間に95人が入り、±3σ値までの間に、ほぼ100人全員が入る ―― そういう"α"の値が標準偏差である、という理解で十分です(実際にこれで十分なのです)。
ですから、テストの点の評価も、σを使った値(これを標準化得点、またはz点といいます)を使えば足りるのですが、これがどうにも扱いにくいのです。何しろ、平均点を取れば"0"になりますし、平均点以下ではマイナス値になってしまいますから。
現在、模擬試験などで使われている偏差値というのは、標準化得点(z点)を、テストの得点の近いような数字で表現されるように変換をしているだけのものです。
(標準化得点(z点))×10 + 50と強制的に変換して、平均点なら偏差値を50.0に、σなら60.0、-σなら40.0となるようにしているだけです。たったこれだけのことですが、変換後の点数はとても見やすくなります(例えば、「君の今回の50点のテストは、z点で"マイナス0.87σ(シグマ)"だねぇ」と「君の今回の50点のテストは、偏差値で"41.3"だねぇ」は同じ意味です)。
Copyright © ITmedia, Inc. All Rights Reserved.