プレスの記者が、聞きかじった話だけで分かったような気になり、「うそ」をまき散らしていることについては、私は、遠慮なく批判します。「お前たちの勉強不足が、深層学習についてのデタラメを世界にまき散らしている」と私は、声高に叫びます*)。
*)昔、私は、「日本の経済」のとある分野についての新聞を出版している会社の記者にインタビューを受けたことがあるのですが、やつら、終始、態度がタカビーで、不愉快な言動で、さらに私の提出した資料を、完全に「デタラメでうその内容」に書き換えて、新聞に発表しました。私、死ぬまで(死んでも)あの記者を許しません。
一方、研究開発やエンジニアの人の解説資料や、プレゼンテーション資料については、かなりの同情の余地があると思っています。彼らは、「誤差の逆伝搬学習を知らない人」までも想定してプレゼン資料を作成することが、不可能に近いことを知っているからです。
なぜ、私が、そう思うことができたのか ―― それは、今回の、深層学習のコラムで、私自身が「どう説明したら良いのか、さっぱり分からん」と、混迷の蟻地獄に陥ったからです。
ここのところ、毎日、夢の中で七転八倒しているうちに、
――別に、深層学習なんて知らなくたって、それでも地球は回るよね
という、ちょっと投げやりな気持ちになってきました*)。
*)私の嫁さんの名言に、「リトマス試験紙が、青になろうが赤になろうが、それが一体何だというの?」があります(関連記事:「6万人のメイドが“合体”!? EtherCATの通信方式」)。
とはいえ、それでは、この連載の目的(数値や数式を使わないAI技術の解説)をひっくり返すことになります(そして、担当のMさんを大慌てさせることになります)ので、なんとか今回もがんばっていきたいと思います。
ニューラルネットワークに限らず、どのAI技術においても、「教師あり学習」と「教師なし学習」は、いろいろなところで登場し、かつ、混乱して使われています。そこで、再度整理してみたいと思います。
教師あり学習とは、どんな猫の写真を入力しようとも"1000"を出力するように、どんな犬の写真を入力しようとも"0100"を出力するように、どんな猿の写真を入力しても"0010"を出力するように、どんな雉(きじ)の写真しようとも"0001"を出力するように、力づくでニューラルネットワークを強制的に矯正するものです(前回ご説明した通り)。
学習データは「猫1、1000」「犬1、0100」「猿1、0010」「雉1、0001」「猫2、1000」「犬、0100」「猿2、0010」「雉2、0001」「猫3、1000」「犬3、0100」「猿3、0010」「雉3、0001」……のように、4種類の動物と出力値のペアとなります。
比して教師なし学習とは「どんな猫の写真」を入力しようとも、出力が"1"となるように、力づくでニューラルネットワークを強制的に矯正するものです。
学習データは、「猫1」「猫2」「猫3」「猫4」「猫5」「猫6」「猫7」「猫8」「猫9」「猫A」「猫B」「猫C」「猫D」「猫E」「猫F」「猫10」……と、ひたすら猫の写真だけです(出力値はいらない)。
「教師なし学習」は、「データの必要がない」ということではありません。データは山ほど必要です。ただ、『もし、このデータが与えられたら、○○をしろ」の「○○をしろ」の部分がないだけなのです。
Copyright © ITmedia, Inc. All Rights Reserved.