忖度する人工知能 〜権力にすり寄る計算高い“政治家”:Over the AI ―― AIの向こう側に(20)(10/11 ページ)
今回取り上げるのは「強化学習」です。実はこの強化学習とは、権力者(あるいは将来、権力者になりそうな者)を“忖度(そんたく)”する能力に長けた、政治家のようなAI技術なのです。
今回のコラムを振り返る
それでは、今回のコラムの内容をまとめてみたいと思います。
【1】「体罰」に対する私の考え方を明かにした上で、「体罰」の世間一般の考えを考察してみました。その結果、「体罰はダメ」と言いつつ「体罰には効果がある」と考える人が一定数いるという仮説を立てました。
【2】今回は、「機械学習」の中の「強化学習(のQ学習アルゴリズム)」について解説を行いました。
【3】「教師あり学習」と「教師なし学習」の比較を行い、前者が「知識とロジック」を、後者が「経験とマネ」を、その学習の根幹に置いていることを明らかにした上で、「強化学習」が「教師なし学習」の代表技術であることを示しました。
【4】「強化学習」が、たった1行の式(または、4行程度のプログラム)で、超巨大な解空間の中から、最適戦略を選び出すという、脅威のAI技術であることを示しました。
【5】その一方で、「強化学習」が、将棋や囲碁、PCゲーム等の分野でしか、その効果を発揮できていないことを示しました。
これは、(A)膨大な回数の学習が必要であり、(B)そのような学習はコンピュータの中でしか実現できないことに加えて、(C)私たちの人生において、「強化学習」の環境(状況と行動)を定義することが絶望的に難しい、ということを説明しました。
【6】最後に具体的例として、「学校寄付金プログラム ―― 別名、高年収獲得プログラム」を作成して、その学習プロセスの特徴を明らかにしました。同時に、「強化学習(のQ学習アルゴリズム)」を使う限り、「(体)罰には効果がない」ことを、シミュレーションで明らかにしました。
「強化学習」とは、「勝ち負け」を続けることで、自力で(勝つための)知識を獲得し続ける学習です。
嫁さんがと、「アルファ碁」なるコンピュータソフトウェアが、名人に勝利したというNHKニュースを見ていた時、嫁さんが、私にその意味を尋ねてきました。
私が『要するに、ソフトウェアが自力で学習していくんだよ』と私が説明したら、真っ青な顔をしておびえていました。
『自分で、新しいことを考えることができるの?』→『人間に勝てるの?』→『そしたら、ソフトウェア(AI技術)が、世界を乗っとるの?』という(世間によくある、AIフォビア(恐怖症)の)三段思考パターンにズッポリとはまっていました。
「あのね、『自己学習』というのは、コンピュータの数理や制御の世界では、昔から『最適解探索』とか、『自動チューニング』とか山ほどあって、そんなことを言えば、人間は、コンピュータの登場の時から、常に負け続けているとも言える訳だし、それ以前にコンピュータとの『勝ち負け』を論じるというのは……」という説明は ―― 嫁さんの「耳」には届いていても、「心」には届いていなかったようです。
「ロボットのアーム軌跡の自動チューニング」は怖くないけど、「将棋や囲碁の自己学習」は怖い ―― 私たちは「訳の分からないものが、訳の分からない理由で動くこと」は怖くなくても、「よく知っているものが、訳の分からない理由で動くこと」には、耐えられないほど怖いのです。なにしろ、私たちは、日常的に、将棋や囲碁を良く知っていますから(ルールは知らなくても)。
Copyright © ITmedia, Inc. All Rights Reserved.