忖度する人工知能～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（5/11 ページ）

今回取り上げるのは「強化学習」です。実はこの強化学習とは、権力者（あるいは将来、権力者になりそうな者）を“忖度（そんたく）”する能力に長けた、政治家のようなAI技術なのです。

[江端智一，EE Times Japan] PC用表示関連情報

LINE

Hatena

　この単純な報酬型学習である「強化学習」が、どれほど有効であったかは、皆さんもご存じの通りです。

　チェスはともかく、絶対に無理だと言われ続けた将棋、囲碁の世界チャンピオンが倒されたことは、記憶に新しいと思います^＊）。

＊）ただし、「Bonanza」「アルファ碁」「AlphaZero」は、単純にQ学習を適用しただけではありません。

　コンピュータゲームへの適用は、これより早く始まっていて、積み木くずし、テトリスなども、簡単に攻略されました。

　この他、Q学習は、検索問題や枝分かれ問題のような、組合せ爆発系の問題とも親和性が高く、古くから研究が続けられてきた（比較的簡単な）制御装置の自動チューニングにも使えることが分っています。

　しかし ―― これだけなのです。

　これ以外の事例（例えば、産業応用とか）を、私は見つけ出すことができませんでした。

　これは、強化学習だけに限らず、今回の第3次AIブーム全体にいえることです。

　AIブームは、社会のツールとして組み込まれた時に、そのブームが終焉（えん）しますので、これは仕方のないことかもしれません（関連記事：「陰湿な人工知能～「ハズレ」の中から「マシな奴」を選ぶ」）。

　しかし、そうであったとしても、強化学習は私たちAI技術に関わる者の、既存のパラダイムを破壊してしまうほど、すごい技術であることは否めません。

　まず、前述したように、その仕組みが驚くほど単純であることは言うまでもないのですが、私たち（特に私）を心底驚かせたのは ―― 「解空間の規模」だったのです。

　まず、以下の図を、（流し読みせずに）ちゃんと読んでください。

　私たちエンジニアが、「大きな数」と言われた時に、イメージする数とはこのくらいのものです。

　では、強化学習が相手にした「将棋」や「囲碁」の世界が、どれくらい広いかというと、こんな感じです（流し読みせずに）ちゃんと読んでください（本日2度目）。

忖度する人工知能 ～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（5/11 ページ）