この単純な報酬型学習である「強化学習」が、どれほど有効であったかは、皆さんもご存じの通りです。
チェスはともかく、絶対に無理だと言われ続けた将棋、囲碁の世界チャンピオンが倒されたことは、記憶に新しいと思います*)。
*)ただし、「Bonanza」「アルファ碁」「AlphaZero」は、単純にQ学習を適用しただけではありません。
コンピュータゲームへの適用は、これより早く始まっていて、積み木くずし、テトリスなども、簡単に攻略されました。
この他、Q学習は、検索問題や枝分かれ問題のような、組合せ爆発系の問題とも親和性が高く、古くから研究が続けられてきた(比較的簡単な)制御装置の自動チューニングにも使えることが分っています。
しかし ―― これだけなのです。
これ以外の事例(例えば、産業応用とか)を、私は見つけ出すことができませんでした。
これは、強化学習だけに限らず、今回の第3次AIブーム全体にいえることです。
AIブームは、社会のツールとして組み込まれた時に、そのブームが終焉(えん)しますので、これは仕方のないことかもしれません(関連記事:「陰湿な人工知能 〜「ハズレ」の中から「マシな奴」を選ぶ」)。
しかし、そうであったとしても、強化学習は私たちAI技術に関わる者の、既存のパラダイムを破壊してしまうほど、すごい技術であることは否めません。
まず、前述したように、その仕組みが驚くほど単純であることは言うまでもないのですが、私たち(特に私)を心底驚かせたのは ―― 「解空間の規模」だったのです。
まず、以下の図を、(流し読みせずに)ちゃんと読んでください。
私たちエンジニアが、「大きな数」と言われた時に、イメージする数とはこのくらいのものです。
では、強化学習が相手にした「将棋」や「囲碁」の世界が、どれくらい広いかというと、こんな感じです(流し読みせずに)ちゃんと読んでください(本日2度目)。
Copyright © ITmedia, Inc. All Rights Reserved.