では、最後に、超簡単な強化学習のプログラムを作って試してみたので紹介します。名付けて、学校寄付金プログラム ―― 別名、高年収獲得プログラムです。
このプログラムでは、学費という概念がなく、その代わりに、就職した年収に応じて、その就職に貢献した学校に寄付金(報酬)を渡します。
各学校は、高所得者を生み出すためだけに存在します。それ以外の目的(道徳とか協調とか信頼とか友情とか)は、一切無視した教育をします。
このコラムを読んで頂いている皆さんには、ものすごく不愉快だとは思いますけど、強化学習のアルゴリズムを理解するという点では、とても分かりやすい考え方だと思っています。
上記の例では、J大学の卒業生以外は、全員年収がないですが、気にしないでください。結果は以下の通りになりました。
次は、M大学の卒業生も、年収1000万円ビジネスパーソンになるものとしてみました。結果は以下の通りです。
特に問題なく、強化学習が行えることが分っています。ただし、対象が2倍になると、褒める回数(学習回数)も2倍にしなければならないようです。
これは、対象が複雑になれば、学習回数も増やさないと十分な効果が得られないことを示唆していると思います。
Copyright © ITmedia, Inc. All Rights Reserved.