では、ここからは、強化学習のQ学習について、数式抜きの解説を試みます。
ここでは「桶の製造販売をしている工房の社長(兼職人)」を想定します。
「毎年、なんだか理由は分からんが、やたら桶が売れる」という時期があるとします。その桶の会社の社長としては、桶が売れる理由が分かれば、当然、その時期に桶を増産して売り上げを確保したいと考えるはずです。
どこかで、何かの状態(状態S)が起こり、そこから、その状態を変える行動(行動a)が起こり、別の状態に遷移して、そこからまた別の行動が起こる―ー。それが繰り返されることで、最終的に「桶が売れた」という状態になるわけです。
しかし、その社長には、その理由が分かりません。
実は、この理由は、いわゆる「風が吹けば桶屋がもうかる」で使われている、「行動」と「状態」の連鎖だったのです。
しかし、桶を作る社長は、このような無数にある世界の「状態」と「行動」から「桶が売れた理由」が、実は「風」だったということや、その途中に「埃の発生」「盲人の増加」「三味線の需要拡大」「ネコの減少」「ネズミの増加」という状態が発生したなど、知りようはずがありません。
Copyright © ITmedia, Inc. All Rights Reserved.