もう一段階深く考えてみれば、「強化学習」が人類を支配できない理由は明確になります。
まず、「強化学習」が「権力/忖度モデル」……ではなくて「報酬型学習」であることは、既に述べました。
ところが、この報酬には、2種類あるのです。
実は、報酬において、たちが悪いのは「外発的動機づけ」ではなく「内発的動機づけ」なのです。
マッドサイエンティスや、カルト宗教の教祖や、国家の独裁者のモチベショーンは、基本的に、「誰かに褒められたい」「金をもうけたい」という欲望より、「分からないことを知りたい」「世界をよりよくしたい」という、単純で(独善的な)善意から発動するからです。
ご理解いただけると思いますが、「強化学習の報酬」は、「外発的動機づけ」です(なにしろ、報酬(例:年収1000万円)を与えているのは、プログラミングをしている、この私ですから)。
つまり、「外発的動機づけ」なんぞで動いているプログラムに、「世界を乗っとる」意志が発生する訳がありません。だから安心していいのです。
『それは本当に絶対か!』とか『AIに"内発的動機づけ"が発生しないという保証があるのか!』と、心配な方には、それらを止める最後の手段をご教示しておきましょう ―― アンダーマイニングです。
『人間的野心が発生するAI』なんぞ、私は「絶対に作れるわけがない」と決めつけていますが、もしそういうAIが生まれてきたとしたら、そのAIに腐るほどの金銭を与えて、やる気を失わせてやればいいのです。
つまり、AIが「権力」を行使するなら、私たち人間は「忖度」で対抗すれば良いのですよ。
⇒「Over the AI ――AIの向こう側に」⇒連載バックナンバー
江端智一(えばた ともいち)
日本の大手総合電機メーカーの主任研究員。1991年に入社。「サンマとサバ」を2種類のセンサーだけで判別するという電子レンジの食品自動判別アルゴリズムの発明を皮切りに、エンジン制御からネットワーク監視、無線ネットワーク、屋内GPS、鉄道システムまで幅広い分野の研究開発に携わる。
意外な視点から繰り出される特許発明には定評が高く、特許権に関して強いこだわりを持つ。特に熾烈(しれつ)を極めた海外特許庁との戦いにおいて、審査官を交代させるまで戦い抜いて特許査定を奪取した話は、今なお伝説として「本人」が語り継いでいる。共同研究のために赴任した米国での2年間の生活では、会話の1割の単語だけを拾って残りの9割を推測し、相手の言っている内容を理解しないで会話を強行するという希少な能力を獲得し、凱旋帰国。
私生活においては、辛辣(しんらつ)な切り口で語られるエッセイをWebサイト「こぼれネット」で発表し続け、カルト的なファンから圧倒的な支持を得ている。また週末には、LANを敷設するために自宅の庭に穴を掘り、侵入検知センサーを設置し、24時間体制のホームセキュリティシステムを構築することを趣味としている。このシステムは現在も拡張を続けており、その完成形態は「本人」も知らない。
本連載の内容は、個人の意見および見解であり、所属する組織を代表したものではありません。
Copyright © ITmedia, Inc. All Rights Reserved.