メディア

テクノロジー

電池／エネルギー

センシング

無線

テスト/計測

ホワイトペーパー

Microchip情報

全記事一覧

EE Times Japan > 連載記事 >

忖度する人工知能～権力にすり寄る計算高い“政治家”：Over the AI ―― AIの向こう側に（20）（4/11 ページ）

» 2018年03月27日 11時30分公開

[江端智一，EE Times Japan]

前のページへ 1|2|3|4|5|6|7|8|9|10|11 次のページへ

もしも桶屋の社長がソフトウェアエンジニアだったなら

　ですが、もし、桶を作る社長が、（A）優れたソフトウェアエンジニアであり、（B）AI技術の知見に精通しており、さらに、（C）桶が売れる可能性に関わる世界の全ての状況を「状態」と「行動」として定義でき、かつ、（D）それをソフトウェア上で実装できる ―― と仮定（後述しますが、こんな人間は存在し得ません）した場合、どうなるのでしょう。

　強化学習（のQ学習）とは、ザックリ以下のような仕組みになってます。

　まず、「桶が売れる」に至ることのできる世界に至る、全ての「状態」と、その状態を次の状態に変化させる「行動」を定義します。

　そして、「桶が売れる」という状態（これを、「桶の状態」ということにします）に至れた「行動」に対して、「桶の状態」は、お金を支払います。その結果、「桶の状態」に至ることに貢献した「その前の状態」は、お金を受け取ることができます。

　「その前の状態」は、さらにその状態に至ることに貢献してくれた、「その前の前の状態」に、お金を支払います。これが、さらに「その前の前の前の状態」……と続きます。

　そして、このお金、不思議なことに「どんなに支払っても、減らない」魔法のお金であることを覚えておいてください。

　さて次に、「行動」です。「行動」はお金持ちが大好きです。ですので、「行動」は、お金持ちに成り上がった「次の状態」に状態を変化させるように働きます。

　ただ、この「行動」は、狡猾（こうかつ）な奴で、常に「金持ち」をチヤホヤするだけではなく、「貧乏人」にも、小さい確率で移動するように行動します。将来、その状態が、「金持ち」になった時に、「あ、しまった」とならないように、ちゃんと「コネ」を作っておくためです。

　これは、企業が政治献金を行う時に、与党へはもちろん、弱小野党へも、額が小さくても献金を怠らないこととよく似ています（政権がひっくり返っても、コネがあれば、なんとかなります）。

　で、この「状態」と「行動」を、山ほど（ケースにもよりますが、数百回から1億回までさまざま）繰り返します。繰り返さないと、「お金」が貯まりませんし、お金が貯まらないと「権力」が発生しないからです。

　さて、こうして強化学習のQ学習を俯瞰してみると、この仕組みが、実に単純な政治の利益誘導モデル（「予算ばらまき」と、「（金による）権力」と「権力への忖度」）で動いていることが理解頂けるかと思います。

　もっとも、AI技術の世界では、当然、Q学習を「権力／忖度モデル」などとは言わず、「報酬型学習」と言います。

「強化学習」の有効さ

前のページへ 1|2|3|4|5|6|7|8|9|10|11 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

Special ContentsPR

特別協賛PR

スポンサーからのお知らせPR

Special ContentsPR

Pickup ContentsPR

印刷して読む電子ブックレット

記事ランキング

≫ 11～30位はこちら

Special SitePR

あなたにおすすめの記事PR

RSSフィード

EE Times Japan

EE Times Japanについて

会員メニュー

公式SNS

Facebook
X

EE Times 海外ネットワーク

海外提携サイト

Electronic Supply & Manufacturing China

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境