では、最後に、N-gramモデルについて、私なりの理解で簡単に説明を試みます。
以前、この連載で、ベイズ推論のお話をしました(「困惑する人工知能 〜1秒間の演算の説明に100年かかる!?」)。まずは、この内容を思い出してください(まあ、思い出さなくても良いですが)。
N-gramモデルとは、ぶっちゃけ「条件付き確率」のことです。ある事象の発生確率が、その直前までに既に発生してしまった事象によって、コロコロと変化する確率のことです。
この例では、パートナー(男性)の浮気の確率が、他の条件によって(タンスの中からパンティが発見されたという事実で)変化することを示す、「"パンティ発見"条件付き"浮気"確率」を表しています。
N-gramモデルの考え方も、概念的には同じです(多分)。
"エバ"と出てきたら、次が「タ」となり"エバタ"となる確率と、"エバ"と出てきたら、次が「ラ」となり、"エバラ"となる確率を計算して、高いものからリストアップしておきます。こうしておけば、"エバ"の後の音節が不明瞭でも、力づくで音声認識を押し進めることができます。
また、文節単位でも、"江端は"がくれば、普通に「偉大だ」が確率的に上位にくるはずです。"江端は"の後に「阿呆だ」が登場する確率が下位に沈むのは間違いありません。なぜなら「江端は偉大だ」は、もはや、慣用句といってもいいレベルにあるからです(うそです)。
Copyright © ITmedia, Inc. All Rights Reserved.