「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術：NTTの「tsuzumi」にも採用

NTTは2024年4月12日、大規模言語モデル（LLM）の活用により、文書に含まれる図表やグラフなども含めて理解し、自然言語での指示に従って読解／応答する「視覚読解技術」を実現したと発表した。

LINE

Hatena

　NTTは2024年4月12日、大規模言語モデル（LLM）の活用により、文書に含まれる図表やグラフなども含めて理解し、自然言語での指示に従って読解／応答する「視覚読解技術」を実現したと発表した。今後、カスタマーサポート業務の補助や自然言語指示による作業の自動化など、オフィスDX（デジタルトランスフォーメーション）の推進への貢献が期待できる。

　視覚読解技術とは、実世界の文書を視覚的に（画像として）理解し読解する技術だ。今日では、図表やグラフ、文字の見た目、レイアウトなどの視覚情報を用いた文書が多く扱われているが、従来のテキストベースの読解技術では、それらの視覚情報を読み取ることが難しかった。また、従来の視覚読解技術では、請求書に関する情報抽出のタスクなど、任意の文書やタスクに対応することが難しいため、目的のタスクや文書ごとに一定数のサンプルを用意して学習を行う必要があった。

テキストベース読解と視覚読解の比較［クリックで拡大］出所：NTT

　そこでNTTは、「文書画像を画像情報に変換する画像エンコーダー」と「画像情報を読解するLLM」をつなぐアダプター技術を開発した。モデルパラメータの大部分を占めるLLMや画像エンコーダーのパラメータを固定にし、アダプターのみを学習対象にすることで、パラメータ効率の良い学習を実現したという。

LLMの推論能力を活用した視覚読解技術の概要［クリックで拡大］出所：NTT

　また、同社は、さまざまな視覚文書読解タスクを対象とした指示遂行用のデータセットを構築した。文書画像を知識源とし、質問応答や情報抽出、文書分類をはじめとする12種類の視覚読解タスクを人間の指示を基に遂行できる。これにより、未学習のタスクにおいても、目的タスクで学習を行った教師ありモデルや「GPT-4（テキスト入力のみ）」に匹敵、あるいは上回る性能を実現した。同社担当者は「ユーザー側での追加の学習は不要だ。ただし、特定の情報に対して追加学習を行うことで、読解精度を高めることができる」と説明した。

視覚読解における未学習タスクでのベンチマーク結果［クリックで拡大］出所：NTT

　同社担当者は今後について「作業自動化など、人間と共に価値を生み出すようなAI技術の実現に向けて研究開発を進めて行く」とコメントした。

　今回発表した視覚読解技術は、2023年度における東北大学データ駆動科学・AI教育研究センター教授の鈴木潤氏との共同研究の成果だ。NTTが2024年3月25日に商用提供を開始したLLM「tsuzumi」のアダプター技術として採用／導入されている他、2024年2月20～27日にカナダ・バンクーバーで開催されたAI（人工知能）分野の国際会議「The 38th Annual AAAI Conference on Artificial Intelligence（AAAI2024）」にも採択されている。

「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術：NTTの「tsuzumi」にも採用

関連記事