検索
ニュース

“データの意味を推定”するAI、NECが開発1カ月要した作業が1時間に短縮

NECは、さまざまなデータシートに記載された数値の意味を推定するAI(人工知能)技術「データ意味理解技術」を開発した。専門家でも1カ月要していたデータ統合作業を、わずか1時間に短縮できるという

Share
Tweet
LINE
Hatena

1カ月要した作業時間を1時間に短縮

 NECは2019年8月、さまざまなデータシートに記載された数値の意味を推定するAI(人工知能)技術「データ意味理解技術」を開発したと発表した。これまで専門家が1カ月かけて行っていたデータ統合作業を、わずか1時間に短縮できることを確認した。

 あらゆる業種の企業が作成した膨大なデータは、表名や列名が統一されていない場合が多い。これらのデータを共有して統合、分析を行うには、専門家が表データの表記ゆれを精査するなど、人手で統合する必要があった。このため、データ統合に膨大な時間が必要となり、作業者によるスキルのばらつきなども課題となっていた。

 NECが開発したデータ意味理解技術は、表データの構造と数値特性を含む、さまざまな単語のナレッジグラフを活用することで、データの統合作業を自動化し効率を大幅に改善できる、独自の機械学習アルゴリズムである。


従来技術と今回開発した技術の違い (クリックで拡大) 出典:NEC

 具体的には、同じ意味の数値データは分布傾向が似ていることを利用し、ナレッジグラフ上にある単語ごとの数値分布と比較する。これにより、列名がないデータであっても、それは「売上高」などと推定することができるという。


各データ列の数値分布の統計的な傾向を手掛かりに、ナレッジグラフとのひも付けを行う 出典:NEC

 また、ナレッジグラフ上のネットワーク距離を活用して、「推定対象のデータ列の意味候補」と「同一表データにある他のデータ列の意味」の共起関係を推定する。例えば、同じ表データに「氏名」の項目があれば、他のデータが「気温」ではなく、「年齢」が妥当であると推定する。これによって推定の精度を高めた。


ナレッジグラフ上のネットワーク距離を活用して、数値の意味を推定 出典:NEC

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る