NECは、さまざまなデータシートに記載された数値の意味を推定するAI(人工知能)技術「データ意味理解技術」を開発した。専門家でも1カ月要していたデータ統合作業を、わずか1時間に短縮できるという
NECは2019年8月、さまざまなデータシートに記載された数値の意味を推定するAI(人工知能)技術「データ意味理解技術」を開発したと発表した。これまで専門家が1カ月かけて行っていたデータ統合作業を、わずか1時間に短縮できることを確認した。
あらゆる業種の企業が作成した膨大なデータは、表名や列名が統一されていない場合が多い。これらのデータを共有して統合、分析を行うには、専門家が表データの表記ゆれを精査するなど、人手で統合する必要があった。このため、データ統合に膨大な時間が必要となり、作業者によるスキルのばらつきなども課題となっていた。
NECが開発したデータ意味理解技術は、表データの構造と数値特性を含む、さまざまな単語のナレッジグラフを活用することで、データの統合作業を自動化し効率を大幅に改善できる、独自の機械学習アルゴリズムである。
具体的には、同じ意味の数値データは分布傾向が似ていることを利用し、ナレッジグラフ上にある単語ごとの数値分布と比較する。これにより、列名がないデータであっても、それは「売上高」などと推定することができるという。
また、ナレッジグラフ上のネットワーク距離を活用して、「推定対象のデータ列の意味候補」と「同一表データにある他のデータ列の意味」の共起関係を推定する。例えば、同じ表データに「氏名」の項目があれば、他のデータが「気温」ではなく、「年齢」が妥当であると推定する。これによって推定の精度を高めた。
Copyright © ITmedia, Inc. All Rights Reserved.