ビッグデータのクラスタリング処理を汎用PCで実行：少ないメモリ容量で高速処理

一般的な処理能力のPCで、ビッグデータのクラスタリング処理を高速に実行できる手法を、情報・システム研究機構国立情報学研究所（NII）の松井勇佑氏らが開発した。

LINE

Hatena

IoT時代のデータ処理に有用

　情報・システム研究機構国立情報学研究所（NII）コンテンツ科学研究系特任研究員の松井勇佑氏、ドワンゴメディアヴィレッジ研究開発グループのグループリーダー大垣慶介氏、東京大学大学院情報理工学系研究科電子情報学専攻の相澤清晴教授と山崎俊彦准教授らの研究グループは2017年9月12日、一般的な処理能力のPCで、ビッグデータのクラスタリングを高速に実行できる手法を開発したと発表した。

　人工知能（AI）などの研究では、膨大な画像データなどを高速に処理する必要がある。このため、収集した大量データの中から、類似したものをまとめてグループ化する「クラスタリング」の作業が必要となる。ところが、1億個を超えるような画像データを高速に処理する場合、これまでは多数のサーバによる分散並列処理を必要としていた。

　そこで今回、CPUは4コアでメモリ容量が32Gバイト程度の一般的なPCでも、ビッグデータのクラスタリング処理を可能にする技術を開発した。開発した手法ではまず、直積量子化と呼ばれる技術を用いて、データを圧縮する。これによって、使用するメモリ容量を削減することができる。

　次に、圧縮したデータの中から類似したデータをグループ化し、グループの平均を計算する。これらの処理を繰り返し行う。類似したデータのグループ化には、かねて松井氏が提案した技術を用いている。グループの平均を効率よく計算する技術は新たに考案した。

　開発した手法を一般的なPCで用い、1億枚の画像データセット「Yahoo Flickr Creative Commons 100M（YFCC100M）」を対象に、クラスタリング処理を行った。「氷上のスポーツ試合」や「欧風の教会」「ヤシの木」など、10万種類のグループに分類する処理を、約1時間で実行することができたという。10億枚の画像データを10万種類のグループに分類する処理については約12時間で済んだ。

1億枚の画像データをクラスタリング処理した例出典：NII、ドワンゴ、東京大学、科学技術振興機構（JST）

　研究グループは、一般的なクラスタリング手法である「Binary k平均法」などとその特性を比較した。既存の手法は元データを不可逆的に変形するため、クラスタリング終了後に元データへ復元することはできない。これに対し開発した手法だと、データを近似的に復元することが可能である。さらに、開発した手法はチューニングなどの煩雑な設定は不要で、取り扱いが簡単だという。また、k平均法に比べて精度は劣るものの、処理速度は10～1000倍も高速で、必要なメモリ容量は100分の1～4000分の1で済むという。

　IoT（モノのインターネット）のエッジデバイスでは、CPUコア数やメモリ容量などコンピュータ資源に限界がある。こうした中で、今回の開発成果を活用すると、エッジデバイス側でビッグデータのクラスタリング処理を行うことが可能になる。

ビッグデータのクラスタリング処理を汎用PCで実行：少ないメモリ容量で高速処理

IoT時代のデータ処理に有用

関連記事