富士通研究所は2020年3月3日、磁気テープストレージのランダム読み出し性能を従来比4.1倍にする高速化技術を開発した、と発表した。低コスト、大容量なデータアーカイブ基盤としての利用を促進するもので、2022年度中の製品化を予定している。
富士通研究所は2020年3月3日、磁気テープストレージのランダム読み出し性能を従来比4.1倍にする高速化技術を開発した、と発表した。低コスト、大容量なデータアーカイブ基盤としての利用を促進するもので、2022年度中の製品化を予定している。
近年、転送速度の高速化および、磁気テープのデータをファイル単位で取り扱うことができるファイルシステム「LTFS」(Linear Tape File System)の普及によって、アーカイブ用途での磁気テープの活用が期待されている。ただ、その性質上、テープ上の不連続な位置にランダムにアクセスする性能が低いほか、アクセスするデータのサイズが小さくなるほどデータを読み出す位置合わせの処理が多くなり性能が劣化するといった課題があった。
富士通研究所は今回、LTFSの上位に複数のテープカートリッジを仮想統合し、利用者が各テープカートリッジを意識することなく、必要なファイルにアクセスすることを可能とするする新たなファイルシステムを開発。この新システムに2つの新技術を適用したことで、読み出し性能の向上を実現したという。
新技術の1つは、「物理位置を考慮したアクセス順序制御」だ。
通常、磁気テープ上で、データは長さ方向にラップという単位で分割されており、各ラップで折り返し、追記的にデータが書き込まれている。そのため、論理アドレスと磁気テープ上の物理的な位置は大きく異なり、これが読み出しに時間を要する要因の一つになっていた。
新技術では、開発した仮想統合ファイルシステムで複数のランダムな読み出し要求を受け入れた上で、論理アドレスではなく、テープ上の物理位置が近いデータから順に処理していく。さらに、データ書き込み後にヘッドの位置を定期的に計測することで、各ファイルの物理位置を推定するほか、同一ラップ上で近接している2つの読み出し要求は、その間のファイル群もまとめて読み出した上で不要ファイルを破棄する処理を実施し、さらなる高速化を実現している。
もう1つの新技術は、「複数ファイル集約機能」だ。
LTFSでは、各ファイルのインデックスを磁気テープ上で保持しているため、ファイル数が増加するに伴ってその影響も増大する。アーカイブ用途で磁気テープを使う場合、利用者はさまざまなファイルを用いることになるが、小さいサイズのファイルを大量に書き込むと、読み出し性能が大幅に劣化することになる。
そこで同社は、指定したサイズ以下のファイルについてはLTFS上でまとめ、1つの大きなファイルとして保持し、利用者が場所を意識することなく小さいファイルにアクセスできるようにする新技術を開発。さらに、利用者向けファイルのメタデータを仮想統合ファイルシステムで管理することで、ファイル読み出し以外の一覧表示や拡張属性の追加、ファイル削除などについては、磁気テープへのアクセス無しで高速処理できるようにした。
同社は、オープンソースの分散ストレージソフトウェア「Ceph(セフ)」を利用してHDDと磁気テープの階層ストレージを構築し、アクセス性能を評価。磁気テープ上に蓄積した5万個の100Mバイトのファイルからランダムに100ファイルを読み出す時間は、従来方式で5400秒かかったのに対し、新技術では1300秒となり、読み出し性能が約4.1倍となった。また、HDD上にある256個の1Mバイトのファイルを磁気テープ上に移動させる時間についても、従来方式の2.5秒に対し、新技術では1.3秒と約1.9倍の高速化を実現したとしている。
Copyright © ITmedia, Inc. All Rights Reserved.