電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
解説
ビッグデータ利活用のための基盤システムの動向
Recent Trends in Computing Infrastructure for Utilizing Big Data
abstract
現在,ありとあらゆる分野においてビッグデータ処理技術と機械学習ベースのAI技術が重要になっている.本稿では,まず,大量データ処理と低遅延処理の両立を図るビッグデータ処理アーキテクチャではどういった処理が行われているかを解説し,次にビッグデータ向けのデータストア技術について解説する.これらの目的のために利用可能な基盤ソフトウェアについても紹介する.更に,ビッグデータ向けの計算基盤としてラック規模コンピュータ,また,FPGAやGPUといったアクセラレータを用いたビッグデータ処理の高性能化についても紹介する.
キーワード:ビッグデータ,ラムダアーキテクチャ,SMACK,ラック規模コンピュータ
ビッグデータとは何か? 単に巨大なデータだけがビッグデータではない.ビッグデータの特徴として3V若しくは5Vがよく知られている.3Vとは,
・ Volume(データの量)
・ Variety(データの多様性)
・ Velocity(データの速度)
のことである.例えば,データ量がペタ,エクサバイト級に大きいこと.数値,テキスト,画像などデータの型や性質が多様であること.ものすごい速度で生成されるデータを低遅延で処理しなければならないことを意味している.5Vについては人によって定義がやや異なるが,
・ Variability(データの変動性,ばらつき)
・ Veracity(データの正確性)
などが追加されている.実際,データの質,量,特徴は時々刻々と変化するし,データや処理結果には精度が要求される.ここで要求される5Vの度合いはアプリケーションによってまちまちであり,そのためのシステムも実に多様である.本稿ではビッグデータ処理における特徴的な基盤システム(通常はハードウェア,OS,ミドルウェアなどを指す)の例として,データ処理,データストア,計算基盤について現状の課題と動向を紹介する.
(1) データ処理の現状と課題
ビッグデータ,とりわけVolumeが大きなデータ処理のためにMapReduceが普及している.MapReduceはデータの各要素に対して与えられた操作を行うMapステップとその結果を集約するReduceステップから構成される.MapステップとReduceステップそれぞれにおいて並列化が可能であることからビッグデータを多数の計算機を用いてバッチ処理する際に有効である.実際,MapReduceフレームワークのオープンソースソフトウェアであるApache Hadoopはバッチ処理のデファクトスタンダードとなっている.ただし,Hadoopは速度(Velocity)が要求されるようなストリーム処理には最適化されているとは言えない.3.ではVolumeとVelocityを両立するためのアーキテクチャを紹介する.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード