解説 ビッグデータ利活用のための基盤システムの動向

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.100 No.8 (2017/8) 目次へ

前の記事へ次の記事へ


解説

ビッグデータ利活用のための基盤システムの動向

Recent Trends in Computing Infrastructure for Utilizing Big Data

松谷宏紀

松谷宏紀 正員 慶應義塾大学理工学部情報工学科

Hiroki MATSUTANI, Member (Faculty of Science and Technology, Keio University, Yokohama-shi, 223-8522 Japan).

電子情報通信学会誌 Vol.100 No.8 pp.866-870 2017年8月

©電子情報通信学会2017

abstract

 現在,ありとあらゆる分野においてビッグデータ処理技術と機械学習ベースのAI技術が重要になっている.本稿では,まず,大量データ処理と低遅延処理の両立を図るビッグデータ処理アーキテクチャではどういった処理が行われているかを解説し,次にビッグデータ向けのデータストア技術について解説する.これらの目的のために利用可能な基盤ソフトウェアについても紹介する.更に,ビッグデータ向けの計算基盤としてラック規模コンピュータ,また,FPGAやGPUといったアクセラレータを用いたビッグデータ処理の高性能化についても紹介する.

キーワード:ビッグデータ,ラムダアーキテクチャ,SMACK,ラック規模コンピュータ

1.は じ め に

 ビッグデータとは何か? 単に巨大なデータだけがビッグデータではない.ビッグデータの特徴として3V若しくは5Vがよく知られている.3Vとは,

 ・ Volume(データの量)

 ・ Variety(データの多様性)

 ・ Velocity(データの速度)

のことである.例えば,データ量がペタ,エクサバイト級に大きいこと.数値,テキスト,画像などデータの型や性質が多様であること.ものすごい速度で生成されるデータを低遅延で処理しなければならないことを意味している.5Vについては人によって定義がやや異なるが,

 ・ Variability(データの変動性,ばらつき)

 ・ Veracity(データの正確性)

などが追加されている.実際,データの質,量,特徴は時々刻々と変化するし,データや処理結果には精度が要求される.ここで要求される5Vの度合いはアプリケーションによってまちまちであり,そのためのシステムも実に多様である.本稿ではビッグデータ処理における特徴的な基盤システム(通常はハードウェア,OS,ミドルウェアなどを指す)の例として,データ処理,データストア,計算基盤について現状の課題と動向を紹介する.

2.基盤システムの現状と課題

 (1) データ処理の現状と課題

 ビッグデータ,とりわけVolumeが大きなデータ処理のためにMapReduceが普及している.MapReduceはデータの各要素に対して与えられた操作を行うMapステップとその結果を集約するReduceステップから構成される.MapステップとReduceステップそれぞれにおいて並列化が可能であることからビッグデータを多数の計算機を用いてバッチ処理する際に有効である.実際,MapReduceフレームワークのオープンソースソフトウェアであるApache Hadoopはバッチ処理のデファクトスタンダードとなっている.ただし,Hadoopは速度(Velocity)が要求されるようなストリーム処理には最適化されているとは言えない.3.ではVolumeVelocityを両立するためのアーキテクチャを紹介する.


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録


  

電信情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電信情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。