電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
解説
アフターコロナの現場業務変革をけん引する高品質・低コストな5G+映像AI解析システム
High Quality and Low Cost 5G+Image AI Analysis System to Drive Business Innovation after COVID-19
A bstract
アフターコロナに向けて,オフィス業務ではテレワークなどの業務変革が進んでいる.しかし,工場の製造ラインなどの現場業務では変革が遅れており対応が急務となっている.このような中,高速・大容量の特性を持つ5Gのサービスが開始された.5Gにより,無線ネットワークと高精細カメラ映像を用いて,人が現場を見回ることなく現場状況の見える化が可能となる.更に,映像データをAIで解析することで,製造品質や現場業務を素早く検知・フィードバックする自動化・効率化が期待できる.本稿では,エッジとクラウド/センターのリソースを活用して高品質・低コストに映像解析を実現する技術を紹介する.
キーワード:映像解析,AI,5G,エッジコンピュータ,クラウド
新型コロナウイルスの影響を受け,元々ICTを用いていたオフィス業務においては,既に多くの企業でテレワークが導入され,業務フロー・情報共有・コミュニケーションのリモートワーク化が進んでいる(1).
一方,工場の製造ラインなどでは,現場に人がいて機械や製品を直接見ながら行う業務が多くリモートワーク化が進んでいない.近年の人手不足への対策として遠隔からの管理・監視・指示などで現場作業を支援するリモートワークの実現による業務変革が望まれながらも普及が遅れている.しかし,コロナ禍によって現場業務もリモートワーク化が急務となっている.
現場業務のリモートワーク化には,高精細映像データの活用が有効である.例えば,工場内に多数の高精細カメラを配置し,現場の映像を収集して映像AI解析を行い作業手順ミス・危険作業の発生,密集状態などをリアルタイムに自動検出・一括モニタリングすることで,作業品質や作業環境の飛躍的な改善が期待できる(図1).
本稿では,現場業務改革を加速する上で,注目される最新技術について解説する.まず,2.で5G(第5世代移動通信)の特徴を説明する.次に3.で5G及び映像AI解析システムの動向を説明する.そして,4.で映像AI解析システムの理想的な構成を提案し,5.で映像AI解析のエッジ・クラウド/センター連携システムを実現するための技術を紹介する.最後に,6.で今後の展望を述べる.
現在,次世代無線技術として,高速・大容量,低遅延,多端末接続の特徴を有する5Gが注目され,国内では2020年3月からサービスが開始された.5G関連のマーケットは,2025年には国内3兆円,グローバル77兆円の規模に成長すると予想されている(2).特に,5Gの高速・大容量特性によって,高精細カメラの普及やカメラ設置台数の増加に伴って増大する映像データを無線でリアルタイムに伝送可能となるため,映像データを活用する映像ソリューションの普及への期待が高まっている.また,5Gには,大手キャリヤ各社が提供するサービスとは別に,「ローカル5G」というキャリヤを利用せず自由に5Gネットワークを構築できる仕組みがある(図2).
ローカル5Gは企業・自治体などが構築する専用ネットワークとして,建物や土地単位で割り当てられ,通信帯域の占有及び上り/下り割当など独自に設定することができる(3).これにより,カメラ・サーバ間のLANケーブル配線が不要となり,広大な敷地の工場に多数のカメラを自由な位置に設置し,高精細映像を無線経由でサーバに伝送することが可能となる.そして,無線電波のふくそうによるパフォーマンス低下や盗聴に対してもロバストな環境を構築することができる.
5G技術は,総務省を中心に2017年から種々の実証実験が行われている.低遅延特性を生かす高速制御として,トラック隊列走行・建機の遠隔操縦の実証が行われている.また高速・大容量特性を生かす高精細映像データの安定伝送と目視利用として,遠隔診療・スポーツ映像配信・工事現場監視が検証されている(4).
一方,映像をAI解析するシステムは,ディープラーニング(DL: Deep Learning)技術の発達で,映像から人の顔や全身や動作,車など特定対象物を高精度に検出することが可能となり,実用化が進んでいる.例えば,路上・店舗の不審行動者の検出(5),食品事業者の手洗い確認(6)など,技術の応用分野が広がっている.
しかし,収集する映像データ量が大きいため,現在の映像AIシステムでは,インターネットを介したサーバ間の安定伝送が難しい.このため,現場に処理サーバを設置し,解析結果のみをクラウドあるいは企業内のデータセンター(以下クラウド/センターと表記)に伝送して,現場全体の情報可視化などに利用するシステム構成が主流である(図3(a)).
映像AI解析に用いられるDL技術は処理負荷が高い.また,現場業務では,様々な要因で処理負荷が変動する.まず,接続カメラ台数の増加に伴い処理負荷が上がる.また,1台のカメラで人の行動をAI解析する際,人の領域を切り出して個別に処理を行うソフト処理の場合には,映像に映る人数が増加しても処理負荷は上がる.このように処理負荷そのものが高くかつ変動する場合には,ピーク処理量を想定し,その負荷に耐え得るGPUを搭載した高性能サーバを現場に設置する必要がある.結果,サーバのシステム機器コストが膨大になるとともに,サーバの設計・運用・管理が大変になる.顧客にとっては,コスト高・サーバ管理の困難さが課題となり,またベンダにとっても,システムの設計・機器設置の困難さが課題となる.
これらの課題を解決するためには,映像AI解析にエッジサーバとクラウド/センターサーバの両方を連携して活用するエッジ・クラウド/センター連携構成のシステムが有効である.処理負荷の変動は,ハードウェアリソース配分の柔軟性が高いクラウド/センターサーバで吸収させ,現場には必要最小限の台数・性能のエッジサーバを設置する.具体的には,エッジサーバでは映像AI解析による異常検知後に即時機器停止が必要な処理や映像圧縮等の前処理など最小限の処理を行う.そして,結果出力の遅延を秒オーダまで許容できる処理は,処理負荷の変動に応じたシステム構成変更が容易なクラウド/センターへ映像伝送して複数現場の映像解析を一括して実施する(図3(b)).
エッジ・クラウド/センター連携構成での映像AI解析システムを実現するためには,二つの問題をクリアする必要がある.
一つめは,データ転送の問題である.映像データはサイズが大きいため,エッジサーバとクラウド/センターサーバとの間をインターネット経由でリアルタイムに安定伝送するのは困難であり,ネットワーク帯域のひっ迫がボトルネックになる.
二つめは,現場の状況に合わせた最適なシステム設計方法の問題である.従来のように,人の経験に頼りトライ&エラーで性能要件を満たすシステムを設計していたのでは,コストアップにつながる.
そこで本章では,これらの問題を解決し,高品質かつ低コストのリアルタイム映像AI解析ソリューションを実現する技術を紹介する.
映像データ伝送時のネットワーク帯域のひっ迫を防ぐためには,映像データをできる限り小さなサイズに圧縮することが必須である.しかし,映像データの圧縮率に応じて画質が劣化するため,映像AIが注目する画素を過度に圧縮すると認識率が低下する.そこで,映像AIでの認識確度を維持したまま,映像データのサイズを大幅に削減できる技術を紹介する(7),(8).一般的な映像データ圧縮方式では,映像の1フレームである画像を格子状に区切ったブロックごとに,人が見て違和感のない画質となる圧縮率を設定している.本技術では,映像AIが判断材料として認識している対象物のブロックを自動的に解析し,映像AIがブロックごとに認識できる必要最低限の画質で映像データ圧縮を行う(8),(9)(図4).
具体的には,1フレームごとに画像全体の圧縮率を変えて画質を変化させ,ブロックごとに認識結果への影響度を集計する.圧縮率の変化に対する影響度の変化から,非圧縮時と同等の認識ができる限界の圧縮率をブロックごとに推定する.
一般のWebアプリ向けシステムにおけるクラウド/センターサーバのシステム設計・構築では,個々の機能をコンテナ単位に分割し,コンテナを自由に組み合わせて配置することで業務フローや性能要件を満たすシステムを容易に構築できる技術が普及し始めている.この技術では,コンテナ配置の際に,各コンテナが要求するCPU数,メモリ量だけを考慮している.一方,映像AI解析システムの場合,GPUなどの他のハードウェアリソースや,映像伝送時の通信帯域なども考慮しないと所望の性能を実現することが難しい.
そこで,構築する映像AI解析システムが映像処理の性能要件を満たす最適なシステム構成を自動的に設計する技術を紹介する(図5).ここでは従来のCPU数,メモリ量だけでなく,GPUメモリ量,CPU拡張命令,CPUクロック,映像伝送帯域など,映像処理に重要な多種多数なパラメータも考慮している.
しかし,単純に映像処理ごとに組合せ最適化計算を行うと,考慮するパラメータ数が従来よりも多いため,10数台規模のシステム設計でも数日オーダの計算を要する.そこで,特性が類似した映像処理群を一つの類似処理グループとし,類似処理グループ単位で組合せ設計を行うことで,計算する組合せ数を減らし,システム設計にかかる計算時間の大幅削減を実現している.具体的には,通信量及びハードウェアリソースなどの映像処理特性を表すパラメータを基準として用い,通信量が多い類似ハードウェアリソースを使用する処理を極力同一サーバへ配備するように映像処理群をグループ化する.
本章では,開発した技術によりエッジ・クラウド/センター連携構成で映像AI解析を行うことによる,映像データ伝送サイズの削減率,及びシステム設計にかかる時間とコスト削減効果の評価結果について説明する.
工場内で点検作業を行っている複数の作業員の様子を高精細カメラ(Full-HD)で撮影した映像に本技術を適用した.データサイズを約1/7(従来の映像データ圧縮:11,814Byte→開発したAI向け映像データ圧縮:1,527Byte)に削減できた上で,全てのフレームで人の行動解析の認識確度が劣化しないことを確認している(9).
工場での現場業務一括モニタリングに適用するケースを想定した評価結果を示す(表1).2台のカメラ映像を解析するそれぞれ4コンテナで構成された映像AI解析処理ソリューション(合計8コンテナ)を実行する場合に,性能を満たすシステム構成を決定するのに,従来の総当り計算では約100時間を要する.一方,本技術を用いることで,システム設計を1秒未満(約1/10,000時間)で実行することができる.
また,Kubernetes(用語)などの処理配備機構により,システム設計結果に基づく処理の配備を数秒で実行することができる.そして,AI解析負荷が変動するリアルタイム映像解析システムにおいて,システム構成を即座に変更・最適化してシステムを安定化させることが可能となる.
工場で高精細カメラ(Full-HD・5fps)×30台を平日8時間稼動するケースを想定してコスト試算を行った.現場のエッジサーバで映像AI解析を全て行う場合は,高性能サーバ(CPU: 3GHz,8コア,メモリ32GByte,GPU:並列処理コア2,304個,メモリ8GByte)×3台が必要である.一方,エッジとしてJetson NX,クラウド/センターとして現場のエッジサーバ使用時とほぼ同等性能のAWS(Amazon Web Service)を使用して構築する場合,現場にAI向け映像データ圧縮用のJetson NX×2台+AWS(CPU: 2.5GHz,8コア,メモリ64GByte,GPU:並列処理コア2,560個,メモリ16GByte)の構成となる.結果,現場のエッジサーバで映像AI解析を全て行う構成と比較して,初期導入コストを1/10に削減,運用コストを66か月までは安く抑える効果があることを確認した.
本稿では,アフターコロナに向けて現場業務のリモートワークを実現する技術を紹介した.現場業務においてもICT技術を活用したリモートワーク実現などの業務変革推進の流れは加速する一方である.カメラからの高精細映像の伝送に適したローカル5G技術の商用利用も始まり,5G技術と映像AI解析技術を活用したソリューションへの期待は高まっている.工場ライン以外にも店舗・工事・病院などでの管理・監視・指示以外の現場業務に対しても,同様のソリューションによる業務改善が広がっていくと考える.
一方で,増大し続ける高精細映像データを扱う映像AI解析システムでは,伝送データ量削減やシステム設計の課題のほかにも課題がある.一例として,システム構成変更時に処理が一時停止し,その間に発生したイベントを検出できないことが起きると問題となる.このようなシステム運用中の解析処理の連続性が大きな課題となると想定しており,今後も注力すべき研究分野として新たな課題に取り組んでいく.
(1) “日本における企業のデジタルトランスフォーメーション調査2020年版,”電通デジタル,2020.
(2) “注目分野に関する動向調査2019,”電子情報技術産業協会,2019.
(3) https://www.fujitsu.com/jp/reimagine/5g/article/seminar01/(2020年12月21日参照)
(4) 総務省,“令和元年度5G総合実証試験の開始.”
https://www.soumu.go.jp/menu_news/s-news/01kiban14_02000390.html (2019年8月16日参照)
(5) 杉村由花,内田大輔,鈴木源太,遠藤利生,“映像からの人の様々な行動を認識する「行動分析技術Actlyzer」,”人工知能学会全国大会2020,4Rinl-57, Oct. 2020.
(6) https://pr.fujitsu.com/jp/news/2020/05/26.html(2020年5月26日参照)
(7) 雷 旭穎,高良雄一郎,小林俊輔,横尾 郁,中川 章,“Rate-Distortion理論に基づいたオートエンコーダによる深層特徴圧縮に関する検討,”画像符号化シンポジウム2020, P1-A-3, Nov. 2020.
(8) 久保田智規,中尾鷹詔,加藤正文,吉田英司,三好秀誠,“深層学習をインスタンスセグメンテーションに適用した際の予測品質が劣化する原因を解析する手法,”信学技報,SIP 2020-14, Biox 2020-14, IE 2020-14, MI 2020-14, pp.67-72, May 2020.
(9) 久保田智規,中尾鷹詔,吉田英司,久保田 真,“AI解析に適した映像データ高圧縮技術~クラウド・5Gでの利用に向けて~,”富士通テクニカルレビュー,Aug. 2020.
https://www.fujitsu.com/jp/about/resources/publications/technicalreview/topics/article003.html (2020年12月21日参照)
(10) https://kubernetes.io/ja/docs/concepts/overview/what-is-kubernetes/ (2021年1月29日参照)
(2021年1月15日受付 2021年2月15日最終受付)
■ 用 語 解 説
オープンアクセス以外の記事を読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード