電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
解説
ドメイン知識を利用した環境音分析
Environmental Sound Analysis Utilizing Domain Knowledge
A bstract
音声や楽音に限らないあらゆる音を分析し,音の発生場所や周囲の状況,音の種類や発生時刻などを分析する技術は環境音分析と呼ばれている.本稿では,環境音分析で扱われる主要な問題設定について概説した後,環境音のドメイン知識を活用した分析技術の研究事例について,筆者らの取組みを交えながら紹介する.
キーワード:環境音分析,音響イベント検出,音響シーン分類,ドメイン知識
環境音分析(ESA: Environmental Sound Analysis)とは,音声や楽音に限らないあらゆる音を分析する技術であり,補聴器の高度化,高齢者や乳幼児の見守りシステム,メディアコンテンツへのタグ付与,工場における機器の自動監視,ライフログの自動生成,自動運転など様々なアプリケーションへの応用が期待されている.環境音分析は音声や画像など他のメディア分析手法と共通する部分が多く,特徴量抽出器や深層学習ネットワークにおいて類似した手法が用いられている.一方,環境音分析は様々な性質を持つ音を対象とするため,音声や楽音分析で見られるような時間周波数領域における特徴に着目した分析手法が使えない.そのため,環境音ならではの特徴,つまり環境音のドメイン知識を活用した手法を実現することは,環境音分析の進展に大きく寄与する.しかしながら,環境音のドメイン知識を活用した分析手法の検討例はまだ少なく,それらを整理した文献も見当たらない.
そこで本稿では,環境音分析で扱われる主なタスクを紹介した後,環境音が有するドメイン知識について整理する.とりわけ,本稿では環境音のドメイン知識として,音が収録された状況や場所に依存して発生する音響イベントが大きく変わる性質や,特定の音響イベントが共起しやすい性質について詳細に議論し,その後,環境音の特徴を活用した分析技術について紹介する.
環境音分析の中でも最もよく取り組まれるタスクとして,音響シーン分類(ASC: Acoustic Scene Classification)が挙げられる.図1のように,音響シーン分類は,あらかじめ決められたクラスの中から,入力された音を最もよく表す音響シーンを一つ推定する.ここで,音響シーンとは音が収録された場所や状況,周囲にいる人の行動を表す.機械学習に基づく音響シーン分類は,モデルとそのパラメータを用いて以下のように定式化される.
(1)
ただし,及び,はそれぞれ,音響シーンのクラスインデックス及び音響シーンクラスに対するモデルの出力,音響特徴量を表す.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード