日本語AIでPubMedを検索
光フローと重み付け和を用いたマルチプルストリーム深層学習を用いた行動認識の高度化
Enhanced Action Recognition Using Multiple Stream Deep Learning with Optical Flow and Weighted Sum.
PMID: 32668715 DOI: 10.3390/s20143894.
抄録
近年,3次元(3D)畳み込みとマルチプルストリーム構造を利用した様々なアクション認識手法が提案されているが,既存の手法では,背景ノイズやオプティカルフローノイズの影響を受けやすいため,動画フレーム内の主要な物体を学習することができない.しかし、既存の手法は、背景ノイズやオプティカルフローノイズの影響を受けやすく、ビデオフレーム内の主要な物体を学習することができない。さらに、複数のストリームを結合する処理において、各ストリームの精度を反映させることができないという問題があった。本論文では,光フローを用いた既存の手法を改良し,マルチストリーム構造を用いた新規な行動認識手法を提案する.提案手法は以下の2つの部分から構成される。(i)画像セグメンテーションを用いたオプティカルフロー強調処理と、(ii)精度の加重和を適用したスコア融合処理の2つの部分から構成される。エンハンスメント処理を行うことで、ネットワークが光フローフレーム内の主対象物のフロー情報を効率的に解析することができ、精度を向上させることができる。提案したスコアフュージョン手法を用いながら、各ストリームの異なる精度をフュージョンされたスコアに反映させることができる。UCF-101では98.2%、HMDB-51では82.4%の精度を達成した。提案手法は、ネットワーク構造を変更することなく、多くの最先端の手法を凌駕しており、他のネットワークへの適用が容易になると期待される。
Various action recognition approaches have recently been proposed with the aid of three-dimensional (3D) convolution and a multiple stream structure. However, existing methods are sensitive to background and optical flow noise, which prevents from learning the main object in a video frame. Furthermore, they cannot reflect the accuracy of each stream in the process of combining multiple streams. In this paper, we present a novel action recognition method that improves the existing method using optical flow and a multi-stream structure. The proposed method consists of two parts: (i) optical flow enhancement process using image segmentation and (ii) score fusion process by applying weighted sum of the accuracy. The enhancement process can help the network to efficiently analyze the flow information of the main object in the optical flow frame, thereby improving accuracy. A different accuracy of each stream can be reflected to the fused score while using the proposed score fusion method. We achieved an accuracy of 98.2% on UCF-101 and 82.4% on HMDB-51. The proposed method outperformed many state-of-the-art methods without changing the network structure and it is expected to be easily applied to other networks.