日本語AIでPubMedを検索
二重録音を用いた動物の音の分類と音源帰属のための深層畳み込みネットワーク
Deep convolutional network for animal sound classification and source attribution using dual audio recordings.
PMID: 30823820 PMCID: PMC6786887. DOI: 10.1121/1.5087827.
抄録
本論文では、適度な大きさでラベルが不完全なデータセットで学習した後、2つのストリームの音声データを用いて、ノイズの多い環境下で動物の鳴き声の発生源と種類を確実に分類することができるエンドツーエンドのフィードフォワード畳み込みニューラルネットワークを紹介する。このデータは、ペアで飼育されているマーモセット猿の音声を録音したもので、近くには他のケージがいくつかあります。本論文のネットワークは、生のスペクトログラム画像を入力として、1つのネットワークを1回通過するだけで、鳴き声の種類とどの動物が鳴き声を発したかを分類することができる。このネットワークは、マーモセットの発声の研究に興味のある研究者にとって、データ解析能力を大幅に向上させ、集団飼育された動物の家のケージ内でのデータ収集を可能にします。
This paper introduces an end-to-end feedforward convolutional neural network that is able to reliably classify the source and type of animal calls in a noisy environment using two streams of audio data after being trained on a dataset of modest size and imperfect labels. The data consists of audio recordings from captive marmoset monkeys housed in pairs, with several other cages nearby. The network in this paper can classify both the call type and which animal made it with a single pass through a single network using raw spectrogram images as input. The network vastly increases data analysis capacity for researchers interested in studying marmoset vocalizations, and allows data collection in the home cage, in group housed animals.