抄録
近年の深層学習技術の発展・普及により、膨大な映像から、その内容に関する詳細かつ網羅的なデータが抽出可能となった。動物の行動研究においても、目視での観察では困難な、連続的で詳細な行動データが得られると期待される。しかし、学習に用いるデータの量・質などに起因するデータの精度など、実用上の課題も多い。動物園は同一個体の長期的な撮影が可能な一方で、解析に適した映像の撮影は困難であることも多く、このような技術を活用するための方法論が期待される。
発表者らは、京都市動物園で飼育しているニシゴリラ4頭を対象として、深層学習技術により得られるデータの行動研究における利用可能性の評価を試みている。まず、京都市動物園のゴリラ舎の観覧者通路からグラウンド方向に監視カメラ(Axis社 M1065-L)を設置し、日中継続的に映像を記録した。フレームレートは30fpsとした。次に、映像の各フレームを入力とし、各個体の頭、首、両手足等、骨格を構成する身体上の18点の画面上の座標データを出力とする機械学習モデルを作成した。作成には、DeepLabCut 2.3.5を使用した。そして、このモデルを記録された映像に適用し、各フレームに写っている個体ごとに、18点の座標の時系列データを抽出した。入力映像は、2022年3~4月の11日分の映像から動きのある箇所を抽出して使用した。
このデータに基づき、各個体の姿勢を表現する17ベクトルからなるスケルトンデータを算出した。このデータを対象としてk-means法によるクラスター分析を行ったところ、梁上での移動シーンを含む映像のデータが同じクラスターに分類されるなど、記録された行動が抽出したデータに一定程度反映されていることが示唆された。一方、個体の識別間違いや検出漏れに加え、背景からの誤検出など動物園環境の課題も見られた。