抄録
自動採譜とは、主に音響を楽譜等の記号表現に変換することであり、音楽情報処理の分野における主要なタスクのひとつである。その中の一つである自動ドラム採譜は、様々な打楽器で構成されるドラムセットに焦点を当て、どの楽器がどのタイミングで叩打されたかを検出し、記号化するタスクである。従来の研究では、主に音響のみを入力として、自動採譜の処理をしている。しかし、音響のみを入力とする手法では、ポリフォニックな楽器の採譜や、バックグラウンドノイズが存在する環境下で録音された音響の採譜が困難となる場合が多い。解決方法の一つとして、楽器を演奏している様子を撮影した映像の視覚情報から自動採譜することが考えられる。そこで、本研究では、ドラムセットの中でも主要な楽器の一つであるスネアドラムに焦点を絞り、その無音演奏動画からモノフォニックな条件下で、叩打タイミング検出の可能性を検討する。具体的な方法としては、まず、叩打タイミングの画像と非叩打タイミングの画像を用いて、事前学習済みのResNet-18を2値分類モデルにファインチューニングする。そして、評価データの分類精度や最終層出力を検証する。検証実験の結果、叩打タイミングを高い精度で検出することが可能であることを示した。