抄録
ポピュラー音楽のボーカルメロディから,聴きやすさを考慮した自動歌詞生成についての研究を行った.歌詞については散文的意味に加え,音楽的な要素の双方を同時に考慮する必要がある.そのため生成段階においても評価段階においても困難な課題であると言える.本稿では人間の手助けを必要とするサポートシステムという形ではなく,ボーカルメロディを入力するだけで言語モデルが自動的に歌詞を出力するシステムを構築する.人間による解析を用いることなく,データを学習してメロディに対して柔軟性を持った歌詞生成することを目指した.具体的には音符列をシーケンスとみることにより,機械翻訳によく用いられるseq2seqとTransformerを適用した.評価には単語密度という簡易版の尺度を導入するとともに,各言語モデルが出力した歌詞をソフトウェアで音声合成し,7人の被験者による主観評価で,聴きやすさ,意味,全体的なクオリティについての評価を行った.また,データ数による学習到達度の違いにも簡易的に評価して考察した.全ての手法でテスト曲の歌詞生成時にある程度の言語的な乱れが見られたが,その中ではTransformerが最もメロディに応じた自然な歌詞を生成した.