本論文では,テキスト音声合成の中でも特にEnd-to-End音声合成時代に向けた大規模日本語コーパスROHANを提案する。ROHANは常用漢字すべてを網羅しつつ,日本語文章では出現しにくいモーラを一定数含めるモーラバランスを重視している。オリジナルのコーパス文4,600文を22のサブセットとして構築しており,パブリックドメインのライセンスで公開している点も,本コーパスの特色である。本論文では,ROHANの設計コンセプトと具体的な作成手順を示し,各モーラの出現回数やコーパス文の平均モーラ数などの解析結果を示す。モーラ出現頻度に関するエントロピー,及び音素の拡張エントロピーによる評価から,既存のコーパスよりもモーラ・音素バランスに優れていることも示す。
本論文では,電話を通して録音された日本語発話音声を用いたテキスト独立型話者照合実験の結果を報告する。法科学において,電話を通じて録音された音声による話者照合技術は有効なものであり,効果的に活用するためには,電話録音の影響,雑音による影響,年齢や性別等の話者特性,更に,近年の生活環境の変化により身近なものとなっているマスクの影響を分析することが重要である。近年,DNNを用いた話者照合手法が報告されていることから,この技術を用いた話者照合実験を行い,録音条件や話者特性が照合結果に及ぼす影響を分析した。電話録音した113人の音声の照合実験ではEER=0.28%であった。また,テスト音声に付加する雑音がSNR=15dB以上であればEER=2%以下,発話時間が5秒以上であればEER=1.5%以下であった。更に,マスク着用や年齢及び性別の話者特性は話者照合に影響を与えないことが分かった。