主催: 一般社団法人 人工知能学会
会議名: 2022年度人工知能学会全国大会(第36回)
回次: 36
開催地: 京都国際会館+オンライン
開催日: 2022/06/14 - 2022/06/17
本研究では、アルゼンチンの孤立手話データセットLSA64に関する3種類のテストを行い孤立手話認識モデルの頑健性を包括的に検証した。孤立手話認識とは入力動画に手話が1つだけ含まれる手話認識であり、テストデータに含まれる話者が既知かどうかで話者依存手話認識と話者独立手話認識に分けられる。提案手法である3D CNN Transformerのハイパーパラメータについて、クロスバリデーションにより最適な3D CNNのカーネルサイズとTransformer Encoderのレイヤー数を探索した。実験の結果、話者依存テストで98.4%の正解率を、話者独立テストで94.4%の正解率を達成した。話者依存テストの認識精度は、3D CNN と ConvLSTM を用いた先行研究の認識精度 98.50 % と同等である。話者独立テストの認識精度は、RGBとオプティカルフローの両方を入力としてCNNとLSTMで分類した先行研究の認識精度94 %と同等以上である。これらの結果より、動画像処理である手話認識においてもTransformerがLSTMに置き換わる時系列処理モジュールとして有効であることが分かった。