人工知能学会全国大会論文集
Online ISSN : 2758-7347
第36回 (2022)
セッションID: 4C1-GS-7-03
会議情報

3D CNN Transformer による手話認識
*高橋 亮太斎藤 博昭
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究では、アルゼンチンの孤立手話データセットLSA64に関する3種類のテストを行い孤立手話認識モデルの頑健性を包括的に検証した。孤立手話認識とは入力動画に手話が1つだけ含まれる手話認識であり、テストデータに含まれる話者が既知かどうかで話者依存手話認識と話者独立手話認識に分けられる。提案手法である3D CNN Transformerのハイパーパラメータについて、クロスバリデーションにより最適な3D CNNのカーネルサイズとTransformer Encoderのレイヤー数を探索した。実験の結果、話者依存テストで98.4%の正解率を、話者独立テストで94.4%の正解率を達成した。話者依存テストの認識精度は、3D CNN と ConvLSTM を用いた先行研究の認識精度 98.50 % と同等である。話者独立テストの認識精度は、RGBとオプティカルフローの両方を入力としてCNNとLSTMで分類した先行研究の認識精度94 %と同等以上である。これらの結果より、動画像処理である手話認識においてもTransformerがLSTMに置き換わる時系列処理モジュールとして有効であることが分かった。

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top