複数Transformer Encoderの統合による骨格座標ベース手話認識

竹田 詩韻; 張英 夏; 向井 信彦

doi:10.11371/iieej.53.166

抄録

手話の認識は世界中で様々な研究が行われており，特に，RGBベースの手法は高い認識精度を達成している．しかしながら，RGBベースの手法は背景までを特徴量として学習する手法であるため，異なる背景下では精度が低下するという問題がある．また，画像全体を入力とした手法では，手や腕の動きといった局所的な特徴を捉えることができない．そこで本研究では，背景情報の影響を除去し大域的および局所的な特徴を捉えるため，複数のTransformerのエンコーダを用いた骨格ベースの深層学習モデルを用いることで手話認識の精度向上を図る．Mediapipeで取得した骨格座標を上半身+両手，上半身および左右の手に分割し，個別に学習を行って学習済みモデルを作成する．学習用データセットにはアメリカの手話データセットWLASL（Word-Level American Sign Language）を使用して実験を行った結果，テストデータの認識精度はカラー画像ベースの手法を上回り，提案手法の有効性を確認することができた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）