画像電子学会誌
Online ISSN : 1348-0316
Print ISSN : 0285-9831
ISSN-L : 0285-9831
論文
複数Transformer Encoderの統合による骨格座標ベース手話認識
竹田 詩韻張英 夏向井 信彦
著者情報
ジャーナル 認証あり

2024 年 53 巻 3 号 p. 166-172

詳細
抄録

手話の認識は世界中で様々な研究が行われており,特に,RGBベースの手法は高い認識精度を達成している.しかしながら,RGBベースの手法は背景までを特徴量として学習する手法であるため,異なる背景下では精度が低下するという問題がある.また,画像全体を入力とした手法では,手や腕の動きといった局所的な特徴を捉えることができない.そこで本研究では,背景情報の影響を除去し大域的および局所的な特徴を捉えるため,複数のTransformerのエンコーダを用いた骨格ベースの深層学習モデルを用いることで手話認識の精度向上を図る.Mediapipeで取得した骨格座標を上半身+両手,上半身および左右の手に分割し,個別に学習を行って学習済みモデルを作成する.学習用データセットにはアメリカの手話データセットWLASL(Word-Level American Sign Language)を使用して実験を行った結果,テストデータの認識精度はカラー画像ベースの手法を上回り,提案手法の有効性を確認することができた.

著者関連情報
© 2024 一般社団法人 画像電子学会
前の記事 次の記事
feedback
Top