近年では人工知能の活用として、Siriのような音声アシスタントが人々の生活に便利をもたらしている。しかし、話すことのできない聴覚障害者にはそれを使用することができず、課題となっている。その解決策として深層学習を使ったジェスチャー認識モデルが開発されている。しかし、先行研究では画像からジェスチャーを認識する研究や3D-CNNもしくはCNN+LSTMを使って動画からジェスチャーを認識する研究が多く、メモリ使用量が多い。これらの問題に着目し、本論文ではTransformerを使ったジェスチャー認識モデルDGT-STAを提案する。Attention moduleを使用することで浅層ニューラルネットワークで3D-CNNを超える精度に達成でき、他のAttention moduleを使用したモデルよりメモリ使用量を50.91%まで削減した。また、本論文ではモデルの学習を行うために日本手話のデータセットを作成し、DGT-STAの評価を行った。最後に、本論文ではIoT エッジ端末におけるDGT-STAの実装可能性を検証した。