抄録
近年,新型コロナウイルスによる感染拡大が社会問題となる中,衛生上の問題からキーボードやタッチパネルといったような接触型のインターフェースではなく,非接触型のインターフェースが求められている。そこで音声操作やハンドジェスチャ操作などといった新しいイン ターフェースが注目されている。その中でもハンドジェ スチャは日常のコミュニケーションの一つとして使用さ れていることから,非接触型のインターフェースとして非常に有効であると考えられる。 動画像からハンドジェスチャを認識する手法として,オプティカルフローと静止画の情報を利用するTwo Stream Convolutional Neural Network(Two Stream CNN)による手法や,3DCNNによる手法,モーションプロセッサによる手法などが存在する。しかし既存の手法の多く は,性能の高いマシンや専用のインターフェースを用意 しなければ認識を行うことができない場合が多い。そこで本研究では,より容易にハンドジェスチャ認識を利用可能にするため,安価なエッジデバイスにてリアルタイムでハンドジェスチャ認識を行うことを目標とする。 本稿ではハンドジェスチャ認識手法として静止画像(RGB 画像)とMotion History Image(MHI)を合成した共起画像を用いて,空間的情報と動き情報の共起をCNNにより学習する手法を提案する。学習および精度検証のために,動的ハンドジェスチャデータセットの一つである 20BN-Jesterデータセットから6クラス分のデータを使用し実験を行った。