抄録
本研究ではスピーチシーンにおいて映像情報から話者の動作を自動的に解析し、スピーチ指導に役立つ指標を抽出することを目的としている。これまで Active appearance model により検出された顔特徴点を用いて頭部姿勢を推定することで、頭部姿勢が新たな評価指標として利用可能か検討した。一方、スピーチシーンの評価項目にはアイコンタクトがあるため頭部姿勢を既存の評価指標と比較するには目を検出し、目の動きを解析できることが望ましい。そこで本稿では目位置の検出に取り組む。画像中から目を検出する研究は古くから取り組まれているが本稿では近年注目されているConvolutional Neural Network(CNN)を用いた手法を検討する。スピーチシーンに対してCNNを適用し、その有効性を示す。