本研究では,視覚情報からそれを説明するテキストを確率的に生成する手法を提案する.視覚情報として,Kinectカメラによって捉えられた人の動きの時系列データを採用した.得られた時系列データは,数段階の次元圧縮手法を経たのち,機械学習に適した形に成形される.その後,処理された時系列データとそのデータの示す動作の中間表現のベアに対して,線形対数モデルを用いた機械学習を行う.テキスト生成のための言語資源としては,人の動作のさまざまな言語表現を収集し,それぞれの動作に対して構築されたバイグラムモデルを使用する.本手法では,観測された時系列データから中間表現を選択し,選択された中間表現に対応したバイグラムモデルを選択し,さらに選択されたバイグラムモデルに動的計画法を適用することでテキストを生成する.