主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
日本語文章においては、句読点の挿入位置により文脈の意味が異なる場合があり、句読点の挿入位置は非常に重要である。近年ではSNS等の書き込みでは句読点を省いたり、また音声認識においては句読点が取れない場合など、句読点を自動補完する必要がある場合も多い。 本研究では、深層学習を用いることによりテキスト情報のみからの句読点の自動補完を行う一般的な手法を作成することを目的とする。提案する手法は、出現頻度の低い単語を品詞に置き換えて作成したコーパスから、句読点が存在するかどうかを推測する位置の前後の単語列にLSTMを用いて、句読点が存在するか否かの3値分類を行う。 その際、モデルから出力される確率に閾値をもうけ、閾値で予測の調整を行うことで分類の精度を向上させるものである。また、入力の単語数を制限し品詞に置き換えることで計算精度を落とすことなく計算時間の短縮できることがわかった。この手法を用いることで、放送用原稿をテキストコーパスとして用いた実験から、本手法の有効性を確認した。