主催: 人工知能学会
会議名: 第97回研究会言語・音声理解と対話処理研究会
回次: 97
開催地: 東海大学湘南キャンパス
開催日: 2023/03/08 - 2023/03/09
p. 38-43
SNSの投稿は様々な情報を持つため有効な情報資源である.しかしSNS上の投稿は「おいしー」や「イ牛」など新聞等で用いられる表記とは異なる崩れた表記が含まれている.そのため自然言語処理による解析が難しく,特別な処理をする必要がある.本研究では崩れた表記の中でも分割表記文字に着目する.分割表記文字とは「動」を「重力」と表記するような,1つの文字を複数の文字に分割する文字を指す.先行研究ではOCRを用いて視覚的に分割表記文字の処理を行った.しかしOCRは文字認識による分割表記文字の判別手法であるため,文脈情報を用いておらず,訂正後の文の妥当性を考慮していない.そこで本研究では文脈情報を用いた分割表記文字の判別手法を提案する.文脈情報を持つモデルとしてN-gram,RNN,BERTの3つを利用する.これらを用いた分割表記文字の判別手法を提案し,正しい文字へ変換することができるか検証する.