人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
97回 (2023/2)
会議情報

文脈情報を用いた分割表記文字の判別
髙木 健斗乾 亮山村 毅
著者情報
会議録・要旨集 フリー

p. 38-43

詳細
抄録

SNSの投稿は様々な情報を持つため有効な情報資源である.しかしSNS上の投稿は「おいしー」や「イ牛」など新聞等で用いられる表記とは異なる崩れた表記が含まれている.そのため自然言語処理による解析が難しく,特別な処理をする必要がある.本研究では崩れた表記の中でも分割表記文字に着目する.分割表記文字とは「動」を「重力」と表記するような,1つの文字を複数の文字に分割する文字を指す.先行研究ではOCRを用いて視覚的に分割表記文字の処理を行った.しかしOCRは文字認識による分割表記文字の判別手法であるため,文脈情報を用いておらず,訂正後の文の妥当性を考慮していない.そこで本研究では文脈情報を用いた分割表記文字の判別手法を提案する.文脈情報を持つモデルとしてN-gram,RNN,BERTの3つを利用する.これらを用いた分割表記文字の判別手法を提案し,正しい文字へ変換することができるか検証する.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top