2024 年 36 巻 1 号 p. 582-588
本研究では,少数言語のテキストを対象としたNPYLMによる単語分割を検討する.少数言語のテキストは言語に関する事前知識・データ量が不足しており,従来の単語分割法の適用が難しい.特に,従来法の一つであるNPYLMは事前知識を用いずにテキストの単語分割を行うが,学習データが不足する場合はテキストを過剰に分割しがちであった.そこで,学習データが不足するNPYLMによる過剰分割を改善するため,NPYLMの2段階適用を提案した.提案法では,与えられたテキストを1回目のNPYLMで学習し,置き換え候補を得る.続けて,与えられたテキスト内の置き換え候補の語を1文字に置き換える.最後に,2回目のNPYLMの学習を行い過剰分割を軽減した分割結果を得る.実験より,適切に置き換え割合を設定することで英語,日本語,少数言語の過剰分割の改善を確認した.結果より,提案法は言語に依存せず過剰分割を軽減できるといえる.