抄録
ディジタル文書に対する著作権侵害は大きな問題となっている.Web上に存在する文書は誰でも閲覧することができ,その内容を取り込んだ剽窃文書を作成することは容易である.著作権所有者はそのような剽窃文書を検出する必要があるが,語句を言い換えたり,語順を変更するなどの改変を加えた剽窃文書を発見することは容易ではない.本研究では,著作権侵害が疑われる文書の候補を収集することを目的とする.文書中の語句の共起度の分布を検証して,同意語を抽出することで,特定の状況における語句の言い換えに対応した剽窃文書発見手法を提案する.