計量国語学
Online ISSN : 2433-0302
Print ISSN : 0453-4611
論文A
コーパス間における単語使用率の比較
観察単位(ケース)は単語か文書か
森 秀明
著者情報
ジャーナル オープンアクセス

2017 年 31 巻 3 号 p. 205-221

詳細
抄録

異なったコーパス間である単語に使用率の違いが見つかった場合,単語の頻度を使用してカイ二乗検定を行うことが一般的である.しかし単語を観察単位としたこの方法には統計的検定の前提となるランダム性の仮定を満たしていないという批判がある.そもそもある文書でどのような単語をどれぐらい使用するかは執筆者の判断に委ねられている.従ってコーパスで単語の使用率を比較するなら,執筆者の判断が反映されている文書を観察単位とするのが妥当だと思われる.そこで本稿では文書を観察単位として使用率を比較する分析法の有効性を検討した.使用率の相違は,文書度数分布の相違で説明ができる.また文書度数を使用してカイ二乗検定を行えば,その効果量によって互いの分布の差を有効に評価できる.このため使用率の比較を行うなら,単語ではなく文書を観察単位とするべきだと考えられる.

著者関連情報
© 2017 計量国語学会

この記事はクリエイティブ・コモンズ [表示 - 非営利 - 改変禁止 4.0 国際]ライセンスの下に提供されています。
https://creativecommons.org/licenses/by-nc-nd/4.0/deed.ja
前の記事 次の記事
feedback
Top