抄録
ソーシャルメディアが社会の基本的なインフラの1つとなり,ソーシャルメディア上のテキストを用いた研究も多く発表されている.ソーシャルメディアの特徴として,投稿テキストが投稿者に紐づいている点があるが,この性質を利用した研究は少ない.本稿では,投稿者の情報を利用して,日本語形態素(語)の頻度(語出現数)だけでなく,何人が使用したという統計(語使用者数)という概念を導入する.語使用者数を用いることで,少数の個人が頻回に使用して語出現数の多くを占めるといったバイアスを抑えることができ公平な語の統計が得られる.本稿では,語使用者数から日本語の使用の偏りや標準的な語について議論を行う.