図書紹介　『Rによるテキストマイニング入門 第2版』

師 茂樹

doi:10.1241/johokanri.60.612

書誌情報

『Rによるテキストマイニング入門第2版』
石田基広著
森北出版，2017年，菊判，183p.，2,600円（税別）
ISBN 978-4-627-84842-9

今や私たちの生活のなかで，Web検索エンジンを使わない日はないだろう。検索エンジンでは，たとえば「○×大学」のような検索語を入力すれば，自動的に「○×大学偏差値」のような検索語候補を推薦してくれる。またSNSでは，自分の発言や「いいね」を押した記事に対応した記事や広告が表示される。これらはどのような仕組みで動いているのだろうか。筆者は大学教員をしているので，日常的にこれらのサービスに触れているであろう大学生（文系）たちにこの質問を投げかけることがあるが，その仕組みについてはほとんど知らない（というより，あまりにも当たり前過ぎて，問題意識をもつことすらないようだ）。

ここ20年ほどで，日本でもメディアリテラシーという言葉が普及し，マスメディアを批判的に読もうとする人々が増えてきた。学生の中には「新聞報道は偏っている」といったことを述べる者もいる。しかし現在，ニュース記事を最も配信しているのはSNSである。そのSNSがどのように記事を選び，ユーザーに届けているかを知らなければ，現代におけるメディアリテラシーとしては不十分であることは言うまでもない。

大量の情報があふれる現在の情報社会の裏で，人々と情報とを結びつけるのに用いられているのが本書で解説されている自然言語処理やテキストマイニングとよばれる技術である。もちろん，何十億というユーザーを相手にしている検索エンジンやSNSが用いている技術と，本書で紹介されている個人レベルのソフトウェア（RやMeCab）で用いられている技術には，大きな違いがある。しかし，本書で解説されているさまざまな分析モデルを，実習を通して一通り学ぶことで，現代の情報メディアを批判的にみるための基礎教養は身に付くだろう。

テキストマイニングは，人々が書き残した大量のテキストの中から，何らかの知見――できれば，人間が普通に読んでも気づかないような知見――を効率的に「発掘」するための技術であり，個人レベルでも大いに役立つ技術である。本書で紹介されているように，消費者のクレームやアンケート調査から，人々が求めている要望を自動的に導き出したり，SNSに投稿された口コミ情報からユーザーの傾向を要約的に見いだしたりすることができる。

人文科学の分野では，従来，文献を一文字一文字丹念に読み解いていく精読（close reading）が主要な方法であったが，それだけでは近視眼的な読み方しかできないのではないか，という批判もなされてきており，海外では多くの文献を俯瞰（ふかん）的に眺めるための遠読（distant reading）という方法も提案されている。本書では人文科学的なテキストの分析方法についても紹介されており，世界的な研究動向にキャッチアップするための糸口ともなるであろう。

筆者は，すべての人が本書で紹介されている技術を用いる必要はないと思っている。しかし，それを用いない人であっても，本書の内容は教養として知っておくべきではないかと思っている。本書は，文系の人が独学をするためにはやや説明が簡潔過ぎるかもしれないが，大学の授業などで，実際に手を動かしながら学んでいくことで，実践的な方法と批判的な視座を手に入れることができるだろう。

（花園大学　師茂樹）

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）