2021 Volume 5 Article ID: 2020-009
KH Coderを用いたテキストマイニングにおいて,筆者らが試みた具体的な分析手順や注意点を交えながら述べる.2018年に実施した化学構造式研修会の受講者を対象として,選択式および自由記述式の項目からなるアンケート調査を実施し,アンケート用紙から得られた自由記述中の語句の関係を検討するために共起ネットワーク分析を行った結果,研修内容に対する理解度にばらつきが生じていることが示唆された.理解度の差による自由記述内容の違いについて検討するため,自由記述内容と研修に対する自己評価による理解度との対応分析を行った結果,理解できた点および理解できなかった点に関する自由記述内容は,受講者の自己評価による理解度別で異なっており,我々が想定した各テーマの難易度と,受講者が実感した各テーマの難易度は一致していたことが示唆された.テキストマイニングを行う際には,実施者が明らかにしたい意図に応じて分析手法を使い分けたり組み合わせたりすることにより,テキストデータのより深い解析が可能となると考えている.
In this review, practical examples of quantitative text analysis using KH Coder are described, along with basic procedures and cautions. We conducted a questionnaire on workshop participants training in the clinical application of chemical structural formulas. First, a co-occurrence network analysis examined the relationship between free words and phrases describing the training contents. The results suggested that the degree of participant understanding of the training content varied. Next, we performed a correspondence analysis to examine the difference between the contents of the free descriptions and the varied degree of understanding. The free descriptions of what they understood and did not understand were related to the degree of understanding in the participants’ self-evaluation. This result suggested that the training’s predicted difficulty level was similar to the difficulty level perceived by the participants. It was found that text mining analysis can be tailored to the researcher’s objectives by combining several analysis methods.
教育の実践において,受講者の理解度把握およびフィードバックを得るために,選択式あるいは自由記述式のアンケートを行うことが多い.このようなアンケートからは,量的あるいは質的なデータを取得できるが,これらのデータを適切に分析し,活用できていない事例も多い.教育研究は,質的データを用いた質的研究と,量的データを用いた量的研究に大別されるが,これらの研究手法自体に優劣はなく,どのような手法を用いて研究を行うかは,研究者の興味や関心により決定される1).一般論として,量的研究では大量のデータ処理を行うことで得られた結果の客観性は高まるが個々を詳細に把握することが難しく,質的研究では個々を詳細に把握することができるが得られた結果の客観性や実用性は高くない.そこで近年は,両方の研究手法を併用した混合研究が導入され,そのうちの一つにテキストマイニングがある2).
テキストマイニングとは,大量の文書(テキスト)から知見を引き出す(マイニング)のを助ける技術3) であり,質的研究と量的研究の両方の性質を併せ持つ手法である.質的研究は一度に大量のデータを処理することが難しく,また分析者の解釈および主観が得られる結果に影響をおよぼすが,テキストマイニングではテキストの要約に相当する作業をコンピュータにゆだねることによって再現性が保証(同じ分析手法を適用すれば同じ結果が得られる)され,分析結果の客観性が高まる3).その一方で,大量のデータ処理により少数の重要な意見を見落としたり,文脈が消失することで誤った解釈をする可能性があるため,解析後は可能な限り原文に戻り,情報の見逃しや誤った解釈がないか,繰り返し確認することが重要である.
テキストマイニングでは,テキスト型の質的データから自動的にデータを抽出(形態素解析)した後,様々な多変量解析を行うことで,類似性および関連性の抽出や規則性の探査などができ,客観的な概念構築や組織化を図ることが可能となる.多変量解析の例として,共起の程度が強い抽出語(出現パターンの似通った抽出語)を線で結んだネットワーク図を描画する共起ネットワーク分析や,抽出語と外部変数(テキストデータに含まれていない情報)との関連や各変数間の関連を探索する対応分析4) などがある.
近年は複数の分析用ソフトウェアが開発されているが,最も汎用されているフリー・ソフトウェアの一つとしてKH Coder5) が挙げられる.KH Coderを用いたテキストマイニングにおいて,より正確な結果を得るためには,繰り返しデータ整理を行うことが重要である6).例として,i)「重要」と「大事」,「理由」と「理屈」など表記の異なる同義語は,それらの抽出語が実際の文脈の中でどのように使われているのか原文を確認し,同じ意味で用いている場合は統一する(表1),ii)「わかる」と「分かる」,「よい」と「良い」などが別の語として抽出された場合,漢字で表記できる語は漢字に変換する(表1),iii)文章中では「血症」や「脂溶性」として用いた語が「血」や「脂」のように過分割して抽出された場合は「血症」や「脂溶性」などを一語として強制抽出する(表1),iv)テキスト中の明らかな誤表記は修正する,などの処理を行うことで,より適切なデータが得られる.また,受講者が自由記述で「分からない」と回答した場合,形態素解析により「分かる」と「ない」という語が抽出される.この場合「分かる」という抽出語だけを考慮すると誤った解釈が生じる可能性があるため,全ての自由記述内容は目視で確認する必要がある.これらのデータ整理の作業は,コンピュータによる自動的な処理では対応できず,目視による確認が必須となる.また,作業の一部では分析者の解釈も入るため,複数人で確認しながら実施することが望ましい.
データクリーニングが完了した後,多変量解析を行う.例として,2018年に我々が実施したテキストマイニングを用いたアンケート解析のデータ7) の一部を以下に示す.2018年に実施した化学構造式研修会では,臨床現場で有機化学や化学構造式の知識を活用できるようになることを目的として,前半から後半にかけて難易度を上げる構成で組んだ全6つのテーマ(図1)に沿って講演および演習を行った7).研修会終了後に,受講者計253名を対象として選択式および自由記述式の項目からなるアンケート調査を実施し,回答の得られた213名(解析率84.2%)のアンケートの自由記述で用いられた語句が,どのような関係で使用されているのかを視覚的に捉えるために,KH Coderを用いて共起ネットワーク分析を行った.自由記述は,化学構造式研修会の内容で「理解できたこと」および「理解できなかったこと」に関してそれぞれ回答させた7).茶筌を用いた形態素解析により得られた抽出語(表2)についてそれぞれ共起ネットワーク分析を行い,出現回数の多い抽出語ほど大きい円で描画するバブルプロットで描画した(図2).理解できたことの自由記述内容を共起ネットワーク分析したネットワーク図から,互いに強く結びついている抽出語のグループとして,「臨床での問題解決に有機化学が大切」という本研修の目的である基礎と臨床を繋げる視点を含んだ語のグループや,「エステルの加水分解とトランスポーターの存在」という我々が中程度の難易度と想定したテーマに関する語のグループを抽出した(図2A).一方,理解できなかったことの自由記述内容のネットワーク図では,「有機化学を習ったのは数年前で思い出すのに時間が必要」という有機化学に対する初歩的な知識が欠落していることが予想される語のグループや,「トランスポーターと吸収の関係」という中程度の難易度と想定したテーマに関する語のグループを抽出した(図2B).これらの自由記述内容の共起ネットワーク分析により,いくつかの語のグループが抽出されたが,理解度が低いことが予想されるグループ(初歩的な内容の抽出語から構成)から,理解度が高いことが予想されるグループ(臨床を見据えた内容の抽出語から構成)まで,研修内容に対する理解度にばらつきがあることが予想された.そこで,受講者の理解度別の自由記述内容の評価が必要であると考えた.
化学構造式研修会の概要
(A)理解できたこと | |||||
---|---|---|---|---|---|
抽出語 | 回数 | 抽出語 | 回数 | 抽出語 | 回数 |
構造 | 40 | 見る | 3 | 感じる | 2 |
吸収 | 24 | 原因 | 3 | 関連 | 2 |
代謝 | 18 | 思う | 3 | 吸入 | 2 |
光線過敏 | 17 | 実際 | 3 | 業務 | 2 |
水溶性 | 15 | 存在 | 3 | 見分け | 2 |
薬 | 12 | 多い | 3 | 考え方 | 2 |
溶解 | 12 | 低カルニチン血症 | 3 | 高い | 2 |
類似 | 10 | 勉強 | 3 | 習う | 2 |
分かる | 9 | 妄想 | 3 | 消化 | 2 |
理解 | 9 | 予測 | 3 | 性質 | 2 |
副作用 | 8 | 予防 | 3 | 前半 | 2 |
考える | 7 | N, | 2 | 大切 | 2 |
脂溶性 | 7 | OH | 2 | 注目 | 2 |
良い | 7 | と | 2 | 部位 | 2 |
似る | 6 | エステル | 2 | 方法 | 2 |
イナビル | 5 | ヒント | 2 | 目的 | 2 |
プロドラッグ | 5 | ピボキシル基 | 2 | 有機化学 | 2 |
知る | 5 | ポイント | 2 | 利用 | 2 |
溶ける | 5 | モーラス | 2 | 理屈 | 2 |
トランスポーター | 4 | リレンザ | 2 | 理由 | 2 |
違い | 4 | 違う | 2 | 力 | 2 |
作用 | 4 | 加水分解 | 2 | 臨床 | 2 |
水 | 4 | 可能 | 2 | 話 | 2 |
判断 | 4 | 解決 | 2 | ||
確認 | 3 | 学べる | 2 |
n = 103
(B)理解できなかったこと | |||
---|---|---|---|
抽出語 | 回数 | 抽出語 | 回数 |
代謝 | 26 | 見る | 2 |
難しい | 10 | 始め | 2 |
理解 | 8 | 思い出す | 2 |
思う | 6 | 習う | 2 |
聞く | 6 | 詳しい | 2 |
話 | 6 | 推測 | 2 |
構造 | 5 | 前 | 2 |
少し | 4 | 全体 | 2 |
予測 | 4 | 知る | 2 |
もう少し | 3 | 知識 | 2 |
カルニチン | 3 | 低カルニチン血症 | 2 |
時間 | 3 | 特に | 2 |
副作用 | 3 | 入る | 2 |
問 | 3 | 年 | 2 |
薬 | 3 | 反応 | 2 |
溶ける | 3 | 物質 | 2 |
もう一度 | 2 | 分かる | 2 |
トランスポーター | 2 | 有機化学 | 2 |
関係 | 2 | 理由 | 2 |
吸収 | 2 | 例外 | 2 |
n = 62
自由記述の共起ネットワーク分析
(A)理解できたこと,(B)理解できなかったこと
自由記述の対応分析
(A)理解できたこと,(B)理解できなかったこと
次に,「理解できたこと」および「理解できなかったこと」の自由記述内容と,研修に対する自己評価による理解度(外部変数)との対応分析の結果から,理解度の差による自由記述内容の違いについて検討を行った7).対応分析の結果(図3),理解できた点および理解できなかった点に関する自由記述内容は,受講者の自己評価による理解度別で異なっており,我々が想定した各テーマの難易度と,受講者が実感した各テーマの難易度は一致していたことが示唆された7).詳細な結果は既出の文献に記載している通りである.これらの結果から,今後は受講者の有機化学や化学構造式の知識を事前に把握し,理解度別に受講者のグループ分けを行い,それぞれのレベルに合わせた研修内容を検討したいと考えている.
近年,質的データの活用への関心が高まっており,アンケートの自由記述およびインタビュー記録などのテキスト型データを取り扱う機会が増えている.しかし,これらのデータを適切に分析あるいは活用できていない事例も多い.我々は化学構造式研修会の受講者を対象としてアンケート調査を実施し,テキストマイニングを用いたアンケート解析(共起ネットワーク分析および対応分析)を行った.共起ネットワーク図は,出現パターンの似通った抽出語を線で結ぶことで,単に抽出語を散布図として布置する手法よりも解釈が容易な場合もある4) が,受講者の理解度に差がある場合,理解度別の意見を抽出することが難しい.研修に対する自己評価による理解度を外部変数とした対応分析により,理解度が低い受講者の問題点が明確となり,以後の研修内容改善に繋がったことから,対応分析は今回のようなケースでは有用であると考える.今回の我々の事例では,共起ネットワーク分析と対応分析を組み合わせた結果,参加者の理解度について深い解釈ができる可能性を示せた.しかし,我々の例はあくまで一例であり,実際にテキストマイニングを行う際には,実施者が明らかにしたい意図に応じて分析手法を使い分けたり組み合わせたりすることにより,テキストデータのより深い解析が可能となると考えている.
発表内容に関連し,開示すべき利益相反はない.