2024 Volume 40 Issue 1 Pages 18-27
Sensitivity bias (SB) is a common issue when survey respondents falsify their attitudes and behaviors in response to sensitive questions. The list experiment is an indirect measurement method that aims to circumvent SB by asking respondents to report the number of applicable items among multiple items, rather than by asking about their agreement on a sensitive item directly (DQ). Moreover, SB can be evaluated by defining it as the difference between the estimates obtained through the list experiment and DQ. Despite the methodology of list experiments being well established, little attention has been paid to the different formats of DQ. This study addresses this gap by conducting three experiments. The findings show that the selection rate of sensitive items is significantly lower when DQ is measured with the multiple-answer format (MA) compared to the single-answer format (SA). However, there is no significant difference between the selection rate with single and multiple SA. These results highlight the importance of the DQ format in evaluating SB using list experiments.
調査票を用いた研究においてセンシティブな質問を尋ねると,回答者が自分の態度を隠して異なる態度を表明したり,過去の行動を隠したりする場合がある。人種差別的な態度を持つ人がそれを調査への回答では秘匿したり,違法薬物の使用について尋ねても実際に利用している人はそれを隠匿したりすることは,社会的望ましさバイアスとしてよく知られている(Krumpal, 2013)。また,権威主義国で反政府的な態度を表明することには政治的リスクが伴うことが多いため,反政府的な態度を持つ人が敢えて親政府的な態度を表明することも,選好の偽装(preference falsification)として知られている(Kuran, 1997)。近年では,社会的望ましさバイアスや選好の偽装などによって生じる回答バイアスをセンシティビティバイアス(Sensitivity Bias:以下,SB)として統合的に理解する試みが進められている(Blair et al., 2020)。
SBが予想される場合に,バイアスを排除した推定値を得るための方法の1つとしてリスト実験(List Experiment)が挙げられる。リスト実験はItem Count法とも呼ばれ,典型的には以下のように設計される。実験参加者は統制群と処置群の2群に無作為配置され,統制群にはセンシティブではない質問項目(以下,非センシティブ項目)のリスト(通常3~5個程度)が提示される。一方,実験群に対してはこれらの非センシティブ項目に加えて1つのセンシティブ項目がリストに加えられる。統制群と処置群ともに,各項目への賛否や該当・非該当を回答するのではなく,「賛成する項目の数」や「該当するものの数」のみを回答することが求められる。このことによって,回答者は各項目への賛否を明らかにすることなく回答できるため,SBが抑制されることが期待される。統制群と処置群のそれぞれにおける「賛成する項目の数」や「該当するものの数」の平均値の差を算出することで,サンプルの何%の人がセンシティブ項目に賛意を示したり該当しているのかを推定することが可能になる。
さらに,SBの有無や程度を推定するためには,リスト実験に加えてセンシティブ項目に対する自己報告を直接求める測定(Direct Question:以下,DQ)が必要となる。DQにはSBが含まれると考えられるため,DQにおける賛成率や該当率と,リスト実験で推定された賛成率や該当率の差分を計算することで,SBの大きさを推定することが可能になる。
SBがリスト実験とDQの差分として定量化される以上,DQの測定方法は極めて重要となる。しかし,DQの測定は従来型の自己報告によるため,リスト実験の文脈では比較的注目を集めておらず,最適な測定方法に関しても定見があるとは言い難い。以下のレビューで明らかとなるように,センシティブ項目を1つの単一回答形式(Single Answer; 賛否のいずれかを選択する形式:以下,SA)で測定した研究(単独SA)や,非センシティブ項目も含めた複数のSAで測定した研究(複数SA)や,センシティブ項目と非センシティブ項目を含めた複数回答(Multiple Answer; 賛成やあてはまる項目をすべて選択していく形式:以下,MA)など,さまざまな形式で測定されている。にもかかわらず,これらのDQの測定形式の違いによるSBの推定値の違いは十分に検討されていない。したがって本研究は,リスト実験とDQの差分を用いたSBの推定において複数のDQの測定方法を比較し,それらの違いがSBの有無や程度に関する結論に及ぼす影響を明らかにすることを目的とする。具体的には,最もよく使われる単独SAと,複数SA, MAを比較し,単独SAと複数SAでは大きな違いはないが,MAはセンシティビティ項目の選択率が低くなりがちで,SBが比較的大きく推定されやすくなることを示す。
リスト実験は,違法薬物の使用,危険な性交渉の経験,偏見,権威主義体制における反政府的態度など,さまざまなセンシティブな態度や行動の測定に用いられている。Blair et al.(2020)はリスト実験のメタ分析を行い,総じてSBは10%程度,つまりDQで本来の態度や行動を秘匿する人はサンプルの10%程度と推定されるが,トピックによる違いが見られることを報告している。それによると,人種や宗教,性的志向に関する偏見ではバイアスは小さいが,権威主義体制に対する支持が過大報告されるバイアスは比較的大きく,平均して14%程度として推定されている。同様に,Ehler et al.(2021)のメタ分析によれば,SBは8.5%程度と報告されている。このように,リスト実験で推定されるSBそのものは大きくはないが,トピックによってはバイアスの検出に有効であることが示されている。また,社会科学のさまざまな分野で応用されるとともにその方法論も洗練されつつあり,非センシティブ項目の選び方(e.g., Droitcour et al., 1991),「賛成する項目の数」だけでなく「反対する項目の数」も尋ねることによる測定誤差の抑制(Tsuchiya & Hirai, 2010),推定方法の改良(Blair & Imai, 2012)などが提案されている。
SBの大きさは,リスト実験の推定値とDQを用いた推定値の差分として定量化される。したがって,SBを正確に推定するためには,リスト実験の方法論を洗練させるとともにDQの測定方法についても十分な関心が払われる必要がある。なぜなら,リスト実験による推定値を一定とすれば,DQによる推定値が低い方がSBは大きくなり,DQによる推定値が高ければSBは小さくなるためである。しかし,公刊されたリスト実験においてDQの測定方法は一貫していない。
そこでまず,1994年から2022年に出版されたリスト実験を含む論文のシステマティック・レビューを行い,センシティブ質問に対する態度をリスト実験に代表される間接的推定を用いて検討した研究において,比較対象としてどのようなDQの測定方法が用いられているかを分析した(システマティック・レビューの詳細は付録を参照)。その結果,DQの測定形式についてはリスト実験のセンシティブ項目のみをSAで尋ねる形式が主流であるが,複数SAについても一定程度用いられていることがわかった。また,MAを用いたDQ測定はまれであることが明らかになった。
しかし,近年の研究では,秦(2022)が日本人の民主主義に関する考え方を測定するリスト実験と並行して,センシティブ項目と非センシティブ項目を合わせたリストに「この中に該当する項目はない」を加えたMAによってDQを測定している2)。MAは該当する項目のみを選択するため回答コストが比較的低く,簡便に実施できるというメリットがある。さらに,多くのオンライン調査会社はリストが長くてもMAを1問としてカウントすることから,項目数に応じてコストが増加するSAよりもオンライン調査の実施コストを低く抑えることができるというメリットもある。しかし,MAの認知的コストの低さは項目ごとの認知的処理の浅さにもつながる。実際,Smyth et al.(2006, 2008)やNicolaas et al.(2015)は,SAとMAを実験的に比較し,該当する場合も該当しない場合も選択行動が必要となる前者の方が深い認知的処理が促され,「該当する」とされる項目数が多くなることを見出している。
このことは,SBの測定に大きな意味を持つ。なぜなら,SBはリスト実験の推定値とDQの推定値の差分として定義されるため,MAで測定した場合にDQでの賛成数・該当数が小さくなりがちなのであれば,リスト実験の推定値を一定とすればSBが大きく推定されがちになるためである。SAの方がMAよりも選択項目数が多くなるのであれば,センシティブ項目のDQについてもSAの方がMAよりも選択率が高くなるだろう。そこで本研究ではまず,SAの方がMAよりもDQにおけるセンシティブ項目の選択率が高くなるという予測を検証する(予測1)。
一方,前述のようにSAはDQ測定の主流であるが,単独SAと複数SAの両方が使われており,この違いは十分に検討されていない。単独SAの場合,センシティブ項目のみを尋ねるため,項目のセンシティビティが際立つ可能性がある。他方,複数SAの場合は非センシティブ項目に混ぜた形でセンシティブ項目が尋ねられるため,項目のセンシティビティが比較的目立たない可能性がある。こうした違いがあるとすれば,単独SAの方がセンシティビティがより強く認識されるために,複数SAよりも選択率が低くなることが予想される(予測2)。
本研究では,基本となるリスト実験として秦(2022)を用いる。この研究は,日本で実施されたリスト実験であり,DQ測定が含まれているため,日本データとして比較がしやすい。これに加えて,DQの測定に先行研究ではあまり用いられていないMAが採用されており,貴重な比較対象となる。以下,秦(2022)の手続きと得られた結果を紹介する。
手続き秦(2022)で用いられたセンシティブ項目は,「日本が民主主義であることはさほど重要ではない」(以下,「民主主義」)あるいは「今の日本には中国のような強権的な政治の仕組みが必要だ」(以下,「強権」)あるいは「選挙のあるなしに関係なく,いつも政治のできごとに注意を払っている」(以下,「政治関心」)の3つである。これらが,リスト実験かDQのいずれかによって測定された。目標サンプルサイズは2,500と設定され,令和2年国勢調査の性別・世代・居住地域(7ブロック)ごとに人口比に基づく割り付けを行った上で,楽天リサーチのモニター2,802名から回答を得ている3)。
参加者は以下の5条件のうち1つに無作為に割り当てられた。なお条件名についてはリスト実験をLEと表記する。
LE統制条件「以下に示す3つの内容のうち,あなた自身にあてはまる項目はどれくらいありますでしょうか。あなた自身にとって『該当する項目の数』と『該当しない項目の数』のそれぞれの個数について教えて下さい。(それぞれの内容について個別にお答えいただく必要はありません)」との教示のもと,「公共交通機関を利用する際は,いつもマスクを着用する」,「喫煙禁止区域で喫煙している人には,いつも注意をする」,「私の自認する性は男である」の3項目が提示された。回答者は「該当する項目の数」と「該当しない項目の数」をそれぞれ数値入力した。合計が提示された項目数と合致しない限りは次の質問に進むことができなかった。項目の提示順序は回答者ごとにランダマイズされた。
LE「民主主義」条件LE統制条件の3項目に,センシティブ項目として「日本が民主主義であることはさほど重要ではない」を加え,教示中の項目数を4にする以外は同様の手続きで回答を求めた。
LE「強権」条件LE統制条件の3項目に,センシティブ項目として「今の日本には中国のような強権的な政治の仕組みが必要だ」を加え,LE「民主主義」条件と同じ手続きで回答を求めた。
LE「政治関心」条件LE統制条件の3項目に,センシティブ項目として「選挙のあるなしに関係なく,いつも政治のできごとに注意を払っている」を加えて,LE「民主主義」条件と同じ手続きで回答を求める。ただし,秦(2022)では「本稿と異なる関心にもとづくため掲載は割愛」としており,分析結果は公開されていない。
DQ(MA)条件上述の3つの非センシティブ項目と3つのセンシティブ項目の合計6項目のうち「私の自認する性は男である」を除く5項目と「この中に該当する項目はない」(排他的選択肢)を一覧提示し,「以下のうち,あなたも同意できる,あるいは,あてはまる意見があれば,すべて選んでください」と教示された。回答者は項目をクリックすることで選択・回答した。
結果センシティブ項目のうち「日本が民主主義であることはさほど重要ではない」への賛成率は,リスト実験では約15.5%と推定される一方,DQ(MA)条件では約3.5%であり,両者の間には有意な差が見られた。すなわち,本項目の測定にはSBが見られたことになる。一方,「今の日本には中国のような強権的な政治の仕組みが必要だ」についてはリスト実験での推定値が約8.0%である一方,DQ(MA)条件では約2.6%であった。この差は統計的に有意ではなく,SBは確認されなかった。
本研究では,予測1を検証するために研究1と研究2,予測2を検証するために研究3,合計3つの実験を行う。研究1と研究2は事前登録を行った上で実施し,その際に登録した仮説は秦(2022)の再現性の検証を意図するものであった(OSFにおける事前登録https://osf.io/utf79参照)。しかし,その後の文献レビューによりDQの形式の違いがSBの推定に及ぼす効果を検討することの重要性が示唆されたため,前述の予測を検証することにした。そのため,本研究では事前登録した仮説の検証は行わない。また,研究3は事前登録されなかった。
研究1研究1では,秦(2022)のセンシティブ項目のうち分析結果が公開されているものを用いて,LE統制条件,LE「民主主義」条件,LE「強権」条件,DQ(MA)条件に,DQ(複数SA)条件を加えた5つの条件を設定した。
まず,LE統制条件,LE「民主主義」条件,LE「強権」条件は秦(2022)と同一の内容とした。DQ(MA)条件も秦(2022)と同様だが,非センシティブ項目2つ(「公共交通機関を利用する際は,いつもマスクを着用する」と「喫煙禁止区域で喫煙している人には,いつも注意をする」)とセンシティブ項目2つ(「日本が民主主義であることはさほど重要ではない」「今の日本には中国のような強権的な政治の仕組みが必要だ」)に「この中に該当する項目はない」(排他的選択肢)を加えた5項目を一覧提示して,回答を求めた。
DQ(複数SA)条件では,DQ(MA)条件で提示する項目のうち「この中に該当する項目はない」を除いた4項目を一覧提示し,それぞれについて「同意できない/あてはまらない」あるいは「同意できる/あてはまる」の2肢からどちらかを選択することを求めた。
2022年10月に日本国籍で日本在住の日本語話者を対象に調査を行った。各条件のサンプルサイズを500として,パネルサンプルプロバイダーLUCID Marketplace(以下,LUCID)を通して最終的に2,556名から回答を得た。割り付け方法は秦(2022)と同一であり,報酬は0.40米ドルであった。回答選択肢を指定する注意力チェック項目に適切に回答していない場合と,「好きな食べ物」に関して日本語による記述を求める質問に適切に回答していない場合(無意味文字列,数値などの回答。なお,無回答は許容していない)については分析対象から除外した。最終的に分析対象としたのは2,132名(うち男性1,066名,平均年齢50.01歳(SD 15.97))のデータである。
研究2秦(2022)と研究1では,リスト実験とDQの間に次のような違いがあった。すなわち,リスト実験では非センシティブ項目に加えて提示されたセンシティブ項目は1項目だったのに対して,DQについてはすべてのセンシティブ項目が含まれていた。しかしDQにおいてセンシティブ項目が複数同時に提示されることは,それぞれへの回答の間で干渉が生じるなど,回答行動に影響を及ぼす可能性がある。そこで,研究2では,DQにすべてのセンシティブ項目を含めるのではなく,センシティブ項目ごとにDQ(MA)とDQ(複数SA)の2種類のDQで尋ねる4条件を設定する実験を実施して,同じく予測1の検証を試みた。
DQ(MA)条件では,「私の自認する性は男である」も含む3つの非センシティブ項目と,センシティブ項目「民主主義」あるいは「強権」に,「この中に該当する項目はない」(排他的選択肢)を加えた5項目を一覧提示して,MAで回答を求めた。
DQ(複数SA)条件では,3つの非センシティブ項目と,センシティブ項目「民主主義」あるいは「強権」の4項目を一覧提示し,それぞれについて「同意できない/あてはまらない」あるいは「同意できる/あてはまる」の2肢からどちらかをSAで選択することを求めた。
2022年10月に日本国籍で日本在住の日本語話者を対象に調査を行った。各条件のサンプルサイズを500として,LUCIDを通して最終的に2,038名から回答を得た。割り付け方法は秦(2022)と同一であり,報酬は0.40米ドルであった。研究1と同じ方法で除外サンプルを決定し,最終的に分析対象としたのは1,701名(うち男性864名,平均年齢49.82歳(SD 15.94))のデータである。
研究3秦(2022)と研究1および2のSAでは,必ず非センシティブ項目とセンシティブ項目が同時に提示された。しかし,前述のレビューが示す通り,SAを用いた先行研究はセンシティブ項目のみを提示する単独SAが主流である。そこで,単独SAと複数SAの違いに関する予測2を検証するために研究3を実施した。ここでは,研究2で設定した条件のうちセンシティブ項目「民主主義」を用いて,DQ(MA)条件とDQ(複数SA)条件に,DQ(単独SA)条件を加えた3条件を設定した。DQ(単独SA)条件では,「民主主義」項目のみについて「同意できない/あてはまらない」あるいは「同意できる/あてはまる」の2肢からどちらかを選択することを求めた。なお,センシティブ項目を「民主主義」のみに限定したのは,「強権」項目では秦(2022)と研究1のいずれにおいてもSBが検出されなかったためである。
2022年12月に日本国籍で日本在住の日本語話者を対象に調査を行った。各条件のサンプルサイズを500として,LUCIDを通して最終的に1,561名から回答を得た。割り付け方法は秦(2022)と同一であり,報酬は0.40米ドルであった。研究1と同じ方法で除外サンプルを決定し,最終的に分析対象としたのは1,322名(うち男性687名,平均年齢49.36歳(SD 15.46))のデータである。
リスト実験は,処置群と統制群の間で,非センシティブ項目に対する回答の仕方が変わらないことを仮定している(No design effectの仮定)。しかし,たとえば回答者が複数の項目を比較することで賛否を決めていたりすると,センシティブ項目の有無によって非センシティブ項目への反応が群間で異なりうる。リスト実験を含む研究1でこの仮定が満たされていることを確認するため,Blair & Imai(2012)の方法を用いてデザイン効果の検定を行った。Blair & Imai(2012)によるデザイン効果の検定は,(a)センシティブ項目を加えた処置群での項目選択数は統制群の選択数よりも大きくなるが,(b)その差は最大でも1である,という帰無仮説が棄却されるかを検討する。「民主主義の重要性」をセンシティブ項目として用いた場合のp値は0.99(ボンフェローニ補正後),「権威主義政治の必要性」をセンシティブ項目として用いた場合のp値は0.75(ボンフェローニ補正後)であり,いずれも有意なデザイン効果は検出されず,No design effectの仮定は満たされた。
センシティブ項目「民主主義」の分析研究1~3の結果について,センシティブ項目ごとに推定値を図示する。まず,センシティブ項目「民主主義」についての推定結果をFigure 1に示した。DQ条件については,センシティブ項目「民主主義」への賛成率を示している。リスト実験については,統制条件と処置条件における項目選択数の差分から最小二乗推定を行うDifference-in-Means(DiM)推定法と,最尤法(Maximum Likelihood:以下,ML)を用いた推定(Imai, 2011)の2種類の推定を行った。DiM推定方法では,LE「民主主義」条件における項目選択数とLE統制条件の項目選択数の差分が賛成率となる。具体的には,項目選択数を従属変数とし,条件のダミー変数(0:LE統制条件,1:LE「民主主義」条件)を独立変数とした回帰モデルを最小二乗法で推定した場合の回帰係数が賛成率の推定値となる。ただし,DiM推定では賛成率の点推定値やその信頼区間が0~100%の範囲を超えることがあり得る。そこで,点推定値や信頼区間が0~100%の範囲を超えないような制約を加えた上でより効率的な推定を最尤法で行うのがML推定である。いずれも独立変数は実験条件のみであり,共変量は用いなかった。
リスト実験におけるセンシティブ項目「民主主義」への賛成率の推定値はDiMとML間でほぼ同じで,約24%であった4)。リスト実験の推定値はDQの推定値よりも95%信頼区間が大きく,先行研究が指摘するように推定の精度が低いことが示された。
次に,各条件間の賛成率の差を検定するが,以下に述べるように研究1のデータ内では合計5回(DQ(MA)とDA(複数SA)の比較,DQ(MA)とリスト実験(DiM),DQ(MA)とリスト実験(ML),DQ(複数SA)とリスト実験(DiM),DQ(複数SA)とリスト実験(ML))の検定が行われる。したがって,ボンフェローニ法により有意水準を1%に補正して検定を行い,ブートストラップ法では99%信頼区間を推定した。
まず,秦(2022)と同様のDQ(MA)条件では,賛成率は約9%と推定された。したがって,DQ(MA)条件とリスト実験(DiM)の推定値の間には14.89%の差があり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[0.53%, 29.79%]は0%を含んでいないため,この差は統計的に有意であった。同様に,DQ(MA)条件とリスト実験(ML)の推定値の間には14.84%の差があり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[1.23%, 26.36%]は0%を含んでいないため,この差は有意であった。これらの結果は秦(2022)を再現する結果であった。すなわち,MAによってDQを測定した場合には,「日本が民主主義であることはさほど重要ではない」という項目への回答にSBが見られると結論付けられた。DQ(MA)条件とリスト実験の推定値の差分は15%程度であるため,サンプルの15%程度は,本当は「日本が民主主義であることはさほど重要ではない」と考えていたのに,DQで尋ねられるとそう答えなかったことになる。
しかし,同じ項目のリストをSAで測定した場合には結果が異なっていた。DQ(複数SA)条件に基づいた推定値は23.8%であり,DQ(MA)条件との差は有意であった(χ2(1)=33.47, p<.001, Cramér’s V=.20)。したがって,予測1は支持された。また,DQ(複数SA)条件に基づいた推定値は,リスト実験の推定値とほぼ一致していた。すなわち,複数SAとリスト実験(DiM)の差は0.1%であり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[−15.28%, 14.75%]は0%を含んでいるため,この差は統計的に有意ではなかった。また,複数SAとリスト実験(ML)の差は0.04%であり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[−14.14%, 12.10%]は0%を含んでいるため,この差も有意ではなかった。したがって,複数SAでDQを測定した場合にはSBは見られないと結論付けられた。つまり,同じ項目リストであっても,DQをMAで測定するか複数SAで測定するかによってSBの存在に関する結論が異なっていた。これは,SBを研究する際にはリスト実験のデザインや推定方法だけでなく,DQの測定方法についても十分に留意する必要があることを強く示唆する結果である。
研究2ではDQの測定において複数のセンシティブ項目が含まれることの影響を調べるため,センシティブ項目への賛否を従属変数(賛成が1,反対が0)とし,測定方法ダミー(DQ(複数SA)が1,DQ(MA)が0)と研究ダミー(研究2が1,研究1が0),および2つのダミー変数の交互作用を独立変数とするロジスティック回帰分析を推定した。研究ダミーの係数は−0.19(SE=0.25, p=0.45)で非有意,交互作用の係数も0.11(SE=0.30, p=0.72)で非有意であった。したがって,DQの測定に含まれるセンシティブ項目が1つか2つかによる違いは見られなかった。
最後に,複数SAと単独SAの違いを検討するために実施された研究3では,DQ(MA)条件とDQ(SA)条件の推定値は,研究1および2の推定値と差が見られなかった。具体的には,センシティブ項目への賛否を従属変数(賛成が1,反対が0)とし,測定方法ダミー(DQ(SA)が1,DQ(MA)が0)と研究ダミー(研究1をベースラインとした,研究2および研究3の2つのダミー変数)を独立変数としたロジスティック回帰モデルを推定した。モデル1では測定方法のみを投入し,モデル2では2つの研究ダミーを加え,モデル3ではさらに測定方法ダミーと研究ダミーの交互作用を加えた。モデル1と2,および2と3の尤度比検定を同時に行うため,ボンフェローニ法により有意水準を2.5%に補正した。モデル1と2の尤度比検定は有意な差を示さず(Deviance=2.59, df=2, p=.27),モデル2と3の尤度比検定も非有意であった(Deviance=1.96, df=2, p=.38)。すなわち,研究の違いや測定方法との交互作用を独立変数に加えてもモデルの適合度は上昇しないことから,研究3のDQ(MA)条件とDQ(SA)条件の推定値は研究1および2との差異が認められなかった。一方,DQ(複数SA)条件とDQ(単独SA)条件の間で有意な差は見られなかった(χ2(1)=0.21, p=.65, Cramér’s V=.02)。すなわち,単独SAでは複数SAと比較してセンシティブ項目が目立ってしまうためにSBがより強く表れるという予測2は支持されなかった。
センシティブ項目「強権」の分析次に,センシティブ項目「強権」を用いた分析結果をFigure 2に示す。以下の分析では,センシティブ項目「民主主義」と同様に,研究1のデータ内では合計5回の検定が行われる。したがってボンフェローニ法により,有意水準を1%に補正して検定を行う。
リスト実験では,DiMを用いた推定値は3.7%,MLを用いた推定値は8.7%であった。秦(2022)では約8.0%と推定されており,本研究の結果と大きな違いは見られなかった。一方,DQ(MA)条件では,賛成率は4.4%と推定された(秦(2022)では約2.6%)。DQ(MA)とリスト実験(DiM)の差は−0.7%であり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[−14.26%, 13.00%]は0%を含んでいるため,この差は有意ではなかった。また,DQ(MA)とリスト実験(ML)の差は4.34%であり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[−3.38%, 10.94%]は0%を含んでいるため,この差も有意ではなかった。DQ(複数SA)条件での推定値は13.4%であり,χ2検定によりDQ(MA)条件での推定値よりも有意に高いことが示された(χ2(1)=20.72, p<.001, Cramér’s V=.16)。しかし,複数SA推定値であっても,リスト実験の推定値の95%信頼区間が大きいため,両者の間で有意な差は見られなかった。すなわち,複数SAとリスト実験(DiM)の差は−9.7%であり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[−24.16%, 4.56%]は0%を含んでいるため,この差は有意ではなかった。また,複数SAとリスト実験(ML)の差は−4.7%であり,ブートストラップ法(NBootstrap=5,000)によって推定された99%信頼区間[−13.33%, 2.83%]は0%を含んでいるため,この差も有意ではなかった。MAよりも複数SAの方がセンシティブ項目の選択率が有意に高くなるという結果は,先述のセンシティブ項目「民主主義」による分析と一貫していた。
研究2ではDQの測定において複数のセンシティブ項目が含まれることの影響を調べるため,センシティブ項目への賛否を従属変数(賛成が1,反対が0)とし,測定方法ダミー(DQ(SA)が1,DQ(MA)が0)と研究ダミー(研究2が1,研究1が0),およびそれらの交互作用を独立変数とするロジスティック回帰モデルを推定した。研究ダミーの係数は−0.14(SE=0.35, p=0.69)で非有意,交互作用も0.02(SE=0.40, p=0.97)で非有意であった。したがって,DQの測定に含まれるセンシティブ項目が1つか2つかによる違いは見られなかった。この結果は「民主主義」をセンシティブ項目とした分析と一貫していた。
自己報告に基づく調査データを使ってセンシティブな態度や行動について調べたいとき,リスト実験などの間接的な測定方法は有効な手段となりうる。非センシティブ項目と併せて測定,推定するために推定の標準誤差が大きくなるという問題が避けられないが,近年のオンラインでのデータ収集環境を踏まえれば,大きなサンプルによってリスト実験においても効率性の高い推定値を得ることは可能だろう。しかし,SBの有無や大きさをリスト実験とDQの推定値の差分として定義する以上は,DQ推定値の測定方法もSBの検出に極めて重要な役割を果たす。にもかかわらず,先行研究ではリスト実験の改良が重視される一方で,DQの測定方法にはあまり注意が払われてこなかった。
本研究は秦(2022)の追試とその拡張を行う3つのデータを用いて,DQの測定方法がSBの検出にどのような影響をもたらすのかについて検討した。主な知見は2つ得られた。第一に,DQをMAで測定する場合には複数SAで測定する場合よりも項目全体の選択率が低くなる。このことは,MAとSAの比較を行った先行研究と一貫した結果である(Nicolaas et al., 2015; Smyth et al., 2006, 2008)。したがって,センシティブ項目の選択率もMAでは複数SAよりも低くなる。SBはリスト実験とDQの推定値の差分として定義されるため,MAを用いた場合には複数SAを用いた場合よりもSBは大きく推定されることになる。実際,研究1で見られたように,MAを用いた場合には有意なSBが検出される一方,複数SAを用いた場合には有意差は見られなかった(Figure 1)。このように,DQの測定方法の違いによってSBに関する結論に違いが生じうることを示した点が,本研究の第一の貢献である。
MAと複数SAの推定値のどちらが母集団における値に近いかは,本研究からは明らかにできない。しかし,MAは「該当する」場合のみに回答行動(たとえばクリック)が必要であり,非該当の場合には回答行動が必要ではないという非対称性があるため,回答コストが「該当」と「非該当」で異なり,「非該当」が増えやすい(つまり「該当」が少なくなりやすい)という方法論的なアーティファクトが生じる可能性がある。この点において,「該当」であっても「非該当」であっても同じ回答行動が必要となる複数SAの方が回答コストの対称性が保たれるという点において望ましい方法であろう。また,より一般的にSBの検出に対して慎重な立場を取るのであれば,SBが検出されやすくなるMAよりも複数SAを用いるほうが保守的な推定が可能になるだろう。
第二に,SAを用いたDQ測定においてもセンシティブ項目のみを尋ねる単独SAと非センシティブ項目も含めて尋ねる複数SAの違いはこれまで十分に検討されてこなかった。前述の先行研究のレビューにおいても,単独SAが主流ではあるものの,複数SAも一定程度使用されており,これらの違いがSBの検出にもたらす影響について検討する必要があった。特に,単独SAの場合は当該センシティブ項目への注目が高まることで,他の項目に埋め込まれた複数SAと比べてSBが大きくなる可能性が想定された。しかし,研究3では,Figure 1に示されるとおり,少なくとも「民主主義の重要性」に関するセンシティブ項目においては単独SAと複数SAの間で推定値に違いは見られないことが明らかとなった。単独SAと複数SAの違いについては決定的な違いはもたらさないという知見を得た点が,本研究の第二の貢献である。
単独SAの方が複数SAよりも質問数が少なくなるため,回答者にかかる負荷という面では望ましい。しかし,非センシティブ項目についてもDQで尋ねる複数SAにはメリットもある。リスト実験とDQを参加者間要因ではなく参加者内要因としてデザインする場合,リスト実験のコントロール条件にはセンシティブ項目が含まれていないため,リスト実験におけるコントロール条件と複数SAにおける非センシティブ項目の選択数は理論的には一致するはずである。したがって,この一致度を調べることで,どの程度リスト実験による測定がDQによる測定と乖離しているかを知ることができる。たとえば,Kiewiet de Jonge & Nickerson(2014)は,リスト実験の方がDQよりも認知的コストが高いため,本来一致するべき選択数がDQより小さくなる“artificial deflation”の傾向を見出している。したがって,リスト実験とDQを参加者内要因としてデザイン可能な場合には,複数SAを利用することでリスト実験の信頼性についての知見も同時に得ることができる。
本研究はいくつかの限界を含んでいる。まず,秦(2022)における2つのセンシティブ項目(「日本が民主主義であることはさほど重要ではない」と「今の日本には中国のような強権的な政治の仕組みが必要だ」)が本当にセンシティブな項目であったのかについて,明確なエビデンスはない。両項目は,人種差別的態度や権威主義社会における反政府的態度など,明らかにセンシティブな項目とは異なる。たとえば,小林(2021)は,アジアンバロメータ調査のDQ項目の分析により,日本では経済発展の方が民主主義よりも重要だと考える人が40%程度いることを示している。経済発展との比較に限定すれば,「民主主義が重要ではない」という考え方を40%の人が表明できているので,質問のセンシティビティはあまり高くないという見方も可能である。実際,Figure 1で見たようにSAでDQを測定した場合にはSBは見られていないので,そもそもの項目がセンシティブではなかった可能性が残る。もし,そもそもの項目がセンシティブでなかったのであれば,MA条件とLE条件の比較で見られたSBは,DQの測定形式によって現れたアーティファクトということになる。その場合,たとえば予測2に関しては,センシティブ項目が十分にセンシティブではなかったために,単独SA条件で際立つことの効果が表れず,複数SA条件との差が見られなかったという別解釈が可能になる。しかし,もしそうであったとしても,MAと複数SAの差異がもたらす影響を明らかにした本研究の意義は残る。
センシティブ項目のセンシティビティが事前に明らかではないという限界は,LEにおけるセンシティブ項目の妥当性を確認する必要性を示している。秦(2022)を含むリスト実験の多くはセンシティブ項目がセンシティブであるという仮定の元に実施されている。しかし,その仮定が成立しているかどうかはLE条件とDQ条件の差分としてのSBが有意であったかどうかによって判断できない。なぜなら,センシティブ項目が実際にはセンシティブではなかった場合にはSBは現れないはずであるし,もしセンシティブ項目が実際にセンシティブだったとしても,極めてセンシティビティが強い項目(たとえば「私は殺人をしたことがある」など)の場合はリスト実験においても回答者は(たとえば殺人を実行したことがあったとしても)本音や実際の行動を隠すと予想されるためである。したがって,SBの有無によってセンシティビティ項目の妥当性は担保できない。リスト実験は,人種差別的態度や権威主義社会における反政府的態度など,センシティビティが事前に明らかな項目に限定して用いた方が安全であろう。さらに,本研究では秦(2022)の仮定をそのまま踏襲したが,DQ項目における無回答率を比較するなど,リスト実験とは別の基準でセンシティブ項目のセンシティビティを確認する方が望ましい(e.g., Shen & Truex, 2021)5)。
本研究はDQの測定に注目したため,リスト実験そのものに内在する問題については扱わなかった。リスト実験は直接態度や行動を尋ねるのではなく,間接的な測定方法であるため推定における標準誤差がDQよりも大きくなり,推定の精度が低くなる。したがって,1,000程度のサンプルサイズでは10~15%程度のSBを安定的に検出することは難しい(Blair et al., 2020; Ehler et al., 2021)。さらに,推定の床効果や天井効果が生じうるだけでなく,回答の認知的負荷の高さによってリスト実験の方がDQよりもセンシティブな態度や行動が多く推定されるという逆転現象(list experiment breakdown)も生じうる(Holbrook & Krosnick 2010; Kramon & Weghorst, 2019; Kuhn & Vivyan, 2022)。こうしたことから,リスト実験によるセンシティブな態度や行動の測定そのものを勧めない研究者もいることには十分に留意する必要がある(e.g., Gelman, 2014)。
リスト実験は,質問内容がセンシティブであっても,該当項目数のみを尋ねる間接的な尋ね方であれば「本音」で回答してくれるという前提の上に成り立っている。しかし,もし回答者が調査者に対して自分の態度を伝えたいと考えていない場合には,リスト実験であってもDQであっても真の態度や行動は表出されないだろう。前述の「私は殺人をしたことがある」という極端にセンシティブな項目はその一例である。SBは,DQでは直接的に表明「できない」が,リスト実験の設定でさまざまな社会的・政治的リスクを減らせるなら間接的に表明「したい」と回答者が考えている場合にのみ発生するのであり,どんな測定であっても秘匿したいと考えている場合には発生しない。権威主義体制下における反政府的態度などは,オープンに表明はできないが間接的であれば表明したいと考える態度の一例だろう。しかし,そもそもの項目がセンシティブではない場合や,センシティブな項目に関する態度を回答者が(間接的にであれば)表明したいと考えていない場合には,リスト実験とDQの推定値に差は生じず,SBは検出されない。その場合には,リスト実験を用いてあえて不確実性の高い推定を行うメリットは小さいだろう。リスト実験は簡便に実施が可能であるため広く用いられるようになっているが,そもそも検討したい態度や行動が「直接的には表明できないが間接的には表明したい」と考えられているものなのかについて,十分な検討を事前に行う必要がある。
1) 本研究のデータとマテリアルは,付録としてOpen Science Framework: https://doi.org/10.17605/osf.io/7rtg4で提供する。
2) 厳密には非センシティブ項目のうちの1つはDQ条件では表示されていなかった。
3) 調査票およびサンプル割付表は秦(2022)の著者から提供を受けた。記して感謝する。
4) この推定値は秦(2022)の推定値(約15.5%)よりも高いが,サンプルのソースが異なること(楽天リサーチvs. Lucid),確率標本抽出に基づいていないことから,差の原因を解釈することは難しい。
5) 本研究ではDQ条件,LE条件ともに強制回答の制約がかかっていたため,無回答率の比較はできない。