主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
機械学習で利用するラベル付きのデータを集めるために、クラウドソーシングが利用されている。 クラウドソーシングのワーカーの能力や属性にはばらつき・偏りがあり、品質管理が問題となる。 ワーカーの能力を推定し、真のアノテーションを推定する方法が様々提案されているが、それらは真のラベルがただ一つ存在していると仮定している。 しかし、真のラベルがただ一つ存在するのではなく、ラベルはワーカーの属性・立場・コミュニティに強く依存すると仮定する方が自然なタスクも存在する。 そのようなタスクに既存法を適用した場合、少数派の属性のワーカーの意見が無視されてしまい、推定結果にバイアスが入ってしまう可能性がある。 本研究では、ワーカーの属性をベースに、多様性を考慮した能力・ラベル推定のためのモデルを提案する。 提案モデルは、ワーカーの属性の組合わせごとに真のラベルが存在していると仮定した、既存法のDawid-Skeneモデルの自然な拡張になっている。 人工データを用いた実験で、ラベルの傾向が属性によって大きく異なる場合、既存法は少数派の能力を低く推定してしまうが、提案法では適切に推定できることを示す。