抄録
文書分類の多くのアプリケーションにおいて, 分類器が出力するクラスに確信度すなわちクラス所属確率を付与することは有用で, 正確な推定値が必要とされる. これまでに提案された推定方法はいずれも2値分類を想定し, 推定したいクラスの分類スコア (分類器が出力するスコア) のみを用いている. しかし, 文書分類では多値分類が適用されることが多く, その場合は, 予測されるクラスはクラスごとに出力された分類スコアの絶対的な大きさではなく相対的な大きさにより決定される. したがって, クラス所属確率は, 推定したいクラスの分類スコアだけでなく他のクラスの分類スコアにも依存すると考えられるため, 推定したいクラス以外の分類スコアも用いて推定する必要があると思われる. 本稿は, 多値分類における任意のクラスについてのクラス所属確率を, 複数の分類スコア, 特に推定したいクラスと第1位のクラスの分類スコアを用いて, ロジスティック回帰により高精度に推定する方法を提案する. 提案手法を多値分類に拡張したサポートベクターマシンに適用し, 性質の異なる2つのデータセットを用いて実験した結果, 有効性が示された. また, 本稿では, クラス所属確率を推定する別の方法として, 各分類スコアを軸として等間隔に区切ってセルを作成する「正解率表」を利用する方法も提案したが, この方法においても複数の分類スコアを用いることは有効であった. 提案手法は, 分類スコアの組み合わせや分類器の変更に対しても容易に対応できる