ウェブから能動学習の観点で有益なデータを取得する

佐藤 竜馬

doi:10.11517/pjsai.JSAI2023.0_4L3GS401

抄録

能動学習はラベルの付いていないデータのプールの中からラベルを付けるべきデータを繰り返し選択することでラベル付けのコストを削減することを目指す技術である。プールからデータを選択するための基準は多くの手法が提案されている。しかし、どのようにプールを構築するかについてはあまり検討されておらず、ほとんどの手法はタスクに特化したプールが無償で利用できることを前提としている。本論文では、タスク特化のプールが常に利用できるとは限らないことを提唱し、ウェブ上にある無数のラベルなしデータを能動学習のためのプールに利用することを提案する。問題は、プールが非常に大きいため、全てのデータの獲得関数を網羅的に計算することができないことである。本研究では、ユーザサイドの検索アルゴリズムを用いてウェブ上から能動学習の観点から有益なデータを効率的に取得する手法を提案する。実験では、オンラインFlickr環境を能動学習のプールとして用いる。このプールは100億枚以上の画像を含んでおり、既存の能動学習用プールに比べて数桁大きい。提案手法は既存の小規模なプールを用いた手法よりも優れたパフォーマンスを示す。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）