健康管理アプリケーションが流行し,健康への意識が高まっている中,料理のカロリー量計算を行う際には食事領域の判別が大事な要素となる.近年は深層学習によって領域分割の性能は飛躍的に向上している.しかしながら,食事画像に対する領域分割のためのデータセットは限られており,種類数も最大100程度と限定されている.一方で,領域分割データセット構築にはピクセルレベルのアノテーションが必要で多大なコストが掛かる問題がある.
本稿では,我々が提案した,100種類の食事領域分割データセットで学習した事前学習モデルを使用することで,あらゆる食事クラスに対して追加データなしで領域マスクを高精度で推論するUnseen Food Segmentation (USFoodSeg) を紹介する.実験では未学習クラスの食事カテゴリに対してmean Intersection over Union (mIoU) 90を達成した.さらに,近年注目されている大規模視覚言語拡散モデルであるStable Diffusionの事前学習済みの知識を活用することで,学習不要であらゆるクラスに対して領域分割を可能とするStableSegを提案し,特に食事カテゴリに対して有効であることを示す.
抄録全体を表示