顔パーツのセマンティックセグメンテーションを目的としたネットワークでは,通常,学習時の損失関数として,Cross Entropy Lossが用いられる.Cross Entropy Lossに基づく学習では,画素数が多いクラス(顔パーツ)の分割精度が高くなるようにネットワークが学習し,画素数が少ない顔パーツの分割精度が低くなる問題がある.また,異なる解像度の情報を統合的に解析することにより,様々な大きさの顔パーツに柔軟に対応できる可能性がある.そこで本研究では,各クラスの画素数の偏りを補正するGeneralized Dice Lossを損失関数とし,異なる解像度の情報を解析できるMultiple Decodersを持つU-Netを用いた顔パーツのセマンティックセグメンテーション法を提案する.実験試料として,30,000枚の顔画像が含まれるCelebA Mask HQデータセットを用いた.U-Netをベースとした提案ネットワークは,1つのEncoderと,異なる解像度の特徴マップからセマンティックセグメンテーションを行う5つのDecoder,そして,それらのDecoderの解析情報を統合する1つのRecognitionで構成される.提案ネットワークによる各顔パーツのセマンティックセグメンテーションの平均Intersection over Unionは0.846で,従来ネットワークであるSegNet(0.711),U-Net(0.803),SegNetベースのEncoder-Multiple Decodersネットワーク(0.805)より高く,その有用性が示された.
抄録全体を表示