主催: 電気・情報関係学会九州支部連合大会委員会
共催: 佐賀大学
会議名: 2021年度電気・情報関係学会九州支部連合大会
回次: 74
開催地: オンライン開催(大会本部:佐賀大学本庄キャンパス)
開催日: 2021/09/24 - 2021/09/25
本研究の目的は、Vision Transformerを用いた多フォント文字画像の認識である。ViTとは、画像をパッチに分解し、それらをTransformerに入力することで画像を特定クラスに識別する方法である。本研究ではフォント画像を扱い、文字クラスに識別することになる。各パッチは入力されるに先立ち、線形変換による予備的な特徴とパッチ位置の特徴の組で表現される。Transformer内部では、Self-Attentionと呼ばれるパッチ間の関係を評価する部分があり、これが一般的な畳み込みニューラルネットワークと異なる。多フォント文字認識には、装飾など文字の局所的な構造の類似性評価も重要と考えられるため、このSelf-Attentionの効果が期待できる。