Vision Transformerを用いた多フォント文字認識

大峠 仁輝; 内田 誠一

doi:10.11527/jceeek.2021.0_63

2021年度電気・情報関係学会九州支部連合大会（第74回連合大会）講演論文集

セッションID: 05-1A-10

DOI https://doi.org/10.11527/jceeek.2021.0_63

会議情報

主催: 電気・情報関係学会九州支部連合大会委員会

共催: 佐賀大学

会議名: 2021年度電気・情報関係学会九州支部連合大会

回次: 74

開催地: オンライン開催（大会本部：佐賀大学本庄キャンパス）

開催日: 2021/09/24 - 2021/09/25

Vision Transformerを用いた多フォント文字認識

*大峠仁輝, 内田誠一

著者情報

会議録・要旨集フリー

詳細

抄録

本研究の目的は、Vision Transformerを用いた多フォント文字画像の認識である。ViTとは、画像をパッチに分解し、それらをTransformerに入力することで画像を特定クラスに識別する方法である。本研究ではフォント画像を扱い、文字クラスに識別することになる。各パッチは入力されるに先立ち、線形変換による予備的な特徴とパッチ位置の特徴の組で表現される。Transformer内部では、Self-Attentionと呼ばれるパッチ間の関係を評価する部分があり、これが一般的な畳み込みニューラルネットワークと異なる。多フォント文字認識には、装飾など文字の局所的な構造の類似性評価も重要と考えられるため、このSelf-Attentionの効果が期待できる。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）