電気関係学会九州支部連合大会講演論文集
2021年度電気・情報関係学会九州支部連合大会(第74回連合大会)講演論文集
セッションID: 05-1A-10
会議情報

Vision Transformerを用いた多フォント文字認識
*大峠 仁輝内田 誠一
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究の目的は、Vision Transformerを用いた多フォント文字画像の認識である。ViTとは、画像をパッチに分解し、それらをTransformerに入力することで画像を特定クラスに識別する方法である。本研究ではフォント画像を扱い、文字クラスに識別することになる。各パッチは入力されるに先立ち、線形変換による予備的な特徴とパッチ位置の特徴の組で表現される。Transformer内部では、Self-Attentionと呼ばれるパッチ間の関係を評価する部分があり、これが一般的な畳み込みニューラルネットワークと異なる。多フォント文字認識には、装飾など文字の局所的な構造の類似性評価も重要と考えられるため、このSelf-Attentionの効果が期待できる。

著者関連情報
© 2021 電気・情報関係学会九州支部連合大会委員会
前の記事 次の記事
feedback
Top