Masked Image Modelingを利用した情景画像中のテキスト認識

三ツ井悠翔, 宮崎智, 大町真一郎

March, 2023

Random MaskingとSpan Maskingの例

Abstract

既存のテキスト認識手法は実世界におけるデータセットのサンプル数が少ないため，合成データセットを用いて学習がされているが、実世界で発生する問題に対応できない。そこで，ラベルがない実画像の利用によってテキスト認識モデルの可能性を引き出すことが考えられており，テキスト認識に対する自己教師あり学習手法が検討されている。本研究では、Masked Image Modeling を利用し、文脈情報を考慮した新たなマスキング戦略を提案した。実験の結果，提案するマスキング戦略の有効性が実証された．

Text Recognition Self-supervised Learning

Masked Image Modelingを利用した情景画像中のテキスト認識

Abstract

三ツ井 悠翔

博士前期課程 / Master’s student

三ツ井悠翔