Masked Image Modelingを利用した情景画像中のテキスト認識

Random MaskingとSpan Maskingの例

Abstract

既存のテキスト認識手法は実世界におけるデータセットのサンプル数が少ないため,合成データセットを用いて学習がされているが、実世界で発生する問題に対応できない。そこで,ラベルがない実画像の利用によってテキスト認識モデルの可能性を引き出すことが考えられており,テキスト認識に対する自己教師あり学習手法が検討されている。本研究では、Masked Image Modeling を利用し、文脈情報を考慮した新たなマスキング戦略を提案した。実験の結果,提案するマスキング戦略の有効性が実証された.

三ツ井 悠翔
三ツ井 悠翔
博士前期課程 / Master’s student

My research interests include computer vision, self-supervised learning and text recognition.