An Image is Worth 16x16 Words (ViT)

2020-10-22 · 태그: transformer, vision, vit

논문 개요

이미지를 16x16 패치로 자른 뒤 시퀀스로 변환해 표준 Transformer에 입력.

비전에서 CNN의 inductive bias가 필수가 아님을 보임. Foundation model 시대 개막.