논문 개요
이미지를 16x16 패치로 자른 뒤 시퀀스로 변환해 표준 Transformer에 입력.
의의
비전에서 CNN의 inductive bias가 필수가 아님을 보임. Foundation model 시대 개막.
Vision · ICLR 2021
2020-10-22 · 태그: transformer, vision, vit
이미지를 16x16 패치로 자른 뒤 시퀀스로 변환해 표준 Transformer에 입력.
비전에서 CNN의 inductive bias가 필수가 아님을 보임. Foundation model 시대 개막.