📚 nametwo.log

Vision · ICLR 2021

An Image is Worth 16x16 Words (ViT)

2020-10-22 · 태그: transformer, vision, vit

논문 개요

이미지를 16x16 패치로 자른 뒤 시퀀스로 변환해 표준 Transformer에 입력.

의의

비전에서 CNN의 inductive bias가 필수가 아님을 보임. Foundation model 시대 개막.

댓글