BERT: Pre-training of Deep Bidirectional Transformers

2018-10-11 · 태그: transformer, pretraining, bert

논문 개요

마스크드 언어 모델링(MLM)과 다음 문장 예측(NSP)으로 사전학습한 양방향 Transformer.

기존 단방향 LM의 한계를 마스킹으로 우회. 입력의 15%를 가려놓고 맞히게 함.