논문 개요
마스크드 언어 모델링(MLM)과 다음 문장 예측(NSP)으로 사전학습한 양방향 Transformer.
핵심 아이디어
기존 단방향 LM의 한계를 마스킹으로 우회. 입력의 15%를 가려놓고 맞히게 함.
NLP · NAACL 2019
2018-10-11 · 태그: transformer, pretraining, bert
마스크드 언어 모델링(MLM)과 다음 문장 예측(NSP)으로 사전학습한 양방향 Transformer.
기존 단방향 LM의 한계를 마스킹으로 우회. 입력의 15%를 가려놓고 맞히게 함.