IntroductionProposed MethodPermutation Language ModelingTwo-Stream Self-Attention for Target-Award RepresentationIncorporating Ideas from Transformer-XLExperimentsResultsAblation StudyConclusionReference기존의 Language model 및 BERT의 문제점을 지적하며 나온 논문으로, 2019년 당시 20개의 NLP task에서 BERT의 성능을 능가하고 그 중 18개의 task에서 SoTA를 찍은 모델이다.transformer XL 논문을 냈던 저자들이 쓴 논문으로, permutation learning, two-stream attention m..