์ด๋ฒ์ GPT-1 Model์ ๋ฐํ์ฌ ๋ ผ๋ฌธ์ ์ฝ๊ณ ๊ณต๋ถํ ๋ด์ฉ์ ๋ฆฌ๋ทฐํด ๋ณด๊ฒ ์ต๋๋ค.
- ์ด ๋ ผ๋ฌธ์์๋ Transformer ๋ชจ๋ธ์ ๋ฐํ ์ค๋ช ์ด ํฌํจ๋์ด ์์ต๋๋ค. ๊ทธ๋์, ์ด๋์ ๋ Transformer Model์ ๋ฐํ ์ง์์ด ์์ด์ผ ์ดํดํ์ค์ ์์ต๋๋ค. ํ๋ฒ ์ฝ๊ณ ์์ฃผ์ธ์!
Abstract
์์ฐ์ด ์ดํด๋ ํ ์คํธ ํจ์, ์ง๋ฌธ ์๋ต, ์๋ฏธ ์ ์ฌ์ฑ ํ๊ฐ, ๋ฌธ์ ๋ถ๋ฅ์ ๊ฐ์ ๋ค์ํ ์์ ์ ํฌํจํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ์์ ์ ์ํ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ๋ ๋ถ์กฑํ ๋ฐ๋ฉด, ๋๊ท๋ชจ์ ๋น์ง๋ ํ ์คํธ ์ฝํผ์ค๋ ํ๋ถํ๊ฒ ์กด์ฌํฉ๋๋ค. ์ด๋ก ์ธํด ๊ธฐ์กด์ ํ๋ณ์ (discriminative) ๋ชจ๋ธ๋ค์ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ์ํฉ์์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด generative pre-training๊ณผ discriminative fine-tuning์ ๊ฒฐํฉํ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํ๋ฉ๋๋ค:
- Generative Pre-Training:
- ๋น์ง๋ ํ์ต์ ํตํด ๋ค์ํ ํ ์คํธ ์ฝํผ์ค์์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ์ฌ, ์์ฐ์ค๋ฌ์ด ์ธ์ด ์์ฑ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ํฉ๋๋ค.
- ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ธ์ด ํจํด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
- Discriminative Fine-Tuning:
- ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ ํน์ ์์ ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ (fine-tuning) ํ์ฌ, ํ์คํฌ ์ธ์ ์ ๋ ฅ ๋ณํ์ ํตํด ๋ชจ๋ธ ์ํคํ ์ฒ์ ์ต์ํ์ ๋ณ๊ฒฝ์ผ๋ก๋ ํจ์จ์ ์ธ ์ ์ด๋ฅผ ๋ฌ์ฑํ ์ ์๋๋ก ํฉ๋๋ค.
์ด ์ฐ๊ตฌ๋ ๋ค์ํ ์์ฐ์ด ์ดํด ๋ฒค์น๋งํฌ์์ ํด๋น ์ ๊ทผ๋ฒ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค. ํ๋ณ์ ํ์ต ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์๋ค๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
- Commonsense Reasoning (Stories Cloze Test): 8.9% ์ ์ ๋์ ์ธ ์ฑ๋ฅ ํฅ์
- Question Answering (RACE): 5.7%์ ์ ๋์ ์ธ ์ฑ๋ฅ ํฅ์
- Textual Entailment (MultiNLI): 1.5%์ ์ ๋์ ์ธ ์ฑ๋ฅ ํฅ์
Introduction
์์ฐ์ด ์ฒ๋ฆฌ(NLP) ๋ถ์ผ์์ ์์ ํ ์คํธ๋ก๋ถํฐ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ ๋ฅ๋ ฅ์ ์ง๋ ํ์ต(Supervised Learning)์ ๋ํ ์์กด์ ์ค์ด๋ ๋ฐ ๋งค์ฐ ์ค์ํฉ๋๋ค. ๊ธฐ์กด์ ๋๋ถ๋ถ์ ๋ฅ ๋ฌ๋(Deep Learning) ๋ฐฉ๋ฒ์ ์์์ ์ผ๋ก ๋ผ๋ฒจ๋ง๋ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง๋ง, ์ด๋ ์ฃผ์(Annotation)์ด ๋ถ์กฑํ ์ฌ๋ฌ ๋๋ฉ์ธ์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ํํฉ๋๋ค. ์ด๋ฌํ ์ํฉ์์ ๋น์ง๋(Unsupervised) ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ๋ผ๋ฒจ๋ง์ ๋ํ ์๊ฐ๊ณผ ๋น์ฉ์ ์ค์ด๋ ์ ์ฉํ ๋์์ด ๋ ์ ์์ต๋๋ค. ๋ํ, ๋น์ง๋ ๋ฐฉ์์ผ๋ก ์ข์ ํํ(Representations)์ ํ์ตํ๋ ๊ฒ์ ์ง๋ ํ์ต์ด ๊ฐ๋ฅํ ๊ฒฝ์ฐ์๋ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ฌ์ ํ์ต๋ ๋จ์ด ์๋ฒ ๋ฉ(Pre-trained Word Embeddings)์ ๋ค์ํ NLP ์์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ์ต๋๋ค. ํ์ง๋ง, ๋จ์ด ์์ค ์ด์์ ์ ๋ณด๋ฅผ ๋น์ง๋ ํ ์คํธ์์ ํ์ตํ๋ ๋ฐ๋ ๋ ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค:
- ์ ์ด ํ์ต(Transfer Learning)์ ์ ์ฉํ ํ
์คํธ ํํ(Textual Representation)์ ํ์ตํ๊ธฐ ์ํ ์ต์ ํ ๋ชฉํ(Objective)๋ฅผ ์ ์ํ๋ ๊ฒ์ด ์ด๋ ต์ต๋๋ค.
- ์ต๊ทผ ์ฐ๊ตฌ๋ค์ Language Modeling, Machine Translation, Discourse Coherence์ ๊ฐ์ ๋ค์ํ ๋ชฉํ๋ฅผ ์๋ํด ์์ง๋ง, ๊ฐ ๋ฐฉ๋ฒ์ ์์ ์ ๋ฐ๋ผ ๋ค๋ฅธ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
- ํ์ต๋ ํํ์ ๋ชฉํ ์์
(Target Task)์ ํจ๊ณผ์ ์ผ๋ก ์ ์ด(Transfer)ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ํฉ์๊ฐ ๋ถ์กฑํฉ๋๋ค.
- ๊ธฐ์กด์ ๊ธฐ์ ๋ค์ ์์ ํน์ ์ํคํ ์ฒ ๋ณ๊ฒฝ(Task-Specific Architecture Modifications)๊ณผ ์ ๊ตํ ํ์ต ์คํด(Training Schemes) ๋ฐ ๋ณด์กฐ ํ์ต ๋ชฉํ(Auxiliary Objectives)์ ๊ฒฐํฉ์ ํ์๋ก ํ๋ฉฐ, ์ด๋ ์ธ์ด ์ฒ๋ฆฌ๋ฅผ ์ํ ํจ๊ณผ์ ์ธ ๋ฐ์ง๋ ํ์ต(Semi-Supervised Learning) ์ ๊ทผ๋ฒ์ ๊ฐ๋ฐํ๋ ๊ฒ์ ์ด๋ ต๊ฒ ๋ง๋ญ๋๋ค.
๊ทธ๋์, ์ด ๋ ผ๋ฌธ์์๋ ๋น์ง๋ ์ฌ์ ํ์ต(Unsupervised Pre-Training)๊ณผ ์ง๋ ๋ฏธ์ธ ์กฐ์ (Supervised Fine-Tuning)์ ๊ฒฐํฉํ ๋ฐ์ง๋ ํ์ต ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋ชฉํ๋ ์ต์ํ์ ์ ์(Minimal Adaptation)์ ํตํด ๋ค์ํ ์์ ์ ์ ์ด๋ ์ ์๋ ๋ณดํธ์ ์ธ ํํ(Universal Representations)์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ฐ๊ตฌ์ ๋ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Generative Pre-Training:
- ๋๊ท๋ชจ ๋น์ง๋ ํ ์คํธ ์ฝํผ์ค(Unsupervised Text Corpora)์์ Language Modeling Objective๋ฅผ ์ฌ์ฉํด ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํฉ๋๋ค.
- ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ธ์ด ํจํด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ์ตํ์ฌ ๋ค์ํ ๋๋ฉ์ธ์ ์ ์ฉ ๊ฐ๋ฅํ ํํ์ ์ป์ต๋๋ค.
- Discriminative Fine-Tuning:
- ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ง๋ ๋ชฉํ(Supervised Objectives)์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ (Fine-Tuning) ํฉ๋๋ค.
- ํ์คํฌ ํน์ ์ ๋ ฅ ๋ณํ(Task-Specific Input Adaptations)์ ํ์ฉํ์ฌ ๋ชจ๋ธ ์ํคํ ์ฒ์ ์ต์ํ์ ๋ณ๊ฒฝ์ผ๋ก๋ ํจ๊ณผ์ ์ธ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ์ ์ด ํ์ต ๊ธฐ๋ฒ
์ด ์ฐ๊ตฌ์์๋ Transformer ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. Transformer๋ Machine Translation, Document Generation, Syntactic Parsing ๋ฑ ๋ค์ํ ์์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, Recurrent Networks์ ๊ฐ์ ๋์๋ค๋ณด๋ค ์ฅ๊ธฐ ์์กด์ฑ(Long-term Dependencies)์ ๋ ์ ์ฒ๋ฆฌํ ์ ์๋ ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ(Structured Memory)๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ํน์ฑ์ ๋ค์ํ ์์ ์์ ์ ์ด ์ฑ๋ฅ์ ๋ณด์ฅํ๋ ๋ฐ ๋งค์ฐ ์ ๋ฆฌํฉ๋๋ค.
๋ํ, ์ ์ด ํ์ต(Transfer Learning) ์ค์๋ ํ์คํฌ ํน์ ์ ๋ ฅ ๋ณํ(Task-Specific Input Adaptations)์ ํตํด ๊ตฌ์กฐํ๋ ํ ์คํธ ์ ๋ ฅ(Structured Text Input)์ ๋จ์ผ ์ฐ์ ์ํ์ค(Single Continuous Sequence)๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ ์ํ ์คํ์ผ ์ ๊ทผ๋ฒ(Traversal-Style Approaches)์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ํคํ ์ฒ๋ฅผ ์ต์ํ์ผ๋ก ๋ณ๊ฒฝ(Minimal Changes)ํ๋ฉด์๋ ํจ๊ณผ์ ์ธ Fine-Tuning์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ์์ฐ์ด ์ถ๋ก (Natural Language Inference), ์ง๋ฌธ ์๋ต(Question Answering), ์๋ฏธ ์ ์ฌ์ฑ(Semantic Similarity), ํ ์คํธ ๋ถ๋ฅ(Text Classification)์ ๋ค ๊ฐ์ง ์ธ์ด ์ดํด ์์ ์์ ์ด ์ ๊ทผ๋ฒ์ ํ๊ฐํ์ต๋๋ค. General Task-Agnostic Model์ ๊ฐ ์์ ์ ๋ง์ถฐ ์ค๊ณ๋ ํ๋ณ์ ํ์ต ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ผ๋ฉฐ, ์ฐ๊ตฌ๋ 12๊ฐ์ ์์ ์ค 9๊ฐ์์ ์ต์ฒจ๋จ ๊ธฐ์ (State-of-the-Art)์ ํฌ๊ฒ ๊ฐ์ ํ์ต๋๋ค. ์ฃผ์ ์ฑ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Commonsense Reasoning (Stories Cloze Test)์์ 8.9%์ ์ฑ๋ฅ ํฅ์
- Question Answering (RACE)์์ 5.7%์ ์ฑ๋ฅ ํฅ์
- Textual Entailment (MultiNLI)์์ 1.5%์ ์ฑ๋ฅ ํฅ์
- GLUE Benchmark์์ 5.5%์ ์ ๋์ ์ธ ์ฑ๋ฅ ํฅ์
๋ํ, ๋ค ๊ฐ์ง ๋ค๋ฅธ ์ค์ ์์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ ๋ก์ท ํ๋(Zero-Shot Behavior)์ ๋ถ์ํ์ฌ, ๋ชจ๋ธ์ด ๋ค์ด์คํธ๋ฆผ ์์ (Downstream Tasks)์ ์ํ ์ ์ฉํ ์ธ์ด์ ์ง์(Linguistic Knowledge)์ ์ต๋ํ๊ณ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Related Work
Semi-Supervised Learning
Semi-supervised learning์ ๋ผ๋ฒจ๋ง(Labeling)๊ณผ ํ ์คํธ ๋ถ๋ฅ(Text Classification)์ ๊ฐ์ ๋ค์ํ ์์ ์์ ๋ง์ ๊ด์ฌ์ ๋ฐ์์จ ์ฐ๊ตฌ ๋ถ์ผ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ด ๋ฐํ๋๊ธฐ ์ ๊น์ง์ ์ต์ ์ฐ๊ตฌ๋ค์ unlabeled data๋ฅผ ELMo์ ๊ฐ์ ๋ชจ๋ธ์์ ๋จ์ด ์์ค์ ์ ๋ณด๋ฅผ ํ์ตํ๋ ๋ฐ ํ์ฉํ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ณธ ์ฐ๊ตฌ์ ๋ชฉํ๋ ์ด๋ฌํ ๋จ์ด ์์ค์ ๋จธ๋ฌด๋ ๊ฒ์ด ์๋๋ผ, ๋น์ง๋ ๋ฐ์ดํฐ(Unlabeled Data)๋ฅผ ๊ตฌ(Phrase)๋ ๋ฌธ์ฅ ์์ค(Sentence Level)์์ ๋ ๋์ ์์ค์ผ๋ก ํ์ฉํ์ฌ ์๋ฏธ๋ฅผ ํฌ์ฐฉํ๋ ๊ฒ์ ๋๋ค.
Unsupervised Pre-Training
Unsupervised pre-training์ ๋ชฉ์ ์ ์ด๊ธฐ ์ข์ ํํ(Representation)์ ์ฐพ๋ ๋ฐ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ํํ์ supervised learning ๋จ๊ณ์์ ๋ ์ ๋์ํ๊ฒ ๋ง๋ญ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ์ด๋ฏธ์ง ๋ถ๋ฅ(Image Classification), ์์ฑ ์ธ์(Speech Recognition), ๊ธฐ๊ณ ๋ฒ์ญ(Machine Translation) ๋ฑ ์ฌ๋ฌ ๋ถ์ผ์์ pre-training์ด ๋งค์ฐ ์ ์ฉํ๋ค๋ ๊ฒ์ ์ ์ฆํ์ต๋๋ค. ํ์ง๋ง, ๊ธฐ์กด์ LSTM๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ค์ ๊ธด ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ์ฌ, ์ธ์ด์ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ์์ฉํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์์์ต๋๋ค.
๋ฐ๋ฉด, ๋ณธ ๋ ผ๋ฌธ์์๋ Transformer ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ๊ธด ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์บก์ฒํ ์ ์์์ ์คํ์ ํตํด ์ฆ๋ช ํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ natural language inference, paraphrase detection, story completion ๋ฑ์ ๋ค์ํ ์ธ์ด ์ดํด ์์ ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Auxiliary Training Objectives
๋ณธ ๋ ผ๋ฌธ์์๋ unsupervised pre-training์ ๋ชฉ์ ํจ์(Objective Function)๋ฅผ supervised fine-tuning ๋จ๊ณ์์ auxiliary objective๋ก ์ถ๊ฐํ์ต๋๋ค. ์ฆ, ๋จ์ํ supervised learning์ ๋ชฉ์ ํจ์์ unsupervised learning ๋ชฉ์ ํจ์๋ฅผ ๋ํด์ฃผ์์ผ๋ฉฐ, ์ด๋ฅผ auxiliary objective๋ผ๊ณ ํํํฉ๋๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ฏธ ์ฌ๋ฌ ์ฐ๊ตฌ์์ ์ข์ ์ฑ๊ณผ๋ฅผ ๋ด๋ฉฐ ๊ทธ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ Generative Pre-Training์ ํตํด ํ์ต๋ ํํ์ด fine-tuning ๊ณผ์ ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ๋ ์ ์๋๋ก ํ์ฌ, ์ ์ด ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
Framework
๋ณธ ์ฐ๊ตฌ์ ํ์ต ์ ์ฐจ๋ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๋น์ง๋ ์ฌ์ ํ์ต(Unsupervised Pre-Training): ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค๋ฅผ ์ด์ฉํด ๊ณ ์ฉ๋ ์ธ์ด ๋ชจ๋ธ ํฉ๋๋ค.
- ์ง๋ ๋ฏธ์ธ ์กฐ์ (Supervised Fine-Tuning): ์ดํ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ๋ณ์ (discriminative) ์์ ์ ๋ง์ถ์ด ์กฐ์ ํฉ๋๋ค.
Unsupervised pre-training (๋น์ง๋ ์ฌ์ ํ์ต)
๋น์ง๋ ํ ํฐ ์ฝํผ์ค U={u1,...,un}๊ฐ ์ฃผ์ด์ก์ ๋, ์ฐ๋ฆฌ๋ ํ์ค ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ ๊ฐ๋ฅ๋๋ฅผ ์ต๋ํํฉ๋๋ค.
์ฌ๊ธฐ์ k๋ ์ปจํ ์คํธ ์๋์ฐ์ ํฌ๊ธฐ์ด๋ฉฐ, ์กฐ๊ฑด๋ถ ํ๋ฅ P๋ ๋งค๊ฐ๋ณ์ Θ๋ฅผ ์ฌ์ฉํ๋ ์ ๊ฒฝ๋ง์ผ๋ก ๋ชจ๋ธ๋ง๋ฉ๋๋ค.
์ด๋ฌํ ๋งค๊ฐ๋ณ์๋ค์ ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(stochastic gradient descent)์ ์ฌ์ฉํ์ฌ ํ์ต๋ฉ๋๋ค.
์ฐ๋ฆฌ์ ์คํ์์๋ ์ธ์ด ๋ชจ๋ธ๋ก์ ๋ค์ธต Transformer ๋์ฝ๋๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ Transformer์ ๋ณํ์ผ๋ก, ์ ๋ ฅ ์ปจํ ์คํธ ํ ํฐ์ ๋ํด ๋ค์ค ํค๋ self-attention ์์ ์ ์ ์ฉํ๊ณ , ์์น๋ณ ํผ๋ํฌ์๋ ๋ ์ด์ด๋ฅผ ํตํด ๋ชฉํ ํ ํฐ์ ๋ํ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์์ฑํฉ๋๋ค.
์ฌ๊ธฐ์ U=(u−k,...,u−1)๋ ํ ํฐ์ ์ปจํ ์คํธ ๋ฒกํฐ, n์ ๋ ์ด์ด ์, We๋ ํ ํฐ ์๋ฒ ๋ฉ ํ๋ ฌ, Wp๋ ์์น ์๋ฒ ๋ฉ ํ๋ ฌ์ ๋๋ค.
Supervised fine-tuning (์ง๋ ๋ฏธ์ธ ์กฐ์ )
Unsupervised pre-training (๋น์ง๋ ์ฌ์ ํ์ต) ์ ๋ชฉํ๋ก ๋ชจ๋ธ์ ํ์ตํ ํ, ์ฐ๋ฆฌ๋ ๋งค๊ฐ๋ณ์๋ฅผ ์ง๋ ๋ชฉํ ์์ ์ ๋ง๊ฒ ์ ์์ํต๋๋ค. ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ์ C๊ฐ ์ฃผ์ด์ก๋ค๊ณ ๊ฐ์ ํ๋ฉฐ, ์ฌ๊ธฐ์ ๊ฐ ์ธ์คํด์ค๋ ์ ๋ ฅ ํ ํฐ ์ํ์ค x1, ... ,xm ๊ณผ ๋ผ๋ฒจ y๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
์ ๋ ฅ์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํต๊ณผํ์ฌ ์ต์ข Transformer ๋ธ๋ก์ ํ์ฑํ๊ฐ h^m_l ์ ์ป์ผ๋ฉฐ, ์ด๋ y๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋งค๊ฐ๋ณ์ Wy๋ฅผ ๊ฐ์ง ์ถ๊ฐ ์ ํ ์ถ๋ ฅ ๋ ์ด์ด์ ์ ๋ ฅ๋ฉ๋๋ค.
์ด๋ก์จ ๋ค์ ๋ชฉํ๋ฅผ ์ต๋ํํ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ๋ ๋ํ ๋ฏธ์ธ ์กฐ์ ์ ์ธ์ด ๋ชจ๋ธ๋ง์ ๋ณด์กฐ ๋ชฉํ๋ก ํฌํจํ๋ ๊ฒ์ด (a) ์ง๋ ๋ชจ๋ธ์ ์ผ๋ฐํ๋ฅผ ๊ฐ์ ํ๊ณ (b) ์๋ ด ์๋๋ฅผ ๊ฐ์ํํ๋ ๋ฐ ๋์์ด ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ ์ด๋ฌํ ๋ณด์กฐ ๋ชฉํ๋ฅผ ํฌํจํ์ ๋ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ๊ด์ฐฐํ ์ด์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ์ผ์นํฉ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ๋ชฉํ๋ฅผ ์ต์ ํํฉ๋๋ค (๊ฐ์ค์น λ์ ํจ๊ป).
๋ฐ์ ์ผ๋ก, ๋ฏธ์ธ ์กฐ์ ๋์ ํ์ํ ์ถ๊ฐ ๋งค๊ฐ๋ณ์๋ Wy์ ๊ตฌ๋ถ ํ ํฐ์ ์๋ฒ ๋ฉ ์ ๋๋ค.
Task-Specific Input Transformations (ํ์คํฌ ํน์ ์ ๋ ฅ ๋ณํ)
- ํ ์คํธ ๋ถ๋ฅ(Text Classification)์ ๊ฐ์ ์์ ์์๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ง์ ๋ฏธ์ธ ์กฐ์ ํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ง๋ฌธ ์๋ต(Question Answering)์ด๋ ํ ์คํธ ํจ์(Textual Entailment)์ฒ๋ผ ๊ตฌ์กฐํ๋ ์ ๋ ฅ(Structured Input)์ ํ์๋ก ํ๋ ์์ ์ ๋ช ๊ฐ์ง ์์ ์ด ํ์ํฉ๋๋ค.
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ ์ด๋ ํํ ์์ ํ์คํฌ ํน์ ์ํคํ ์ฒ(Task-Specific Architecture)๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ์์ ์ ์ํ์ผ๋, ์ด๋ ์ถ๊ฐ์ ์ธ ์ปค์คํฐ๋ง์ด์ง(Customization)์ ์๊ตฌํ๊ณ , ๊ทธ์ ๋ฐ๋ฅธ ํ์ต ๋ถ๋ด์ด ๋์ด๋๋ ๋จ์ ์ด ์์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ Traversal-Style ์ ๊ทผ๋ฒ์ ์ฌ์ฉํด ๊ตฌ์กฐํ๋ ์ ๋ ฅ์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๋ ์ฐ์๋ ์ํ์ค(Continuous Sequence)๋ก ๋ณํํ์ต๋๋ค. ์ด๋ฅผ ํตํด ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ์ต์ํํ๊ณ ๋ค์ํ ์์ ์์ ์ผ๊ด๋ ์ ์ด ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
Experiments
Setup - Unsupervised Learning
๋ณธ ์ฐ๊ตฌ๋ ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ํด BooksCorpus ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ผ๋ฉฐ, ์ด ๋ฐ์ดํฐ์ ์ 7,000๊ถ ์ด์์ ๋ฏธ์ถํ ๋์๋ก ๊ตฌ์ฑ๋์ด ๋ชจํ, ํํ์ง, ๋ก๋งจ์ค ๋ฑ ๋ค์ํ ์ฅ๋ฅด์ ๊ธด ์ฐ์ ํ ์คํธ๋ฅผ ํฌํจํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ฅ๊ธฐ ๋ฌธ๋งฅ์ ํ์ตํ๊ณ , ๋ฌธ๋งฅ์ ์ฐ์์ฑ์ ์ ์งํ ์ ์์ต๋๋ค.
๋ฐ๋ฉด, ELMo๊ฐ ์ฌ์ฉํ๋ 1B Word Benchmark๋ ๋ฌธ์ฅ ๋จ์๋ก ์ ํ๋์ด ์ฅ๊ธฐ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๊ธฐ ์ด๋ ค์ด ํ๊ณ๊ฐ ์์ต๋๋ค. BooksCorpus๋ ์ด๋ฅผ ๊ทน๋ณตํ์ฌ ์ฅ๊ธฐ ์ ๋ณด๋ฅผ ์กฐ๊ฑดํํ๋ ํ์ต์ ์ ๋ฆฌํ ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ํ, ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ BooksCorpus์์ 18.4์ ๋ฎ์ ํ ํฐ ์์ค Perpexity(ํผํ๋ ์ํฐ)๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์ ํํ ๋ค์ ํ ํฐ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค. ์ด๋ ํจ๊ณผ์ ์ธ ์ธ์ด ํํ ํ์ต์ ์ง์ํ๋ ๋ฐ์ดํฐ์ ์ ํน์ฑ์ ์ ๋ณด์ฌ์ค๋๋ค.
Perpexity(ํผํ๋ ์ํฐ)?
LM์ด ์ผ๋ง๋ ๋์ ํ๋ฅ ๋ก ๋ฌธ์ฅ์ ์์ฑํ๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์งํ์ ๋๋ค. Perplexity ๋ฌธ์ฅ ์์ฑํ๋ฅ ์ ์ญ์๋ฅผ ์ทจํจ์ผ๋ก ๋ฎ์์๋ก ์ข์๊ฐ ์ด๋ผ๊ณ ํฉ๋๋ค. ํ์ง๋ง '๋ฌธ์ฅ ์์ฑ ํ๋ฅ ' ์ด๋ผ๋ ๊ฒ์ ๋ฐ์ดํฐ๋ง๋ค ๋ค๋ฅผ ์ ์์ต๋๋ค. (ex. domain๋ง๋ค ์ฐ์ด๋ ๋จ์ด๋ ๊ตฌ๊ฐ ๋ค๋ฅผ ๊ฒ์ผ๋ฏ๋ก). ๋ฐ๋ผ์ ์ผ๋ฐ์ ์ธ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ์๋ ํ๊ณ๊ฐ ์๋ค๊ณ ์๋ ค์ ธ ์์ง๋ง ๋ง์ด ์ฐ์ด๋ ์งํ์ ๋๋ค.
๋ชจ๋ธ ์ฌ์
๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉํ ๋ชจ๋ธ ์ํคํ ์ฒ๋ Transformer์ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋์ฝ๋ ์ ์ฉ Transformer๋ก 12๊ฐ์ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ฃผ์ ์ค์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Self-Attention: ๋ง์คํฌ๋ self-attention ํค๋๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, 768 ์ฐจ์์ ์ํ(hidden state)์ 12๊ฐ์ attention ํค๋๋ฅผ ์ ์ฉํ์ต๋๋ค.
- Feedforward ๋คํธ์ํฌ: 3072 ์ฐจ์์ ๋ด๋ถ ์ํ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ๋ ์ด์ด์์ ์์น๋ณ ํผ๋ํฌ์๋ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ์ต๋๋ค.
- ์ต์ ํ ๋ฐ ํ์ต๋ฅ ์ค์ผ์ค๋ง: Adam ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ์ต๋ ํ์ต๋ฅ ์ 2.5e-4๋ก ์ค์ ํ์ต๋๋ค. ํ์ต๋ฅ ์ ์ด๊ธฐ 2000๋ฒ์ ์ ๋ฐ์ดํธ ๋์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๊ณ , ์ดํ ์ฝ์ฌ์ธ ์ค์ผ์ค๋ก ๊ฐ์์์ผฐ์ต๋๋ค.
- ํ์ต ์ค์ :
- ๋ฏธ๋๋ฐฐ์น: 64๊ฐ์ ๋ฏธ๋๋ฐฐ์น๋ก 512๊ฐ์ ํ ํฐ ์ํ์ค๋ฅผ ์ํ๋งํ์ฌ 100 ์ํฌํฌ ๋์ ํ์ตํ์ต๋๋ค.
- ๋๋กญ์์: ์์ฌ(residual), ์๋ฒ ๋ฉ(embedding), attention ๋ ์ด์ด์ 0.1์ ๋๋กญ์์ ๋น์จ์ ์ ์ฉํ์ต๋๋ค.
- ์ ๊ทํ: ์์ ๋ L2 ์ ๊ทํ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ๋นํธํฅ(non-bias) ๊ฐ์ค์น์ ๋ํด w=0.01๋ก ์ค์ ํ์ต๋๋ค.
- ํ์ฑํ ํจ์: Gaussian Error Linear Unit (GELU)์ ์ฌ์ฉํ์ต๋๋ค.
- ์์น ์๋ฒ ๋ฉ: ์๋์ ์ฌ์ธํ ๋ฐฉ์ ๋์ ํ์ต๋ ์์น ์๋ฒ ๋ฉ(learned positional embeddings)์ ์ฌ์ฉํ์ต๋๋ค.
- ํ ํฌ๋์ด์ง: BooksCorpus์ ํ ์คํธ๋ ftfy ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ์ ๋ฆฌํ๊ณ spaCy ํ ํฌ๋์ด์ ๋ก ์ฒ๋ฆฌํ์ต๋๋ค. Byte Pair Encoding (BPE)๋ฅผ ์ฌ์ฉํ์ฌ 40,000๊ฐ์ ๋ณํฉ ์ดํ๋ฅผ ์์ฑํ์ต๋๋ค.
12 layers
768dim | 12 heads | 3072 FFN intermediate
Adam Optimizer with linear scheduling
train for 100 epochs on minibatches of 64 randomly sampled, contiguous sequences of 512 tokens (=max_len)
bytepair encoding (BPE) vocabulary with 40,000 merges
Gaussian Error Linear Unit (GELU)
PE : learned position embeddings
Fine-Tuning(๋ฏธ์ธ ์กฐ์ ) ์ธ๋ถ ์ฌํญ
๋ฏธ์ธ ์กฐ์ (Fine-Tuning) ๋จ๊ณ์์๋ ๋๋ถ๋ถ ๋น์ง๋ ์ฌ์ ํ์ต(Unsupervised Pre-Training)์์ ์ค์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ์ต๋๋ค. ์ฃผ์ ์ธ๋ถ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋๋กญ์์: ๋ถ๋ฅ๊ธฐ(Classifier)์ 0.1์ ๋๋กญ์์์ ์ถ๊ฐํ์ต๋๋ค.
- ํ์ต๋ฅ ๋ฐ ๋ฐฐ์น ํฌ๊ธฐ:
- ํ์ต๋ฅ : 6.25e-5
- ๋ฐฐ์น ํฌ๊ธฐ: 32
- ํ์ต ํจ์จ: ๋๋ถ๋ถ์ ์์ ์์ 3 ์ํฌํฌ์ ํ์ต์ผ๋ก ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ฐํํ์ต๋๋ค.
- ํ์ต๋ฅ ์ค์ผ์ค๋ง: 0.2%์ ํ์ต ๋์ ์๋ฐ์ (warm-up)๊ณผ ์ ํ ํ์ต๋ฅ ๊ฐ์ ์ค์ผ์ค์ ์ฌ์ฉํ์ต๋๋ค.
- ๋ณด์กฐ ๋ชฉํ ๊ฐ์ค์น (λ\lambdaλ): 0.5๋ก ์ค์ ํ์ต๋๋ค.
Supervised Fine-Tuning
๋ณธ ์ฐ๊ตฌ์์๋ ์์ฐ์ด ์ถ๋ก (Natural Language Inference), ์ง๋ฌธ ์๋ต(Question Answering), ์๋ฏธ ์ ์ฌ์ฑ(Semantic Similarity), ํ ์คํธ ๋ถ๋ฅ(Text Classification)์ ๊ฐ์ ๋ค์ํ ์ง๋ ํ์ต(Supervised Learning) ์์ ์์ ์คํ์ ์ํํ์ต๋๋ค. ํนํ, GLUE ๋ค์ค ์์ ๋ฒค์น๋งํฌ(GLUE Multi-Task Benchmark)์ ํฌํจ๋ ์์ ์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค.
์์ฐ์ด ์ถ๋ก (Natural Language Inference, NLI)
์์ฐ์ด ์ถ๋ก (NLI)๋ ํ ์คํธ ํจ์ ์ธ์(Textual Entailment Recognition)์ผ๋ก๋ ์๋ ค์ ธ ์์ผ๋ฉฐ, ๋ ๊ฐ์ ๋ฌธ์ฅ์ ๋น๊ตํ์ฌ ํจ์(Entailment), ๋ชจ์(Contradiction), ์ค๋ฆฝ(Neutral) ์ค ํ๋๋ก ๊ด๊ณ(Relationship)๋ฅผ ํ๋จํ๋ ์์ ์ ๋๋ค. ์ด ์์ ์ ์ดํ์ ํจ์(Lexical Entailment), ๊ณต๋ ์ฐธ์กฐ(Coreference), ์ดํ์ ๋ฐ ๊ตฌ๋ฌธ์ ๋ชจํธ์ฑ(Lexical and Syntactic Ambiguity) ๋ฑ์ ๋ค์ํ ์ธ์ด ํ์์ผ๋ก ์ธํด ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๋ค์ํ ์ถ์ฒ์์ ์์ง๋ ๋ค์ฏ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ํตํด NLI ์์ ์ ํ๊ฐํ์ต๋๋ค:
- SNLI (Stanford Natural Language Inference): ์ด๋ฏธ์ง ์บก์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ ํ ์คํธ
- MNLI (Multi-Genre Natural Language Inference): ์์ฑ ์ ์ฌ, ๋์ค ์์ค, ์ ๋ถ ๋ณด๊ณ ์ ๋ฑ ๋ค์ํ ์ถ์ฒ์ ํ ์คํธ
- QNLI (Question Natural Language Inference): ์ํคํผ๋์ ๋ฌธ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ํ ์คํธ
- SciTail: ๊ณผํ ์ํ ๋ฌธ์
- RTE (Recognizing Textual Entailment): ๋ด์ค ๊ธฐ์ฌ ๋ฐ ์ ๋ถ ๋ณด๊ณ ์ ๊ธฐ๋ฐ์ ์์ ๋ฐ์ดํฐ์
์คํ ๊ฒฐ๊ณผ
Table 2์ ์คํ ๊ฒฐ๊ณผ๋ ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ด ๊ธฐ์กด์ ์ต์ฒจ๋จ ๋ฐฉ๋ฒ(State-of-the-Art Approaches)๊ณผ ๋น๊ตํด NLI ์์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์์ ๋ณด์ฌ์ค๋๋ค. ๋ค์์ ์ฃผ์ ์ฑ๊ณผ ์์ฝ์ ๋๋ค:
- MNLI: 1.5% ์ ๋ ์ฑ๋ฅ ํฅ์
- SciTail: 5% ์ ๋ ์ฑ๋ฅ ํฅ์
- QNLI: 5.8% ์ ๋ ์ฑ๋ฅ ํฅ์
- SNLI: 0.6% ์ ๋ ์ฑ๋ฅ ํฅ์
์ ๊ฒฐ๊ณผ๋ค์ ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ด ์ฌ๋ฌ ๋ฌธ์ฅ์ ๋๋๋๋ ์ถ๋ก ์ ๋ ์ ์ํํ๋ฉฐ, ์ธ์ด์ ๋ชจํธ์ฑ(Linguistic Ambiguity)์ ์ฒ๋ฆฌํ๋ ๋ฐ ํ์ํ ๋ฅ๋ ฅ์ ๋ณด์ ํ๊ณ ์์์ ์์ฌํฉ๋๋ค.
RTE์์๋ 2490๊ฐ์ ์์ ๋ก ๊ตฌ์ฑ๋ ๋น๊ต์ ์์ ๋ฐ์ดํฐ์ ์์ 56%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ๋ค์ค ์์ biLSTM ๋ชจ๋ธ(Multi-Task biLSTM Model)์ด ๋ณด๊ณ ํ 61.7%๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ๋๋ค. ํ์ง๋ง, ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ด ๋ ํฐ NLI ๋ฐ์ดํฐ์ ์์๋ ํ์ํ ์ฑ๋ฅ์ ๋ณด์๊ธฐ ๋๋ฌธ์, ๋ค์ค ์์ ํ์ต(Multi-Task Learning)์ ํตํด ์ถ๊ฐ์ ์ธ ์ด์ ์ ์ป์ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ๋ค๋ง, ํ์ฌ๋ก์๋ ์ด ๊ฐ๋ฅ์ฑ์ ๊น์ด ํ๊ตฌํ์ง ์์์ต๋๋ค.
์ง๋ฌธ ์๋ต ๋ฐ ์์ ์ถ๋ก (Question Answering and Commonsense Reasoning)
์ง๋ฌธ ์๋ต(Question Answering)์ ๋จ์ผ ๋ฌธ์ฅ ๋ฐ ๋ค์ค ๋ฌธ์ฅ ์ถ๋ก (Single and Multi-Sentence Reasoning)์ ์๊ตฌํ๋ ์์ ์ผ๋ก, ๊ธด ๋ฒ์์ ์ปจํ ์คํธ(Context)๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ์ ์ ํฉํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ RACE ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ต๋๋ค. RACE๋ ์คํ๊ต์ ๊ณ ๋ฑํ๊ต ์ํ์ ์์ด ์ง๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ง๋ฌธ ์๋ต ๋ฐ์ดํฐ์ ์ผ๋ก, CNN์ด๋ SQuAD์ ๊ฐ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ณด๋ค ๋ค์ํ ์ ํ์ ์ถ๋ก ์ ํฌํจํ๊ณ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธด ๋ฌธ๋งฅ(Long Context)์ ์ฒ๋ฆฌํ๋๋ก ํ์ต๋ ๋ชจ๋ธ์ ํ๊ฐํ ์ ์์์ต๋๋ค.
๋ํ, Story Cloze Test์์๋ ํ๊ฐ๋ฅผ ์ํํ๋๋ฐ, ์ด ์์ ์ ๋ ๊ฐ์ง ์ ํ์ง ์ค ์ฌ๋ฐ๋ฅธ ์ด์ผ๊ธฐ ๊ฒฐ๋ง์ ์ ํํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. ์ด ๋ ์์ ์์ ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ ์ด์ ์ต๊ณ ์ฑ๊ณผ๋ฅผ ์๋นํ ์ด๊ณผํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค:
- Story Cloze Test: 8.9%์ ์ฑ๋ฅ ํฅ์
- RACE: ์ ์ฒด์ ์ผ๋ก 5.7%์ ์ฑ๋ฅ ํฅ์
์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ณธ ์ฐ๊ตฌ์ Generative Pre-Training ๋ชจ๋ธ์ด ๊ธด ๋ฒ์์ ์ปจํ ์คํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์์ ์์ฌํฉ๋๋ค.
์๋ฏธ ์ ์ฌ์ฑ (Semantic Similarity)
์๋ฏธ ์ ์ฌ์ฑ(Semantic Similarity) ์์ ์ ๋ ๋ฌธ์ฅ์ด ์๋ฏธ์ ์ผ๋ก ๋๋ฑํ์ง ์๋์ง๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋๋ค.
์ด ์์ ์ ๊ฐ๋ ์ ์ฌํํ(Paraphrasing)์ ์ธ์ํ๊ณ , ๋ถ์ ํํ(Negation)์ ์ดํดํ๋ฉฐ, ๊ตฌ๋ฌธ์ ๋ชจํธ์ฑ(Syntactic Ambiguity)์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ด ์๊ตฌ๋ฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ธ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ๊ฐ๋ฅผ ์งํํ์ต๋๋ค:
- Microsoft Paraphrase Corpus (MRPC)
- Quora Question Pairs (QQP)
- Semantic Textual Similarity Benchmark (STS-B)
๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ ์ธ ๊ฐ์ ์๋ฏธ ์ ์ฌ์ฑ ์์ ์ค ๋ ๊ฐ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํนํ STS-B์์๋ 1ํฌ์ธํธ์ ์ ๋์ ์ธ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋กํ์ต๋๋ค. QQP์์๋ ๊ธฐ์กด Single-task BiLSTM + ELMo + Attn ๋ชจ๋ธ์ ๋นํด 4.2%์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด ์์ ์์์ ๋๋๋ฌ์ง ์ฑ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค.
๋ถ๋ฅ (Classification)
๋ง์ง๋ง์ผ๋ก, ์ฐ๊ตฌ๋ ๋ ๊ฐ์ง ํ ์คํธ ๋ถ๋ฅ ์์ ์์ ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค.
- Corpus of Linguistic Acceptability (CoLA): ๋ฌธ์ฅ์ด ๋ฌธ๋ฒ์ ์ผ๋ก ์ฌ๋ฐ๋ฅธ์ง์ ๋ํ ์ ๋ฌธ๊ฐ์ ํ๋จ์ ํฌํจํ๋ฉฐ, ๋ชจ๋ธ์ ๋ด์ฌ๋ ์ธ์ด์ ํธํฅ(Linguistic Bias)์ ํ ์คํธํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- Stanford Sentiment Treebank (SST-2): ํ์ค ์ด์ง ๋ถ๋ฅ(Binary Classification) ์์ ์ผ๋ก, ๊ธ์ ๋ฐ ๋ถ์ ๊ฐ์ ๋ถ์์ ํ๊ฐํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ CoLA์์ 45.4์ ์ ์๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์ด์ ์ต๊ณ ์ฑ๊ณผ์ธ 35.0์ ํฌ๊ฒ ๋ฅ๊ฐํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ด์ฌ๋ ์ธ์ด์ ํธํฅ์ ์ ํ์ตํ์์ ๋ณด์ฌ์ค๋๋ค. SST-2์์๋ 91.3%์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ์ฌ, ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ค๊ณผ ๊ฒฝ์ํ ๋งํ ์ฑ๊ณผ๋ฅผ ๋์ต๋๋ค.
๋ํ, ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ GLUE ๋ฒค์น๋งํฌ์์ 72.8์ ์ ์๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์ด์ ์ต๊ณ ์ ์์ธ 68.9๋ฅผ ๋ฐ์ด๋์ด ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค.
์ ๋ฐ์ ์ธ ์ฑ๊ณผ
๋ณธ ์ฐ๊ตฌ์ Generative Pre-Training ์ ๊ทผ๋ฒ์ ํ๊ฐํ 12๊ฐ์ ๋ฐ์ดํฐ์ ์ค 9๊ฐ์์ ์๋ก์ด ์ต์ฒจ๋จ(State-of-the-Art) ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ํนํ ์์๋ธ ๋ชจ๋ธ(Ensemble Models)๊ณผ ๋น๊ตํด๋ ๋จ์ผ ๋ชจ๋ธ๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ, ์ ๊ทผ๋ฒ์ ํจ์จ์ฑ๊ณผ ๊ฐ๋ ฅํจ์ ์ ์ฆํ์ต๋๋ค.
๋ํ, ๋ณธ ์ ๊ทผ๋ฒ์ ๋ค์ํ ํฌ๊ธฐ์ ๋ฐ์ดํฐ์ ์์๋ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ฐํํ์ต๋๋ค.
- ์๋ฅผ ๋ค์ด Embedding(์๋ฒ ๋ฉ)์ ๋ฐ์ดํฐ์ (STS-B, ์ฝ 5,700๊ฐ์ ํ์ต ์์ )๋ถํฐ ๊ฐ์ฅ ํฐ ๋ฐ์ดํฐ์ (SNLI, ์ฝ 55๋ง ๊ฐ์ ํ์ต ์์ )๊น์ง ๋ชจ๋์์ ์ฐ์ํ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค.
์ด๋ ์ ์ด ํ์ต(Transfer Learning) ์ ๊ทผ๋ฒ์ด ๋ค์ํ ๋ฐ์ดํฐ์ ๊ท๋ชจ์ ์ ํ์ ์ ์ํ ์ ์๋ ์ ์ฐ์ฑ๊ณผ ํ์ฅ์ฑ์ ๊ฐ์ก์์ ๋ณด์ฌ์ค๋๋ค.
Analysis
์ ์ด๋ ๋ ์ด์ด ์์ ์ํฅ (Impact of Number of Layers Transferred)
๋ณธ ์ฐ๊ตฌ์์๋ ๋น์ง๋ ์ฌ์ ํ์ต(Unsupervised Pre-Training)์์ ํ์ต๋ ๋ ์ด์ด ์๋ฅผ ์ ์ด(Transferred)ํ ๋, ์ง๋ ๋์ ์์ (Supervised Target Task)์์์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ์ต๋๋ค. Figure 2(์ผ์ชฝ)๋ ์ ์ด๋ ๋ ์ด์ด ์์ ๋ฐ๋ฅธ MultiNLI์ RACE์์์ ์ฑ๋ฅ ๋ณํ๋ฅผ ์๊ฐ์ ์ผ๋ก ๋ํ๋ ๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์๋ฒ ๋ฉ(Embeddings)์ ์ ์ดํ๋ฉด ๊ธฐ๋ณธ์ ์ผ๋ก ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค.
- ๊ฐ Transformer ๋ ์ด์ด๋ฅผ ์ถ๊ฐ๋ก ์ ์ดํ ๋๋ง๋ค MultiNLI์์ ์ ์ฒด ์ ์ด ์ ์ต๋ 9%์ ์ฑ๋ฅ ์ด์ ์ ์ป์ ์ ์์์ต๋๋ค.
- ์ด๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ ๋ ์ด์ด๊ฐ ๋์ ์์ ์ ํด๊ฒฐํ๋ ๋ฐ ์ ์ฉํ ๊ธฐ๋ฅ์ ํฌํจํ๊ณ ์์์ ์์ฌํฉ๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ Generative Pre-Training ์ ๊ทผ๋ฒ์ด ๋ชจ๋ธ์ ๊ณ์ธต์ ํ์ต ๊ตฌ์กฐ(Hierarchical Learning Structure)๋ฅผ ํ์ฉํด, ๋ค์ํ ์์ค์ ์ธ์ด์ ํจํด๊ณผ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ ์ด๋๋ ๋ ์ด์ด๊ฐ ๋ง์์ง์๋ก ๋ ๋ง์ ์ ์ฉํ ๊ธฐ๋ฅ์ด ๋ณด์กด๋๋ฉฐ, ์ด๋ฅผ ํตํด ๋์ ์์ ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ ์ ์์ต๋๋ค.
์ ๋ก์ท ํ๋ (Zero-shot Behaviors)
๋ณธ ์ฐ๊ตฌ์์๋ Transformer์ ์ธ์ด ๋ชจ๋ธ ์ฌ์ ํ์ต์ด ์ ํจ๊ณผ์ ์ธ์ง์ ๋ํ ์ดํด๋ฅผ ๋์ด๊ณ ์ ์ ๋ก์ท(Zero-Shot) ํ๋์ ๋ถ์ํ์ต๋๋ค. ์ ๋ก์ท ํ์ต์ด๋, ์ง๋ ๋ฏธ์ธ ์กฐ์ (Supervised Fine-Tuning) ์์ด ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ ์๋ฏธํฉ๋๋ค.
ํ๋์ ๊ฐ์ค์ ๊ธฐ๋ณธ ์์ฑ ๋ชจ๋ธ(Generative Model)์ด ์ธ์ด ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ํ์ต๋๋ ๊ณผ์ ์์ ์ฐ๋ฆฌ๊ฐ ํ๊ฐํ๋ ๋ง์ ์์ ์ ์ํํ๋๋ก ํ์ต๋๋ค๋ ๊ฒ์ ๋๋ค. ๋ํ, Transformer์ ๊ตฌ์กฐํ๋ ์ฃผ์ ๋ฉ๋ชจ๋ฆฌ(Attentional Memory)๊ฐ LSTM๊ณผ ๋น๊ตํ์ ๋ ์ ์ด(Transfer)์ ๋์์ด ๋๋ค๋ ์ ๋ ์ฃผ๋ชฉํ์ต๋๋ค.
๋ํ ์์ฑ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ง๋ ๋ฏธ์ธ ์กฐ์ ์์ด ์ฌ๋ฌ ์์ ์ ์ํํ ์ ์๋ ํด๋ฆฌ์คํฑ ์๋ฃจ์ (Heuristic Solutions)์ ์ค๊ณํ์ต๋๋ค. Figure 2(์ค๋ฅธ์ชฝ)์์๋ ์์ฑ ์ฌ์ ํ์ต ๋์ ์ด๋ฌํ ํด๋ฆฌ์คํฑ์ ์ฑ๋ฅ์ ์๊ฐ์ ์ผ๋ก ๋ํ๋์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ํด๋ฆฌ์คํฑ ์ฑ๋ฅ์ด ํ์ต ๊ณผ์ ๋์ ์์ ์ ์ด๊ณ ๊พธ์คํ ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ ๋ณด์์ผ๋ฉฐ, ์ด๋ ์์ฑ ์ฌ์ ํ์ต์ด ๋ค์ํ ์์ ๊ณผ ๊ด๋ จ๋ ๊ธฐ๋ฅ ํ์ต(Feature Learning)์ ์ง์ํ๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค.
ํนํ, LSTM์ ์ ๋ก์ท ์ฑ๋ฅ์์ ๋์ ๋ณ๋์ฑ์ ๋ณด์๋๋ฐ, ์ด๋ Transformer ์ํคํ ์ฒ์ ๊ท๋ฉ์ ํธํฅ(Inductive Bias)์ด ์ ์ด ํ์ต์ ๋ ์ ๋ฆฌํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค.
์์ ๋ณ ํด๋ฆฌ์คํฑ ์์
- CoLA (์ธ์ด์ ํ์ฉ์ฑ): ์์ฑ ๋ชจ๋ธ์ด ํ ๋นํ ํ๊ท ํ ํฐ ๋ก๊ทธ-ํ๋ฅ ๋ก ์์ ๋ฅผ ์ ์ํํ๊ณ ์๊ณ๊ฐ(Threshold)์ ๊ธฐ์ค์ผ๋ก ์์ธกํฉ๋๋ค.
- SST-2 (๊ฐ์ ๋ถ์): ๊ฐ ์์ ์ ํ ํฐ "very"๋ฅผ ์ถ๊ฐํ๊ณ , "positive"์ "negative"๋ก ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์ ํํ์ฌ ๋ ๋์ ํ๋ฅ ์ ํ ๋นํ ํ ํฐ์ ์์ธก๊ฐ์ผ๋ก ์ ํํฉ๋๋ค.
- RACE (์ง๋ฌธ ์๋ต): ๋ฌธ์์ ์ง๋ฌธ์ ์กฐ๊ฑด์ผ๋ก ํ์ฌ ๊ฐ์ฅ ๋์ ํ๊ท ํ ํฐ ๋ก๊ทธ-ํ๋ฅ ์ ํ ๋นํ ๋ต๋ณ์ ์ ํํฉ๋๋ค.
- DPRD (Winograd Schemas): ์ ๊ด์ฌ ๋๋ช ์ฌ๋ฅผ ๋ ๊ฐ์ง ๊ฐ๋ฅํ ์ฐธ์กฐ์ด๋ก ๋์ฒดํ๊ณ , ์์ฑ ๋ชจ๋ธ์ด ๋ ๋์ ํ๊ท ํ ํฐ ๋ก๊ทธ-ํ๋ฅ ์ ํ ๋นํ ํด์์ ์์ธกํฉ๋๋ค.
์ ๋จ ์ฐ๊ตฌ (Ablation Studies)
๋ณธ ์ฐ๊ตฌ์์๋ ์ธ ๊ฐ์ง ์ ๋จ ์ฐ๊ตฌ(Ablation Studies)๋ฅผ ์ํํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ ์์๋ฅผ ๋ถ์ํ์ต๋๋ค (Table 5 ์ฐธ์กฐ).
- ๋ณด์กฐ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉํ์ ์ํฅ:
- ๋ณด์กฐ ๋ชฉํ(Auxiliary Objective) ์์ด ๋ฏธ์ธ ์กฐ์ ์ ์ํํ ๋์ ์ฑ๋ฅ์ ๋ถ์ํ ๊ฒฐ๊ณผ, NLI ์์ ๊ณผ QQP์์ ๋ณด์กฐ ๋ชฉํ๊ฐ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
- ํนํ ํฐ ๋ฐ์ดํฐ์ ์ด ๋ณด์กฐ ๋ชฉํ์ ์ด์ ์ ์ป์์ง๋ง, ์์ ๋ฐ์ดํฐ์ ์์๋ ์ด๋ฌํ ํจ๊ณผ๊ฐ ๋๋๋ฌ์ง์ง ์์์ต๋๋ค. ์ด๋ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ์์ ๋ณด์กฐ ๋ชฉํ๊ฐ ๋ ์ ์ฉํ๋ค๋ ์ ์ ์์ฌํฉ๋๋ค.
- LSTM๊ณผ์ ๋น๊ต:
- ๋์ผํ ํ๋ ์์ํฌ์์ ๋จ์ผ ๋ ์ด์ด 2048 ์ ๋ LSTM๊ณผ Transformer์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒฐ๊ณผ, LSTM์ ์ฌ์ฉํ์ ๋ ํ๊ท ์ ์๊ฐ 5.6์ ํ๋ฝํ์ต๋๋ค.
- LSTM์ ๋จ ํ๋์ ๋ฐ์ดํฐ์ (MRPC)์์๋ง Transformer๋ฅผ ๋ฅ๊ฐํ์ผ๋ฉฐ, ์ด๋ Transformer์ ๊ตฌ์กฐ์ ์ด์ ์ ์ฌ์ฐจ ํ์ธ์์ผ์ค๋๋ค.
- ์ฌ์ ํ์ต ์๋ ๋ชจ๋ธ๊ณผ์ ๋น๊ต:
- ์ฌ์ ํ์ต ์์ด ์ง๋ ๋์ ์์ ์ ์ง์ ํ๋ จํ Transformer ์ํคํ ์ฒ์ ๋น๊ตํ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต์ ๋ถ์ฌ๋ ๋ชจ๋ ์์ ์์ ์ฑ๋ฅ ์ ํ๋ฅผ ์ด๋ํ์ต๋๋ค.
- ์ฌ์ ํ์ต๋ ์ ์ฒด ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ ์ฑ๋ฅ์ด 14.8% ๊ฐ์ํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ด๋ ์ฌ์ ํ์ต(Pre-Training)์ ์ค์์ฑ์ ๋ถ๋ช ํ ๋ณด์ฌ์ค๋๋ค.
Conclusion
์์ฑ ์ฌ์ ํ์ต๊ณผ ํ๋ณ์ ๋ฏธ์ธ ์กฐ์ ์ ํตํด ๋จ์ผ ํ์คํฌ ๋น์์กด ๋ชจ๋ธ๋ก ๊ฐ๋ ฅํ ์์ฐ์ด ์ดํด๋ฅผ ๋ฌ์ฑํ๋ ํ๋ ์์ํฌ๋ฅผ ์๊ฐํ์ต๋๋ค. ์ฐ์๋ ํ ์คํธ๋ก ๊ตฌ์ฑ๋ ๋ค์ํ ์ฝํผ์ค์์ ์ฌ์ ํ์ตํจ์ผ๋ก์จ, ์ฐ๋ฆฌ ๋ชจ๋ธ์ ์๋นํ ์ธ๊ณ ์ง์๊ณผ ์ฅ๊ธฐ ์์กด์ฑ์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ ์ต๋ํ๊ฒ ๋์์ผ๋ฉฐ, ์ด๋ ์ง๋ฌธ ์๋ต, ์๋ฏธ ์ ์ฌ์ฑ ํ๊ฐ, ํจ์ ๊ฒฐ์ , ํ ์คํธ ๋ถ๋ฅ์ ๊ฐ์ ํ๋ณ์ ์์ ์ ํด๊ฒฐํ๋ ๋ฐ ์ฑ๊ณต์ ์ผ๋ก ์ ์ด๋์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ฐ๋ฆฌ๊ฐ ์ฐ๊ตฌํ 12๊ฐ์ ๋ฐ์ดํฐ์ ์ค 9๊ฐ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค.
ํ๋ณ์ ์์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋น์ง๋ (์ฌ์ ) ํ์ต์ ์ฌ์ฉํ๋ ๊ฒ์ ์ค๋ซ๋์ ๊ธฐ๊ณ ํ์ต ์ฐ๊ตฌ์ ์ค์ํ ๋ชฉํ์์ต๋๋ค. ์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ ๊ฒ์ด ์ค์ ๋ก ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์์ฌํ๋ฉฐ, ์ด๋ค ๋ชจ๋ธ(Transformer)๊ณผ ๋ฐ์ดํฐ์ (์ฅ๊ธฐ ์์กด์ฑ์ ๊ฐ์ง ํ ์คํธ)์ด ์ด ์ ๊ทผ ๋ฐฉ์๊ณผ ๊ฐ์ฅ ์ ๋ง๋์ง์ ๋ํ ๋จ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด๊ฒ์ด ์์ฐ์ด ์ดํด์ ๋ค๋ฅธ ๋๋ฉ์ธ์์ ๋น์ง๋ ํ์ต์ ๋ํ ์๋ก์ด ์ฐ๊ตฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ฌ, ๋น์ง๋ ํ์ต์ด ์ด๋ป๊ฒ, ์ธ์ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋์ง์ ๋ํ ์ดํด๋ฅผ ๋์ฑ ํฅ์์ํค๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค.
'๐ฃ๏ธ Large Language Model (LLM)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[LLM] Parameter-Efficient Transfer Learning for NLP ๋ฆฌ๋ทฐ (0) | 2024.11.18 |
---|---|
[LLM] Training language models to follow instructions with human feedback (Instruct GPT / RLHF) Review (0) | 2024.10.30 |
[LLM] Retrieve Augmented Generation (RAG) (0) | 2024.09.15 |
[LLM] Prompt Engineering (ํ๋กฌํฌํธ ์์ง๋์ด๋ง) (0) | 2024.09.14 |
[LLM] What is Large Language Model (LLM)? (0) | 2024.09.11 |