์ด๋ฒ์, BART Model์ ๋ํ์ฌ ๊ณต๋ถํ ๋ด์ฉ์ ์ ๋ฆฌํด ๋ณด๊ฒ ์ต๋๋ค.
What is BART?
BART(Bidirectional and Auto-Regressive Transformers) ๋ชจ๋ธ์ Facebook AI(ํ Meta AI)์์ 2019๋ ์ ์๊ฐํ sequence-to-sequence ๋ชจ๋ธ์ ๋๋ค. BART๋ BERT์ GPT์ ์ฅ์ ์ ๊ฒฐํฉํ ๋ชจ๋ธ์ ๋๋ค.
BERT ๋ชจ๋ธ์ Bidrectional(์๋ฐฉํฅ)์ผ๋ก ์ธ์ด Sequence์ Token๋ค์ Attention ๋งค์ปค๋์ฆ์ ๋ฐ์ํ์ฌ ๋ฌธ์๋ฅผ Encoding ํ๋ ๋ด์ฉ,
GPT์ Generative Decoder๋ฅผ ํ์ฉํ, ์ด๋๊น์ง์ ์ ๋ ฅ์ ๋ฐํ์ผ๋ก ์๋ก์ด ์ถ๋ ฅ์ ๋ง๋๋ Generative model ์ ๋๋ค.
์ ๋ฆฌํ๋ฉด, ๊ธฐ๋ณธ์ Sequence-to-Sequence Transformer Model์ ์๋ก์ Pre-Training Objective๋ฅผ ํตํด Train ์์ผ ํ๋๋ก ํฉ์น ๋ชจ๋ธ์ ๋๋ค.
Abstract
BART๋ ์ฌ์ ํ์ต ๋ชฉํ๋ก Denoising Task๋ฅผ ์ฑํํ๊ณ , Sequence-to-Sequence(Seq2Seq) ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ณธ์ผ๋ก ํ๋ ๋ชจ๋ธ์ ๋๋ค. BART๋ ํ ์คํธ์ ์์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ์์์ํจ ํ, ์ด๋ฅผ ์๋ณธ ํ ์คํธ๋ก ๋ณต๊ตฌํ๋ ๋ฐฉ์์ผ๋ก ํ์ต๋ฉ๋๋ค.
Seq2Seq์ Encoder๋ BERT์ ์ ์ฌํ ์๋ฐฉํฅ Encoder์ ํน์ฑ์ ๊ฐ์ง๋ฉฐ, Decoder๋ GPT์ ๊ฐ์ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์๋ํ๋ Auto-Regressive ํน์ฑ์ ์ง๋๊ณ ์์ด, BART๋ BERT์ GPT์ ์ฅ์ ์ ๊ฒฐํฉํ ๋ชจ๋ธ๋ก ๋ณผ ์ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ค์ํ ๋ ธ์ด์ง ๊ธฐ๋ฒ์ ํ๊ฐํ์ฌ ๋ฌธ์ฅ์ ์์๋ฅผ ์์๋ก ์๋ ๊ฒ๊ณผ Text Infilling ์คํด(์คํฌ ๋จ์์ ํ ์คํธ๊ฐ ํ๋์ ๋ง์คํฌ ํ ํฐ์ผ๋ก ์นํ๋จ)์ ์ฌ์ฉํ ๋ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์์ ๋ฐ๊ฒฌํ์์ต๋๋ค. BART๋ ํนํ ํ ์คํธ ์์ฑ์ ๋ํด fine-tuned ๋์์ ๋ ํจ์จ์ ์ด๋ฉฐ, ์ดํด๋ ฅ ํ ์คํธ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
GLUE์ SQuAD์์ RoBERTa ์ด์์ ์ฑ๋ฅ์, ROUGE ์ ์์์๋ 6์ ์ด์ ํฅ์์ํค๋ฉฐ, Abstractive Dialogue, Question Answering, Summarization ํ์คํฌ์์ State-of-the-Art(SOTA)๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค. ๋ํ, ablation ์คํ์ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ์ฆํ์์ต๋๋ค.
Introduction
์๊ธฐ ์ง๋ ํ์ต(Self-supervised learning)์ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ํ์คํฌ์์ ๊ด๋ชฉํ ๋งํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์์ต๋๋ค.
๋ํ์ ์ธ ๋ชจ๋ธ๋ก๋ Word2Vec, ELMo, BERT, SpanBERT, XLNet, RoBERTa ๋ฑ์ด ์์ผ๋ฉฐ, ์ด๋ค ์ค ๊ฐ์ฅ ์ฑ๊ณต์ ์ธ ์ ๊ทผ๋ฒ์ Denoising Autoencoder๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ Masked Language Model(MLM) ๋ณํ๋ค์ ๋๋ค.
๊ทธ๋ฌ๋ ๊ธฐ์กด์ MLM ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ํน์ ํ์คํฌ์๋ง ์ต์ ํ๋์ด ํ์ฉ์ฑ์ด ์ ํ๋๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
MLM ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ฃผ์ ํ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํน์ ํ์คํฌ์ ๋ํ ์ต์ ํ: MLM์ ์ฃผ๋ก ํ ์คํธ ์ดํด ํ์คํฌ์ ์ต์ ํ๋์ด ์์ด, ํ ์คํธ ์์ฑ๊ณผ ๊ฐ์ ๋ค๋ฅธ ๋ฒ์ฃผ์ ํ์คํฌ์์๋ ์ฑ๋ฅ์ด ์ ํ์ ์ผ ์ ์์ต๋๋ค.
- ๋จ์ผ ๋ฐฉํฅ์ฑ์ ํ๊ณ: BERT์ ๊ฐ์ ๋ชจ๋ธ์ Encoder-only ๊ตฌ์กฐ๋ก ์ธํด ์์ฐ์ด ์์ฑ(NLG) ํ์คํฌ์์ ์ง์ ์ ์ผ๋ก ํ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, Seq2Seq ๋ชจ๋ธ๋ก ๊ตฌํ๋ denoising autoencoder์ธ Bidirectional and Auto-Regressive Transformers, BART๋ฅผ ์ ์ํฉ๋๋ค
BART๋ Bidirectional Encoder์ Auto-Regressive Decoder๋ฅผ ๊ฒฐํฉํ Seq2Seq(Sequence-to-Sequence) ๋ชจ๋ธ๋ก, BERT์ GPT์ ์ฅ์ ์ ํตํฉํ์ฌ ๋ณด๋ค ์ ์ฐํ๊ณ ๊ฐ๋ ฅํ ํํ๋ ฅ์ ์ง๋๊ณ ์์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, BART๋ ๋ค์ํ noising functions์ ์ ์ฉํ์ฌ ํ ์คํธ๋ฅผ ์์๋ก ๋ณํ์ํค๊ณ , ์ด๋ฅผ ์๋ณธ ํ ์คํธ๋ก ๋ณต์ํ๋ Denoising Autoencoder ๋ฐฉ์์ผ๋ก ์ฌ์ ํ์ต๋ฉ๋๋ค.
(a) BERT: Random Token ๋ค์ด Mask๋ก ๋์ฒด๋๊ณ , ๋ฌธ์๋ Bidrectional(์๋ฐฉํฅ)์ผ๋ก Encoding๋ฉ๋๋ค.
๋น ์ง Toekn๋ค์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ธก๋๊ธฐ ๋๋ฌธ์, BERT๋ ์์ฑ์ ์ํด ์ฝ๊ฒ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
(b) GPT: Token๋ค์ AutoRegressive(์๋ ํ๊ท)์ ์ผ๋ก ์์ธก๋์ด, ์์ฑ์ ์ํด ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ง๋ง ๋จ์ด๋ค์ ์ผ์ชฝ ๋งฅ๋ฝ์๋ง ์กฐ๊ฑด์ ๋ฌ ์ ์์ผ๋ฏ๋ก, Bidrectional(์๋ฐฉํฅ) ์ํธ์์ฉ์ ํ์ตํ ์ ์์ต๋๋ค.
(c) BART: Encoder์ ๋ํ ์ ๋ ฅ์ Devoder ์ถ๋ ฅ๊ณผ ์ ๋ ฌ๋ ํ์๊ฐ ์์ผ๋ฉฐ, ์์์ ์ก์ ๋ณํ์ ํ์ฉํฉ๋๋ค.
์ฌ๊ธฐ์์ ๋ฌธ์๋ Mask ์ฌ๋ณผ๋ก ํ ์คํธ์ ์ผ๋ถ๋ถ์ ๋์ฒดํ์ฌ ์์๋์์ต๋๋ค. ์์๋ ๋ฌธ์(์ผ์ชฝ)๋ Bidrectional(์๋ฐฉํฅ) ๋ชจ๋ธ๋ก Encoding๋๋ฉฐ, ๊ทธ ํ ์๋ณธ ๋ฌธ์์ ๊ฐ๋ฅ์ฑ(์ค๋ฅธ์ชฝ)์ AutoRegressive(์๋ ํ๊ท) Decoder๋ก ๊ณ์ฐ๋ฉ๋๋ค.
Fine-Tuning ์, ์์๋์ง ์์ ๋ฌธ์๋ Encoder์ Decoder ๋ชจ๋์ ์ ๋ ฅ๋๊ณ , ์ฐ๋ฆฌ๋ Decoder์ ์ต์ข ์จ๊ฒจ์ง ์ํ์์ ํํ์ ์ฌ์ฉํฉ๋๋ค.
์ด๋ Arbitrary Transformations์ ํตํด ์๋ณธ ํ ์คํธ์ ์์ ๋กญ๊ฒ noising์ ํ ์ ์์์ ์๋ฏธํ๋ฉฐ, ์ด ๋ง์ ์ด๋ค ์์์ ๋ณํ์ด๋ผ๋ ๊ธฐ์กด์ Text์ ๋ฐ๋ก ์ ์ฉ๋ ์ ์์ผ๋ฉฐ, ๊ธธ์ด๋ ๋ณํ์ํฌ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ ์ ์ํ๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ด๋๊ฑด ๊ธฐ์กด ๋ฌธ์ฅ ์์๋ฅผ ๋๋คํ๊ฒ ์์ ํ ์์ ๊ธธ์ด์ ํ ์คํธ๋ฅผ ํ๋์ MASK Token์ผ๋ก ๋ด๊พธ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค.
์ด ๋ง์ ์ฆ, BERT์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ธ ๋จ์ด Masking & Next Sentence Prediction ๊ธฐ๋ฒ์ ์ผ๋ฐํ ํ์ผ๋ฉฐ, ๋ชจ๋ธ์ด ์ ์ฒด์ ์ผ๋ก ๋ฌธ์ฅ์ ๊ธธ์ด์ ๋ฐํ์ฌ ํ์ต ๋ฐ ๋ณํ๋ Input์ ๋ ๋ง์ด Attention ํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
BART๋ ํนํ Text Generation์ ๋ํด fine-tuning ๋์์ ๋ ํจ์จ์ ์ด์ง๋ง, Comprehension(์ดํด๋ ฅ) ํ ์คํธ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. SQuAD์ GLUE์์ ๋น์ทํ ์์ค์ ํ์ต์ ํ์์ ๋ RoBERTa์ ์ฑ๋ฅ๊ณผ ๋น์ทํ์๊ณ , abstractive dialogue, question answering, summarization task์์ sota์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค๊ณ ํฉ๋๋ค. ๊ทธ ์ค์์ XSum ๋ฐ์ดํฐ์ ์ ์ด์ SOTA ์ฑ๋ฅ๋ณด๋ค 6ROUGE๋งํผ ์ฑ๋ฅ์ด ํฅ์๋๊ธฐ๋ ํ์์ต๋๋ค. ๋ํ Fine-Tuning์์ ๋ชจ๋ธ์ ๋ช๊ฐ์ ์ถ๊ฐ์ ์ธ transformer ๋ ์ด์ด๋ฅผ ์์ ์ฌ๋ฆฌ๋ ๊ฒ์ผ๋ก ๊ธฐ๊ณ ๋ฒ์ญ์ ๋ํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์์ต๋๋ค.
Model
BART Model์ ์์๋ก ๋ณํ๋ ๋ฌธ์์ ๋ด์ฉ์ ์๋๋๋ก ๋๋๋ฆฌ๋ Denoising Autoencoder ์ ๋๋ค.
๊ตฌํ์ Corrupted Text์ ๋ํ Bidrectional Encoder & Left-to-Right Autogressive Decoder๋ก ๊ตฌ์ฑ๋ Sequence-to-Sequence ๋ชจ๋ธ๋ก ์ด๋ฃจ์ด ์ก์ต๋๋ค. Pre-train์ ์ํด์๋ ์๋ณธ ๋ฌธ์์ ๋ํ Negative Log-Likelihood(NLL) Loss๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
Architecture
BART๋ ํ์ค Sequence-to-Sequence & Transformer Model ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ง๋ง, Activation Function(ํ์ฑํ ํจ์)๋ฅผ GPT์ ์ ์ฌํ๊ฒ GeLU ๋ฅผ ์ฌ์ฉํ๋ค๋ ํน์ง์ด ์์ต๋๋ค.
ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ 0.02์ธ ์ ๊ท๋ถํฌ(N(0, 0.02))๋ฅผ ๋ฐ๋ฆ ๋๋ค.
Base ๋ชจ๋ธ์ Encoder์ Decoder ๊ฐ๊ฐ์ 6๊ฐ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๊ณ , Large ๋ชจ๋ธ์ 12๊ฐ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๊ตฌ์กฐ๋ BERT Model๊ณผ ์ ์ฌํ์ง๋ง ๋ค๋ฅธ ์ฐจ์ด์ ์ด ๋ช๊ฐ์ง ์กด์ฌํฉ๋๋ค.
- Decoder์ Cross-Attention: Decoder์ ๊ฐ ๋ ์ด์ด๊ฐ Encoder์ ๋ง์ง๋ง Hidden Layer์ Cross-Attention์ ์ํํฉ๋๋ค.
- Feed-Forward Net์ ์ฌ์ฉ: BERT๋ Word Prediction์ ์ํด ์ถ๊ฐ์ ์ธ Feed-Forward Net์ ์ฌ์ฉํ์ง๋ง, BART๋ ๊ทธ๋ ์ง ์์ต๋๋ค.
- ํ๋ผ๋ฏธํฐ ์: ์ ์ฒด์ ์ผ๋ก BART๋ BERT๋ณด๋ค ์ฝ 10% ๋ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
Pre-Training BART
BART Model์ Corrupted Document(๋ณํ๋ ๋ฌธ์)๋ฅผ ์๋ณตํ๋ ๋ฐฉ์์ผ๋ก Pre-Training(์ฌ์ ํ์ต)์ ์งํํฉ๋๋ค.
์ด๋, Reconstruction Loss๋ Decoder์ ์ถ๋ ฅ & ์๋ณธ ๋ฌธ์๊ฐ Cross-Entropy Loss๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Pre-Training(์ฌ์ ํ์ต)์ ์ฌ์ฉ๋ Denoising Method๋ 5๊ฐ์ง๋ก ์๋์ ๊ฐ์ต๋๋ค.
- Token Masking: BERT์ MLM๊ณผ ์ ์ฌํ๊ฒ ๋๋คํ ํ ํฐ์ [MASK]๋ก ๋์ฒดํฉ๋๋ค.
- Token Deletion: ๋๋คํ ํ ํฐ์ ์ญ์ ํ์ฌ ๋ชจ๋ธ์ด ์ฌ๋ผ์ง ์์น๋ฅผ ์ฐพ์์ผ ํฉ๋๋ค. MLM์ Token Masking๊ณผ ๋ฌ๋ฆฌ ์ด๋ ์์น์์ Token์ด ์ญ์ ๊ฐ ๋์๋์ง๋ฅผ ๋ง์ถฐ์ผ ํฉ๋๋ค.
- Text Infilling: ํฌ์์ก ๋ถํฌ(λ=3)์ ๋ฐ๋ผ ์ํ๋ง๋ ํ ์คํธ ์คํฌ์ ๋จ์ผ [MASK] ํ ํฐ์ผ๋ก ๋์ฒดํฉ๋๋ค. ์ด๋ SpanBERT์์ ์ ์๋ ๋ฐฉ์๊ณผ ์ ์ฌํ์ง๋ง, SpanBERT๋ ๋ค๋ฅธ ๋ถํฌ์์ ์ํ๋งํ๋ฉฐ ์ ํํ ๊ฐ์ ๊ธธ์ด์ [MASK] ํ ํฐ์ผ๋ก ์นํํฉ๋๋ค. Text Infilling์ ๋ชจ๋ธ์ด ์คํฌ์์ ์ผ๋ง๋ ๋ง์ ํ ํฐ์ด ์ฌ๋ผ์ก๋์ง ์์ธกํด์ผ ํฉ๋๋ค.
์์๋ก ABC.DE.๋ผ๋ ๋ ๋ฌธ์ฅ์ ๋ณด๋ฉด, ์ฒซ๋ฒ์งธ ๋ฌธ์ฅ์ 2๋งํผ ๊ธธ์ด span์์ 'BC'๋ผ๋ text๊ฐ ์ํ๋ง์ด ๋์ด ๋จ์ผ [MASK] token, ๋๋ฒ์งธ ๋ฌธ์ฅ์ '0'๋งํผ ๊ธธ์ด span์์ 'empty'๋ผ๋ text๊ฐ์ด ์ํ๋ง์ด ๋์ด [MASK] token์ผ๋ก ๋์ฒด๊ฐ ๋์์ต๋๋ค.
์ฌ๊ธฐ์ span์ text(๊ธ์)์ Token์ผ๋ก ์๊ฐํ๋ฉด ๋ฉ๋๋ค. span์ labmda๊ฐ 3์ธ Poisson(ํฌ์์ก) ๋ถํฌ๋ฅผ ์ฌ์ฉํด์ [MASK] Token์ผ๋ก ๋์ฒด๋๋ค๊ณ ๋งํ๊ธฐ ๋๋ฌธ์, 0~6 ์ฌ์ด์ span ๊ธธ์ด๊ฐ ๋ฝํ๋ค๊ณ ํฉ๋๋ค.
- Sentence Permutation: ๋ฌธ์๋ฅผ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๋ถ๋ถ์ผ๋ก ๋๋์ด ์์๋ก ์์ต๋๋ค. ๋ชจ๋ธ์ ์๋ ์์๋ฅผ ๋ง์ถฐ์ผ ํฉ๋๋ค.
์์๋ฅผ ๋ณด๋ฉด 'ABC.DE'๋ผ๋ ์๋ ๋ฐ์ดํฐ๊ฐ 'DE.ABC.'๋ก ๋ณ๊ฒฝ๋์์ต๋๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ฅ ๊ฐ์ ๊ตฌ๋ถ์ ๋ง์นจํ(full stop)์ผ๋ก ๊ตฌ๋ถํ๋ค๊ณ ํฉ๋๋ค.
- Document Rotation: ๋์ผํ ํ๋ฅ ๋ก ํ๋์ Random Token์ ๊ณ ๋ฅธํ, ๊ทธ Random Token์ ์ง์ ์ ์๋ผ์ ๊ทธ ์ง์ ๋ถํฐ ์์ํ๋๋ก ๋ณํํฉ๋๋ค. ๋ชจ๋ธ์ ์๋ ์์์ ์ ์ฐพ์์ผ ํฉ๋๋ค.
์์๋ฅผ ๋ณด๋ฉด, 'ABC.DE'๋ผ๋ Original Text ์์, Randomํ๊ฒ 'C'๋ผ๋ token์ ๋ฝ์ ์์ ์ ์ ๋ฐฐ์นํด๋๊ณ 'C'์์ ์๋ token๋ค์ ์์ฐ์ค๋ฝ๊ฒ ๋ค๋ก ๊ฐ๊ฒ ๋ฉ๋๋ค. ๊ทธ๋์ ๋ฌธ์ฅ์ 'C.DE.AB'๋ก ๋ณ๊ฒฝ๋ฉ๋๋ค.
Fine-Tuning BART
BART Model์ด ์์ฑํ Representatoin์ ๋ค์ํ Downstream Application์์ ์ฌ๋ฌ๊ฐ์ง์ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
ํ๋ฒ ์๋์ Task๋ค์ ๋ํ ์์ธํ ์ค๋ช ์ ํด๋ณด๊ฒ ์ต๋๋ค.
Sequence Classification Tasks
Sequence Classification Task๋ ์ฃผ์ด์ง ์ํ์ค๋ฅผ ๋ถ๋ฅํ๋ ํ์คํฌ์ ๋๋ค.
GLUE์ CoLA๋ ์ฃผ์ด์ง ๋ฌธ์ฅ์ด ๋ฌธ๋ฒ์ ์ผ๋ก ํฉ๋นํ์ง ๋ถ๋ฅํฉ๋๋ค. ์ด ํ์คํฌ์์๋ ๋์ผํ ์ ๋ ฅ์ด Encoder์ Decoder ๋ชจ๋์ ์ฃผ์ด์ง๋ฉฐ, Decoder์ ๋ง์ง๋ง Hidden State๋ ์๋ก์ด Multi-Class Linear Classifier์ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋๋ค.
์ด๋ BERT์ CLS ํ ํฐ๊ณผ ์ ์ฌํ์ง๋ง, BART์์๋ ์ถ๊ฐ์ ์ธ ํ ํฐ์ ๋์ ์ถ๊ฐํ์ฌ Decoder์ Representation์ด ์ ์ฒด ์ ๋ ฅ์ ๋ฐ์ํ ์ ์๋๋ก ํ์์ต๋๋ค.
Token Classification Tasks
Token Classification Task๋ ๊ฐ ํ ํฐ ๋จ์๋ก ๋ถ๋ฅ๋ฅผ ์ํํ๋ ํ์คํฌ์ ๋๋ค.
๋ํ์ ์ผ๋ก SQuAD์ Answer Endpoint Classification์ด ์์ต๋๋ค. SQuAD๋ ์ฃผ์ด์ง ๋ฌธ์ ๋ด์์ ์ ๋ต์ ํด๋นํ๋ ํ ์คํธ ์คํฌ์ ์์๊ณผ ๋ ํ ํฐ์ ์ฐพ์์ผ ํฉ๋๋ค. BART์์๋ ์ ์ฒด ๋ฌธ์๋ฅผ Encoder์ Decoder์ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ , Decoder์ ์ต์๋จ Hidden State๋ฅผ ๊ฐ ํ ํฐ์ Representation์ผ๋ก ์ฌ์ฉํ์ฌ Start์ End Token์ ์์ธกํ๋ ๋ถ๋ฅ๊ธฐ์ ํ์ฉํฉ๋๋ค.
Sequence Generation Tasks
BART๋ Autoregressive Decoder๋ฅผ ๊ฐ์ถ๊ณ ์์ด, Abstractive Question Answering์ด๋ Summarization๊ณผ ๊ฐ์ ์์ฑ ํ์คํฌ์ ๋ฐ๋ก ์ ์ฉํ ์ ์์ต๋๋ค. ์ด๋ค ํ์คํฌ๋ ์ ๋ ฅ ์ํ์ค๋ฅผ ๋ณํํ์ฌ ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๋ ํน์ง์ด ์์ผ๋ฉฐ, ์ด๋ Denoising Pre-training Objective์ ๊ธด๋ฐํ ์ฐ๊ด๋์ด ์์ต๋๋ค. Encoder์๋ ์ ๋ ฅ ์ํ์ค๊ฐ ๋ค์ด๊ฐ๊ณ , Decoder๋ Autoregressive ๋ฐฉ์์ผ๋ก ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค.
Machine Translation
BART๋ ์ ์ฒด ๋ชจ๋ธ์ ํ๋์ Encoder์ฒ๋ผ ์๊ฐํ์ฌ Machine Translation ํ์คํฌ์ ์ ์ฉํ ์ ์์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, BART์ Encoder Embedding Layer๋ฅผ ๋๋ค ์ด๊ธฐํ๋ ์๋ก์ด Encoder๋ก ๊ต์ฒดํฉ๋๋ค. ๋ชจ๋ธ์ End-to-End๋ก ํ์ต๋๋ฉฐ, ์๋ก์ด Encoder๋ ์ธ๊ตญ์ด ๋จ์ด๋ฅผ ์์ด๋ก ๋งคํํ์ฌ BART๊ฐ ์์ด๋ก Noisy๋ฅผ Denoise ํ ์ ์๋๋ก ํ์ต๋ฉ๋๋ค. ์๋ก์ด Encoder๋ ์๋ BART ๋ชจ๋ธ๊ณผ ๋ค๋ฅธ Vocabulary๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
Source Encoder๋ ๋ ๋จ๊ณ๋ก ํ์ต๋ฉ๋๋ค
- BART์ ๋๋ถ๋ถ์ ํ๋ผ๋ฏธํฐ๋ฅผ Freezeํ๊ณ , ๋๋ค์ผ๋ก ์ด๊ธฐํ๋ Source Encoder, BART Positional Embeddings, ์ฒซ ๋ฒ์งธ Encoder Layer์ Self-Attention Input Projection Matrix๋ง ํ์ต์ํต๋๋ค.
- ์ ์ Iteration ์๋ก ๋ชจ๋ธ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ต์ํต๋๋ค.
Comparision Pre-Training Objectives
BART Model์ Base-size ๊ธฐ์ค (6๊ฐ์ Encoder, 6๊ฐ์ Decoder, hidden size: 768๊ฐ)์ผ๋ก ๋ค์ํ Pre-Training Objective๋ฅผ ์ฌ๋ฌ task์ ๋ํ ์คํ์ ํตํด ๋น๊ตํ์ต๋๋ค.
Comparison Objectives
- Language Model (LM): GPT์ ์ ์ฌํ Left-to-Right LM์ผ๋ก, BART์ Decoder์ ๋์ผํ์ง๋ง Cross-Attention์ ์ํํ์ง ์์ต๋๋ค.
- Permuted Language Model (PLM): XLNet ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก, 1/6 Token์ Samplingํ์ฌ Autoregressive(AR) ๋ฐฉ์์ผ๋ก ์์ฑํฉ๋๋ค. ๋ค๋ฅธ Model๊ณผ ๋น๋ฃ๋ฅผ ํ๊ธฐ ์ํด์ Relative Positional Embedding์ด๋ Attention Across Segments๋ ์ ์ฉํ์ง ์์์ต๋๋ค.
- Masked Language Model (MLM): BERT์ ๋์ผํ๊ฒ 15% ํ ํฐ์ [MASK]๋ก ๋์ฒดํ๊ณ , ๋ ๋ฆฝ์ ์ผ๋ก ์๋ ํ ํฐ์ ์์ธกํฉ๋๋ค.
- Multitask Masked Language Model (MMLM): UniLM์์ ์ ์ํ ๋ฐฉ์์ผ๋ก, ์ถ๊ฐ์ ์ธ Self-Attention Masks๋ฅผ ํตํด ํ์ตํฉ๋๋ค.
- Masked Seq-to-Seq: MASS์์ ์๊ฐ์ ๋ฐ์ ๋ชจ๋ธ๋ก, 50%์ ํ ํฐ์ ๋ง์คํฌํ๊ณ Seq2Seq ๋ฐฉ์์ผ๋ก ๋ง์คํฌ๋ ํ ํฐ์ ์์ธกํฉ๋๋ค.
Tasks
๋น๊ต ์คํ์์ ์ฌ์ฉ๋ Task๋ค์ ์๋์ ๊ฐ์ต๋๋ค.
- SQuAD: Wikipedia ๋ฌธ๋จ์ ์ฌ์ฉํ๋ Extractive Question Answering ํ์คํฌ๋ก, Input์ผ๋ก ์ง๋ฌธ๊ณผ ๋ฌธ๋งฅ์ ๊ฒฐํฉํ์ฌ Encoder์ ๋ฃ๊ณ Decoder๋ก ๋์จ ๊ฒฐ๊ณผ๋ก ์ ๋ต ์คํฌ์ ์์ธกํฉ๋๋ค.
- MNLI: ๋ ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ถ๋ฅํ๋ Bitext Classification ํ์คํฌ๋ก, ํ ๋ฌธ์ฅ์ด ๋ค๋ฅธ ๋ฌธ์ฅ์ ์๋ฐํ๋์ง ์ฌ๋ถ๋ฅผ ํ๋จํฉ๋๋ค.
[EOS] Token์ ๋ ๋ฌธ์ฅ๊ณผ ์ฐ๊ฒฐํ์ฌ, BART Model์ Encoder์ ๋ฃ๊ณ Decoder๋ก ์ ๋ฌํฉ๋๋ค.
์ฌ๊ธฐ์ [EOS] Token์ ์ญํ ์ ๋ฌธ์ฅ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ตฌ๋ถํ๋๋ฐ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ELI5: Long-form Abstractive Question Answering ํ์คํฌ๋ก, ๊ธด ํ์์ ์ง๋ฌธ์ ๋ํด ์์ ํ์์ ๋ต๋ณ์ ์์ฑํฉ๋๋ค.
- XSum: ๋งค์ฐ ํจ์ถ์ ์ธ ๋ด์ค ์์ฝ ํ์คํฌ๋ก, ์ถ์์ ์ธ ์์ฝ๋ฌธ์ ์์ฑํด์ผ ํฉ๋๋ค.
- ConvAI2: Context์ Persona ์กฐ๊ฑด์ ๊ธฐ๋ฐ์ผ๋ก ํ Dialogue Response Generation ํ์คํฌ์ ๋๋ค.
- CNN/DM: News Summarization ํ์คํฌ๋ก, ์ ๋ ฅ ๋ฌธ์์ ๋ฐ์ ํ๊ฒ ์ฐ๊ด๋ ์์ฝ์ ์์ฑํฉ๋๋ค.
Results
์คํ ๊ฒฐ๊ณผ๋ ์๋์ Tabel๊ณผ ๊ฐ์ต๋๋ค.
Pre-Training ๋น๊ต. ๋ชจ๋ Model์ ๋น์ทํ ํฌ๊ธฐ์ด๋ฉฐ ์ฑ ๊ณผ ์ํคํผ๋์ ๋ฐ์ดํฐ์ ํฉ์น 1M Step๋งํผ ๋ฐ์ดํฐ๋ก Train ๋ฉ๋๋ค.
๋๋ฒ์งธ, ๋ง์ง๋ง ๋ธ๋ก๋ค์ ๋์ผํ Code-Base๋ฅผ ์ฌ์ฉํ์ฌ ๋์ผํ ๋ฐ์ดํฐ๋ก ํ์ต๋์์ต๋๋ค.
์ฒซ๋ฒ์งธ ์นธ์ ํญ๋ชฉ์ BERT-Base Model์ ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค.
๋๋ฒ์งธ ์นธ์ Pre-Training Objective์ ๋ฐ๋ฅธ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ ํ๊ฐ ๋ชฉํ์ ์ง์คํ๊ธฐ ์ํด ๋จ์ํ ๋์๋ค๋ ํน์ง์ ๋ณด์ฌ์ค๋๋ค.
๋ง์ง๋ง ์นธ์ BART ๋ชจ๋ธ์์ document corruption์ ์์์ ์ค๋ช ํ 5๊ฐ์ง ๋ฐฉ๋ฒ๊ณผ ์กฐํฉ์ ์์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
BART with Text Infilling์ด ๋์ฒด์ ์ผ๋ก ์ฑ๋ฅ์ด ์ ์ผ ์ข์ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
๋ํ ์ฑ๋ฅ์ Task๋ง๋ค ๋ค๋ฅด์ง๋ง text infilling์ด ํฌํจ๋ BART ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค.
- Performance of pre-training methods varies significantly across tasks (๋๋ฒ์งธ์นธ 3๋ฒ์งธ)
- Pre-training ๋ฐฉ๋ฒ๋ก ์ ์ฑ๋ฅ์ ํ์คํฌ๋ณ๋ก ํฌ๊ฒ ๋ฌ๋ผ์ง๋๋ค.
- LM ๋ชจ๋ธ์ ELI5์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, SQuAD์์๋ ์ต์ ์ฑ๋ฅ์ ๋ํ๋์ต๋๋ค.
- Token masking is crucial (๋ง์ง๋ง์นธ 4,5๋ฒ์งธ)
- Rotating Document๋ Permuting Sentences ๊ธฐ๋ฐ Pre-training ๋ฐฉ๋ฒ๋ก ์ ์ฑ๋ฅ์ด ๋ฎ์์ต๋๋ค.
- ๋ฐ๋ฉด, Token Deletion์ด๋ Token Masking, Self-Attention Mask๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- Left-to-right pre-training improves generation (AutoRegressive, AR ๋ฐฉ์ ์ฌ์ฉ X, ๋๋ฒ์งธ ์นธ 1,4๋ฒ์งธ)
- MLM๊ณผ PLM ๋ชจ๋ธ์ ์์ฑ ํ์คํฌ์์ ์ฑ๋ฅ์ด ๋ฎ์์ผ๋ฉฐ, BART๋ Text Infilling๊ณผ Sentence Shuffling์ ๊ฒฐํฉํ์ฌ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- Bidirectional encoders are crucial for SQuAD (๋๋ฒ์งธ ์นธ 3๋ฒ์งธ)
- BART๋ ์ ๋ฐ์ ์๋ฐฉํฅ ๋ ์ด์ด๋ฅผ ๊ฐ์ง๊ณ ๋ SQuAD์์ RoBERTa์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์์ต๋๋ค.
- ๋จ์ left-to-right Decodersms SQuAD์์ ์ฑ๋ฅ์ ๋ฎ์ง๋ง, BART ๋ชจ๋ธ์์ ๊ทธ๋ ์ง ์์์ต๋๋ค.
- The pre-training objective is not the only important factor (๋๋ฒ์งธ ์นธ 4๋ฒ์งธ)
- Permuted LM์ ๊ธฐ์กด XLNet๊ณผ Pre-Training Objective๋ ๊ฐ์ง๋ง ์ฑ๋ฅ์ด ๋ฎ์์ต๋๋ค.
- ์ด๋ Relative-Position Embedding์ด๋ Segment-Level Recurrence์ ๊ฐ์ ์ถ๊ฐ์ ์ธ ๊ตฌ์กฐ์ ํฅ์์ด ์์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- Pure Language Models in ELI5
- ELI5 ํ์คํฌ์์๋ ์ ์ผํ๊ฒ LM์์ Pre-trained Objective๋ค์ ์ฑ๋ฅ์ด BART๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- Consistent Performance of BART
- ELI5๋ฅผ ์ ์ธํ ๋๋ถ๋ถ์ ํ์คํฌ์์ BART๋ Text Infilling์ ์ฌ์ฉํ ๋ชจ๋ธ์ด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
Large-scale Pre-training Experiments
์ด๋ฒ ์คํ์์๋ BART ๋ชจ๋ธ์ RoBERTa์ ๋์ผํ ๊ท๋ชจ๋ก Pre-Training ์์ผฐ์ต๋๋ค.
์์ ์คํ์์๋ ๋จ์ํ Text Infilling๋ง์ ์ฌ์ฉํ ๊ฒ์ด ์ฑ๋ฅ์ด ์ข์์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์์๋ large scale ๋จ์๋ก ๊ฐ๊ฒ ๋๋ฉด sentence shuffling์ด ์ ํ์ตํ ์ ์๋ค๋ ๊ฐ์ค์ ๋์๊ณ ์คํ์ ์งํํ์์ต๋๋ค.
Experimental Setup
- ๋ชจ๋ธ ๊ตฌ์ฑ: 12 Layer Encoder/Decoder, Hidden Size 1024
- ํ์ต ์ค์ :
- Batch Size: 8000
- Training Steps: 500,000
- Tokenization: Byte-Pair Encoding (BPE)
- Noising Scheme: Text Infilling๊ณผ Sentence Permutation์ ์กฐํฉ
- Dropout: ํ์ต ๋จ๊ณ์ ๋ง์ง๋ง 10%์์๋ Dropout์ ์ฌ์ฉํ์ง ์์, Overfitting ๋ฐฉ์ง ๋ชฉ์
- ํ์ต ๋ฐ์ดํฐ: News, Books, Stories, Web Text ๋ฑ 160GB์ ๋ฐ์ดํฐ ์ฌ์ฉ
Discriminative Tasks
BART๋ SQuAD์ GLUE ํ์คํฌ์์ RoBERTa, XLNet์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๋๋ถ๋ถ์ Discriminative Task์์ BART๋ RoBERTa์ ํฐ ์ฐจ์ด๋ ๋ณด์ด์ง ์์์ต๋๋ค.
์ด๋ BART์ uni-directional decoder layers๊ฐ discriminative tasks์์ ์ฑ๋ฅ์ ์ ํ์ํค์ง ์์์ ์์ฌํฉ๋๋ค.
๊ฐ์ฅ ์ง์ ์ ์ผ๋ก ๋น๊ต ๊ฐ๋ฅํ Baseline์ ๋์ผํ ์์์ผ๋ก Pre-Training(์ฌ์ ํ์ต)๋์์ผ๋, ๋ค๋ฅธ ๋ชฉํ๋ฅผ ๊ฐ์ง RoBERTa์ ๋๋ค.
์ ๋ฐ์ ์ผ๋ก BART๋ ๋๋ถ๋ถ์ ํ์คํฌ์์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ชจ๋ธ ๊ฐ์ ์ฐจ์ด๋ ๋ฏธ๋ฏธํ์ต๋๋ค.
์ด๋ BART์ Generation Task์์์ ์ฑ๋ฅ ํฅ์์ด Classification ์ฑ๋ฅ์ ํฌ์ํ์ง ์์์ ์๋ฏธํ๋ฉฐ, ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
Generation Tasks
๋ณธ ๋ ผ๋ฌธ์์ ์๊ฐ๋๋ BART๋ ๋ชจ๋ Task์์ ๋ชจ๋ ํ๊ฐ์งํ, Rough์ R1, R2, RL์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋๊ฑธ ์ ์ ์์ต๋๋ค.
ํนํ ๋งจ์ 3๊ฐ์ ๋ฌธ์ฅ์ ์ถ์ถํ๋ Lead-3๋ฅผ ๋ณด๋ฉด, ์ ์์ Task๋ณด๋ค ํ์์ Task์์ ์ฑ๋ฅ์ด ๋งค์ฐ ๋ฎ์์ ๋ณด์ ๋๋ค.
Summarization
- CNN/DailyMail (์ฌ์ด ๋ฐ์ดํฐ): Source Sentences์ ์ ์ฌํ ์์ฝ์ ์์ฑํ๋ ํ์คํฌ๋ก, BART๋ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ROUGE ์ ์๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค.
- XSum (์ด๋ ค์ด ๋ฐ์ดํฐ): ๋งค์ฐ ์ถ์์ ์ธ ์์ฝ์ ์์ฑํด์ผ ํ๋ ํ์คํฌ๋ก, BART๋ ๊ธฐ์กด SOTA ๋ชจ๋ธ๋ณด๋ค ์ฝ 6 ROUGE ์ ์ ํฅ์์ ๋ณด์์ต๋๋ค.
Dialogue
- ConvAI2: Context์ Persona๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ํ ์๋ต ์์ฑ ํ์คํฌ์์ BART๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ Perplexity์์ ํฐ ํฅ์์ ๋ณด์์ต๋๋ค.
Abstractive QA
- ELI5: ๊ธด ์์ ํ์ ๋ต๋ณ์ ์์ฑํ๋ ํ์คํฌ์์ BART๋ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์์ต๋๋ค.
Translation
BART๋ WMT16 Romanian-English ๋ฐ์ดํฐ์ ์์ ๊ธฐ์กด Transformer ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ 1.1 BLEU ์ ์ ํฅ์์ ๋ณด์์ต๋๋ค.
์ด๋ Back-Translation Data Augmentation์ ์ ์ฉํ ๊ฒฐ๊ณผ๋ก, BART์ Encoder๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ํ์ต์์ผ ์ธ๊ตญ์ด ํ ์คํธ๋ฅผ ์์ด๋ก ๋งคํํ๋ ๋ฐฉ์์ผ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค.
๋ค๋ง, ์ฑ๋ฅ ๊ฐ์ ์ด ํ๊ธฐ์ ์ผ๋ก ๋์ง ์์๊ฒ์ผ๋ก ๋ณด์, Machine Translation ๋ถ๋ถ์์๋ BART ๋ชจ๋ธ์ด ์ข์ง๋ ์์๊ฒ ์ฒ๋ผ ๋ณด์ฌ์ง๋๋ค.
Qualitative Analysis
์๋ณธ ๋ฌธ์ (๊ฐ๋ตํ) | BART ๋ชจ๋ธ ์์ฝ |
์ฐ๊ตฌ์๋ค์ ํผ์ง ์ฐ์ ์ฐํธ์ด์์ ์ธ ๊ฐ์ง ์ข ๋ฅ์ ์ฐํธ๋ฅผ ์กฐ์ฌํ์ต๋๋ค... ์ฐ๊ตฌ์๋ค์ ๋ฌผ๊ณ ๊ธฐ๊ฐ ๋ง์ ๋, ๋ฌผ๊ณ ๊ธฐ๋ค์ด ์ฐํธ์ ํด์กฐ๋ฅ์ ๋ฐ๋คํ์ ๋จน์ด ์ฐํธ๊ฐ ์จ๋ ์์น์ ๋ ์ ํญํ๊ฒ ๋ง๋ค๊ณ , ๋ฐฑํ ํ์๊ณผ ๊ด๋ จ๋ ๋ฐํ ๋ฆฌ์์ธ Vibrio coralliilyticus์ ๋ ์ทจ์ฝํด์ง๋ค๊ณ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ฐ๊ตฌ์๋ค์ ํด์กฐ๋ฅ๊ฐ ์จ๋ ์์น์ฒ๋ผ ์ฐํธ์ ํํ์ ๋ฐฉ์ด ๋ฅ๋ ฅ์ ์ฝํ์ํฌ ์ ์์ผ๋ฉฐ, ๋ฌผ๊ณ ๊ธฐ๋ค์ด ์ฐํธ๋ฅผ ๋ณดํธํ๋ ์ญํ ์ ํ ์ ์๋ค๊ณ ์ ์ํ์ต๋๋ค. | ํผ์ง ์ฐ์์ ์ด๋ฅ๋ Science ์ ๋์ ์ค๋ฆฐ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ์ง๊ตฌ ์จ๋ํ์ ์ํฅ์ผ๋ก๋ถํฐ ์ฐํธ์ด๋ฅผ ๋ณดํธํ๊ณ ์์ต๋๋ค. |
์ธ๊ต๊ด์ ๋ถ์ธ์ผ๋ก์ ๋ฉด์ฑ ํน๊ถ์ด ์๋ ์ฌ์ฝ์ฌ๋ผ์ค๋ ๊ตํต์ฌ๊ณ ์ ์ฐ๋ฃจ๋์์ต๋๋ค... ์กด์จ ์ด๋ฆฌ๋ ์ํธํผ๋ ๋ณ์์์ ๊ธฐ์๋ค๊ณผ์ ๋ํ ์ค ์ด ์ฌ๊ฑด์ ๋ํด ์ธ๊ธํ๋ฉฐ "์ค ์ฌ์ฝ์ฌ๋ผ์ค๊ฐ ๋ค์ ๋์์ค๊ธธ ํฌ๋งํฉ๋๋ค. ๋ง์ฝ ํด๊ฒฐํ ์ ์๋ค๋ฉด, ๋น์ฐํ ๋ฐฑ์ ๊ด์ ์ง์ ์ด ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ ๊ฒ์ ๋๋ค."๋ผ๊ณ ๋งํ์ต๋๋ค. | ๋ณด๋ฆฌ์ค ์กด์จ์ ๋ฐฑ์ ๊ด์ ๋ฏธ๊ตญ ์ธ๊ต๊ด ์ค ์ฌ์ฝ์ฌ๋ผ์ค์ ๋ฉด์ฑ ํน๊ถ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ ๊ฒ์ด๋ผ๊ณ ๋งํ์ต๋๋ค. |
์๋ฆฌ์ ๊ตญ์ ์ธ๋ก ์ ๋ฐ๋ฅด๋ฉด ์ ๋ถ๊ตฐ์ด ์ด์ SDF๊ฐ ํต์ ํ๋ ์ง์ญ์ ๋ฐฐ์น๋๊ธฐ ์์ํ์ต๋๋ค... 10์ 6์ผ, ๋๋๋ ํธ๋ผํ ๋ฏธ๊ตญ ๋ํต๋ น๊ณผ ํฐํค ๋ํต๋ น ๋ ์ ํ ํ์ด์ดํ ์๋ฅด๋์์ด ์ ํ ํตํ๋ฅผ ํ๊ณ , ์๊ตญ์ ๋ถ๋๋ถ ์๋ฆฌ์๋ก์ ์นจ๊ณต์ด ์๋ฐํ๋ค๋ ์ฑ๋ช ์ ๋ฐํํ์ต๋๋ค. ์์์ผ์ ํฐํค๋ ๊ณต์ต์ ์ด์ด ์ง์ ์นจ๊ณต์ ์์ํ์ต๋๋ค. | ์๋ฆฌ์ ์ ๋ถ๊ตฐ์ ํฐํค์ ์นจ๊ณต์ ๋์ํ์ฌ ๋ฏธ๊ตญ์ด ์ง์ํ๋ ์๋ฆฌ์ ๋ฏผ์ฃผ๊ตฐ(SDF)์ด ์ ๋ นํ ์ง์ญ์ ์ง์ ํ์ต๋๋ค. |
์ฌ์ ์ฒ์์ผ๋ก ํ ์ฌ๋์ด 42.195ํฌ๋ก๋ฏธํฐ(์ฝ 26๋ง์ผ)์ ํ ๋ง๋ผํค์ ๋ ์๊ฐ ๋ด์ ์์ฃผํ์ต๋๋ค. ํ์ง๋ง ์ด ๊ฒฝ๊ธฐ๋ IAAF์์ ๊ณต์ธํ ๊ณต์ ๊ธฐ๋ก ๊ฒฝ๊ธฐ๋ ์๋์์ต๋๋ค. ํต์ด๊ฒ์ ๊ธฐ๋ก์ 1์๊ฐ 59๋ถ 40.2์ด์์ต๋๋ค. ์ค์คํธ๋ฆฌ์ ๋น์๋์์ ์ด๋ฆฐ ์ด ๊ฒฝ๊ธฐ๋ ํต์ด๊ฒ๊ฐ 2์๊ฐ์ ๋ฒฝ์ ๋๋๋ก ๋๊ธฐ ์ํด ํน๋ณํ ๊ธฐํ๋์์ต๋๋ค. | ์ผ๋์ ์๋ฆฌ์ฐ๋ ํต์ด๊ฒ๋ 2์๊ฐ ๋ด์ ๋ง๋ผํค์ ์์ฃผํ์ต๋๋ค. |
PG&E๋ ์ฐ๋ถ ์ํ์ ์ค์ด๊ธฐ ์ํ ์๋ณด์ ๋ฐ๋ผ ๊ฐํ๊ณผ ๊ฑด์กฐํ ๋ ์จ๋ฅผ ๋๋นํด ์ ์ ์ ๊ณํํ๋ค๊ณ ๋ฐํํ์ต๋๋ค. ๊ฑฐ์ 80๋ง ๋ช ์ ๊ณ ๊ฐ์ด ์ํฅ์ ๋ฐ์ ๊ฒ์ผ๋ก ์์๋๋ฉฐ ์ ์ ์ ์ต์ ๋ด์ผ ์คํ๊น์ง ์ง์๋ ์์ ์ ๋๋ค. | ์บ๋ฆฌํฌ๋์์์ ์๋ฐฑ๋ง ๋ช ์ ๊ณ ๊ฐ์ ๋์์ผ๋ก ์ ์ ๊ณํ์ด ์คํ๋์์ต๋๋ค. |
BART์ ์์ฑ ๊ฒฐ๊ณผ๋ ๋งค์ฐ abstractiveํ๋ฉฐ, ์ ๋ ฅ์์ ๋ณต์ฌ๋ ๊ตฌ๊ฐ ๊ฑฐ์ ์์ต๋๋ค. ์ถ๋ ฅ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ค์ ์ผ๋ก ์ ํํ๋ฉฐ, ์ ๋ ฅ ๋ฌธ์์ ์ ๋ฐ์ ์ธ ์ฆ๊ฑฐ์ ๋ฐฐ๊ฒฝ ์ง์์ ํตํฉํฉ๋๋ค. (์๋ฅผ ๋ค์ด, ์ด๋ฆ์ ์ ํํ๊ฒ ์์ฑํ๊ฑฐ๋, PG&E๊ฐ ์บ๋ฆฌํฌ๋์์์ ์ด์๋๋ค๋ ์ฌ์ค์ ์ถ๋ก ํ๋ ๊ฒ). ์ฒซ ๋ฒ์งธ ์์์์, ๋ฌผ๊ณ ๊ธฐ๊ฐ ์ง๊ตฌ ์จ๋ํ๋ก๋ถํฐ ์ฐํธ์ด๋ฅผ ๋ณดํธํ๊ณ ์๋ค๋ ๊ฒ์ ์ถ๋ก ํ๋ ๊ฒ์ ํ ์คํธ์์ ๋น์ง๊ด์ ์ธ ์ถ๋ก ์ ํ์๋ก ํฉ๋๋ค.
Conclusion
Corrupted Documents๋ฅผ ์๋๋๋ก ๋ณต์ํ๋ ์ฌ์ ํ์ต ๋ฐฉ์์ ๊ฐ์ง BART๋ฅผ ์ ์ํ์์ต๋๋ค.
BART๋ Discriminative Task์์ RoBERTa์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ฌ๋ฌ Text Generation Task์์๋ ์๋ก์ด State-of-the-Art (SOTA) ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค.
ํนํ, Text Infilling์ ํ์ฉํ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ๋ก ์ด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ค์ํ NLP ํ์คํฌ์์ BART์ ์ ์ฐ์ฑ๊ณผ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ํ์ธํ ์ ์์์ต๋๋ค. BART๋ Discriminative Tasks์์ RoBERTa์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋์์, ์ฌ๋ฌ Text Generation Tasks์์ ์๋ก์ด State-of-the-Art ์ฑ๊ณผ๋ฅผ ์ด๋ค์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ฌ์ ํ์ต์ ์ํ ๋ฌธ์ ์์ ๋ฐฉ๋ฒ์ ์๋กญ๊ฒ ํ๊ตฌํ๊ณ , ์ด๋ฅผ ํน์ End Tasks์ ๋ง๊ฒ ์กฐ์ ํ๋ ๊ฒ๊ณผ ํจ๊ป, ๋ชจ๋ธ์ ๊ฒฝ๋ํ, ๋ค์ธ์ด ์ง์, ํจ์จ์ ์ธ ํ์ต ๋ฐฉ๋ฒ ๋ฑ์ ์ฃผ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
Word Explaination (์ฉ์ด ์ค๋ช )
์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์๋ํ๋ Auto-Regressive ํน์ฑ (Left-to-Right Auto-Regressive)
- ํ ์คํธ๋ฅผ ์์ฑํ ๋ ์ด์ ๋จ์ด๋ค์ ๋ฐํ์ผ๋ก ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ ๋๋ค. GPT์ BART์ Decoder๋ ์ด๋ฌํ ํน์ฑ์ ๊ฐ์ง๋๋ค.
Text Infilling ์คํด
- ํ ์คํธ ๋ด ์ฐ์๋ ๋จ์ด ์คํฌ์ ํ๋์ [MASK] ํ ํฐ์ผ๋ก ๋์ฒดํ๋ ๋ ธ์ด์ง ๊ธฐ๋ฒ์ ๋๋ค. ๋ชจ๋ธ์ ์ด [MASK] ํ ํฐ์ ์๋์ ํ ์คํธ๋ก ๋ณต์ํด์ผ ํฉ๋๋ค.
์ดํด๋ ฅ ํ ์คํธ (Comprehension Tests)
- ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ผ๋ง๋ ์ ์ดํดํ๊ณ ์๋์ง๋ฅผ ํ๊ฐํ๋ ํ์คํฌ์ ๋๋ค. BART๋ ํ ์คํธ ์์ฑ๋ฟ๋ง ์๋๋ผ ์ดํด๋ ฅ ํ ์คํธ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
GLUE (General Language Understanding Evaluation)
- ๋ค์ํ ์์ฐ์ด ์ดํด ํ์คํฌ๋ฅผ ํฌํจํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ผ๋ก, ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค.
SQuAD (Stanford Question Answering Dataset)
- ์ฃผ์ด์ง ๋ฌธ์์์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์ถ์ถํ๋ ์ง๋ฌธ ์๋ต ํ์คํฌ๋ฅผ ํฌํจํ ๋ฐ์ดํฐ์ ์ ๋๋ค. ๋ชจ๋ธ์ ์ดํด๋ ฅ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค.
RoBERTa (Robustly optimized BERT approach)
- BERT์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ธฐ ์ํด ํ์ต ๋ฐฉ๋ฒ๊ณผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํ ๋ชจ๋ธ์ ๋๋ค. ๋ค์ํ NLP ํ์คํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
ROUGE ์ ์
- ํ ์คํธ ์์ฝ์ ํ์ง์ ํ๊ฐํ๊ธฐ ์ํ ์งํ๋ก, ์์ฑ๋ ์์ฝ๊ณผ ์ฐธ์กฐ ์์ฝ ๊ฐ์ n-๊ทธ๋จ, ๋จ์ด ์์, ๊ตฌ๋ฌธ ๊ตฌ์กฐ ๋ฑ์ ๋น๊ตํ์ฌ ์ ์ฌ์ฑ์ ์ธก์ ํฉ๋๋ค.
Abstractive Dialogue
- ์ฃผ์ด์ง ๋ํ ๋ฌธ๋งฅ์ ๋ฐํ์ผ๋ก ์๋ก์ด ์๋ต์ ์์ฑํ๋ ๋ํ ์์ฑ ํ์คํฌ์ ๋๋ค. ๋จ์ํ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ถ์ถํ๋ ๊ฒ์ด ์๋๋ผ, ์๋ก์ด ๋ฌธ์ฅ์ ์์ฑํฉ๋๋ค
State-of-the-Art (SOTA)
- ํน์ ํ์คํฌ์์ ํ์ฌ๊น์ง ๋ฌ์ฑ๋ ์ต๊ณ ์ฑ๋ฅ์ ์๋ฏธํฉ๋๋ค. BART๋ ์ฌ๋ฌ ํ ์คํธ ์์ฑ ํ์คํฌ์์ SOTA ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค.
Ablation ์คํ
- ๋ชจ๋ธ์ ํน์ ๊ตฌ์ฑ ์์๋ ๊ธฐ๋ฅ์ ์ ๊ฑฐํ๊ฑฐ๋ ๋ณ๊ฒฝํ์ฌ, ํด๋น ์์๊ฐ ์ ์ฒด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ํ๊ฐํ๋ ์คํ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ค์ํ ๋ถ๋ถ์ ํ์ธํ ์ ์์ต๋๋ค.
'๐ NLP (์์ฐ์ด์ฒ๋ฆฌ) > ๐ Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP] BERT (Bidrectional Encoder Representations from Transformers) (0) | 2024.09.19 |
---|---|
[NLP] Generative Adversarial Networks (์์ฑ์ ์ ๋ ์ ๊ฒฝ๋ง, GAN) (0) | 2024.08.30 |
[NLP] AutoEncoder (์คํ ์ธ์ฝ๋) (0) | 2024.08.30 |
[NLP] RNNLM - RNN์ ์ฌ์ฉํ Language Model (0) | 2024.06.02 |
[NLP] BPTT (Backpropagation Through Time) (0) | 2024.05.23 |