์ด๋ฒ์๋ "Parameter-Efficient Transfer Learning for NLP" ๋ ผ๋ฌธ์ ํ๋ฒ ๋ฆฌ๋ทฐํด๋ณด๊ฒ ์ต๋๋ค.
- ๋ ผ๋ฌธ ๋งํฌ
Abstract
๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ์ Fine-tuningํ๋ ๊ฒ์ NLP์์ ํจ๊ณผ์ ์ธ ์ ์ด ๋ฐฉ๋ฒ์ด์ง๋ง, ๋ค์์ ๋ค์ด์คํธ๋ฆผ ์์ ์ด ์์ ๊ฒฝ์ฐ ๋นํจ์จ์ ์ ๋๋ค. ๊ฐ ์์ ๋ง๋ค ์๋ก์ด ๋ชจ๋ธ์ ํ์ต์์ผ์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ Adapter Modules์ ์ ์ํฉ๋๋ค.
Adapter Modules์ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ๊ฐ์ง๋๋ค:
- ์ปดํฉํธํ๊ณ ํ์ฅ ๊ฐ๋ฅ: ๊ฐ ์์ ๋ง๋ค ๊ทน์๋์ ๋งค๊ฐ๋ณ์๋ง ์ถ๊ฐ๋ฉ๋๋ค.
- ํจ์จ์ ์ธ ์ ์ด: ์๋ก์ด ์์ ์ ์ถ๊ฐํ ๋ ๊ธฐ์กด ์์ ์ ๋ค์ ํ์ตํ ํ์๊ฐ ์์ต๋๋ค.
- ๋งค๊ฐ๋ณ์ ๊ณต์ : ์๋ ๋คํธ์ํฌ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ณ ์ ํ์ฌ ๋์ ์์ค์ ๋งค๊ฐ๋ณ์ ๊ณต์ ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
Adapter Modules์ BERT Transformer ๋ชจ๋ธ์ ์ ์ฉํ์ฌ GLUE Benchmark๋ฅผ ํฌํจํ 26๊ฐ์ ๋ค์ํ ํ ์คํธ ๋ถ๋ฅ ์์ ์์ ํ ์คํธํ ๊ฒฐ๊ณผ, ๊ฑฐ์ ์ต์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์์ ๋น ๋งค๊ฐ๋ณ์ ์ถ๊ฐ๊ฐ ๋งค์ฐ ์ ์์ต๋๋ค. ํนํ GLUE์์๋ ์ ์ฒด Fine-tuning ์ฑ๋ฅ ๋๋น 0.4% ์ด๋ด์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ์์ ๋น 3.6%์ ๋งค๊ฐ๋ณ์๋ง ์ถ๊ฐํ์ต๋๋ค. ๋ฐ๋ฉด, ์ ํต์ ์ธ Fine-tuning ๋ฐฉ๋ฒ์ ์์ ๋น 100%์ ๋งค๊ฐ๋ณ์๋ฅผ ํ์ต์์ผ์ผ ํ์ต๋๋ค.
๊ฒฐ๋ก : Adapter Module์ ํ์ฉํ Transfer Learning ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค.
- Transfer Learning ๊ด๋ จํ ๊ฐ๋ ์ ์๋ ๊ธ์ ์์ฑํด ๋์์ผ๋ ์ฐธ๊ณ ํด์ฃผ์ธ์!
Introduction
์ด ๋ ผ๋ฌธ์์ ์์ ๋ค์ด ์คํธ๋ฆผ์ผ๋ก ๋์ฐฉํ๋ Online Setting์ ๋ค๋ฃน๋๋ค.
"In this paper we address the online setting, where tasks arrive in sequence"
์ฌ๊ธฐ์์ Online Setting์ ๊ณ ๊ฐ์ ์ฐ์์ ์ธ ์์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ง์ ์์ ์ ํ์ตํด์ผ ํ๋ ํด๋ผ์ฐ๋ ์๋น์ค์ ๊ฐ์ ํ๊ฒฝ์ด๋ผ๋ ๊ฒ์ ๋๋ค.
- ๋ชฉํ๋ ๊ฐ ์์ ์ ๋ํด ์๋ก์ด ๋ชจ๋ธ์ ํ์ตํ์ง ์๊ณ ๋ชจ๋ ์์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ฐํํ๋ ์์คํ ์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋๋ค.
์ด๋ฅผ ์ํด Compactํ๊ณ Extensibleํ Downstream Model์ ์ ๊ณตํ๋ Transfer Learning ์ ๋ต์ ์ ์ํฉ๋๋ค. ์ฌ๊ธฐ์ ์ด์ 2๊ฐ์ง ๋ชจ๋ธ์ด ๋์ต๋๋ค.
- Compact๋ ๊ฐ ์์ ์ ๋ํด ์์์ ์ถ๊ฐ ๋งค๊ฐ๋ณ์๋ก ๋ง์ ์์ ์ ํด๊ฒฐํ ์ ์๋ ๋ชจ๋ธ์ ์๋ฏธํฉ๋๋ค
- Extensible๋์ด์ ์์ ์ ์์ง ์๊ณ ์๋ก์ด ์์ ์ ์ ์ง์ ์ผ๋ก ํ์ตํ ์ ์๋ ๋ชจ๋ธ์ ์๋ฏธํฉ๋๋ค.
์ด์ ์ฌ๊ธฐ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ ๊ฐ์ง Transfer Learning ๊ธฐ๋ฒ์ Feature-Based Transfer์ Fine-Tuning์ ๋๋ค.
- Feature-Based Transfer๋ ์ค์ํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ ํ์ตํ๋ ๊ฒ์ ํฌํจํ๋ฉฐ, ์ด ์๋ฒ ๋ฉ์ ๋จ์ด, ๋ฌธ์ฅ, ๋๋ ๋ฌธ๋จ ์์ค ์ผ ์ ์์ผ๋ฉฐ. ์๋ฒ ๋ฉ์ ์ดํ ์ปค์คํ Downstream Model๋ก ์ ๋ ฅ๋ฉ๋๋ค.
- Fine-Tuning์ ์ฌ์ ํ์ต๋ ๋คํธ์ํฌ์ ๊ฐ์ค์น๋ฅผ ๋ณต์ฌํ์ฌ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ํ๋ํ๋ ๋ฐฉ์์ ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด Fine-Tuning์ด Feature-Based Transfer๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
- ๋ํ Feature-Based Transfer์ Fine-Tuning ๋ชจ๋ ๊ฐ ์์ ์ ๋ํด ์๋ก์ด ๊ฐ์ค์น ์ธํธ๋ฅผ ํ์๋ก ํ๊ฐ ๋๋ฌธ์ ์๋ก์ด Task์ ์ ์์์ ์ง ํ์ง ๋ชปํ๋ค๋ ์ด์๊ฐ ์์ต๋๋ค.
๊ทธ๋์ Transfer Learning ๊ธฐ๋ฒ ๋์ , Adapter Modules์ ๊ธฐ๋ฐํ ๋์์ ์ธ Transfer Method๋ฅผ ์ ์ํฉ๋๋ค.
- Fine-Tuning์ ๋คํธ์ํฌ์ ํ์ ๋ ์ด์ด๋ฅผ ์์ ๊ฐ์ ๊ณต์ ํ ๊ฒฝ์ฐ ๋ ํจ์จ์ ์ด์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ ์ํ๋ Adapter Tuning ๋ฐฉ๋ฒ์ ํจ์ฌ ๋ Parameter Efficientํฉ๋๋ค. Adapter-Based Tuning์ Fine-Tuning์ ๋นํด ์์ ๋น ํ์ํ ๋งค๊ฐ๋ณ์๊ฐ ํจ์ฌ ์ ์ผ๋ฉด์๋ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
Adapters๋ ์ฌ์ ํ์ต๋ ๋คํธ์ํฌ์ ๋ ์ด์ด ์ฌ์ด์ ์ถ๊ฐ๋๋ ์๋ก์ด ๋ชจ๋์ ๋๋ค.
Adapter-Based Tuning์ Feature-Based Transfer์ Fine-Tuning๊ณผ ๋ค์๊ณผ ๊ฐ์ ์ฐจ์ด์ ์ ๋ฐํ์ฌ ์ค๋ช ํด๋ณด๋ฉด. ํ๋ผ๋ฏธํฐ w๋ฅผ ๊ฐ์ง ํจ์ ฯw(x) ๊ฐ ์๋ค๊ณ ํ ๋
- Feature-Based Transfer๋ ฯw์ ์๋ก์ด ํจ์ χv๋ฅผ ๊ฒฐํฉํ์ฌ χv(ฯw(x))๋ฅผ ์์ฑํ๊ณ , ์์ ๋ณ ๋งค๊ฐ๋ณ์ v๋ง ํ๋ จํฉ๋๋ค.
- Fine-Tuning์ ๊ฐ ์์ ์ ๋ํด ์๋์ ํ๋ผ๋ฏธํฐ w๋ฅผ ์กฐ์ ํ์ฌ Compactness๋ฅผ ์ ํํฉ๋๋ค.
Adapter-Based Tuning ๊ฐ๋ ์ ์ค๋ช ํด๋ณด๋ฉด
- ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ w๋ฅผ ๊ณ ์ ํ๊ณ , ์๋ก์ด ์์ ๋ณ ์ถ๊ฐ ํ๋ผ๋ฏธํฐ v๋ฅผ ํ์ตํฉ๋๋ค.
- ์๋ก์ด ํจ์ ψw,v(x)๋ฅผ ์ ์ํ์ฌ, ์ด๊ธฐ ํ๋ผ๋ฏธํฐ v0๊ฐ ψw,v0(x) ≈ ฯw(x)๊ฐ ๋๋๋ก ์ค์ ํฉ๋๋ค.
- ํ๋ จ ์ค์๋ ์์ ๋ณ ์ถ๊ฐ ํ๋ผ๋ฏธํฐ v๋ง ์กฐ์ , |v| โช |w|๋ฅผ ๋ง์กฑํด ํจ์จ์ ์ด๊ณ Compactํ ๋ชจ๋ธ ์ค๊ณ ๊ฐ๋ฅํฉ๋๋ค.
- ๊ธฐ์กด ์์ ์ ์ํฅ์ ์ฃผ์ง ์๊ณ ์๋ก์ด ์์ ์ ํ์ฅ์ด ๊ฐ๋ฅํฉ๋๋ค.
๊ธฐ์กด์ ํ์ต ๋ฐฉ์๊ณผ ๋น๊ตํด๋ณด์๋ฉด
Multi-Task Learning๋ Compact ๋ชจ๋ธ์ ๋ชจ๋ ์์ ์ ๋ํ ๋์ ์ ๊ทผ์ ํ์๋ก ํ์ง๋ง Adapter-Based Tuning์ ํ์ํ์ง ์์ต๋๋ค.
Continual Learning ์์คํ ์ ์์ ์คํธ๋ฆผ ํ์ต์ด ๊ฐ๋ฅํ๋, ์ด์ ์์ ์ ์๋ Forgetting Problem์ด ๋ฐ์ํฉ๋๋ค.
Adapter-Based Tuning์
- ์์ ๊ฐ ํ๋ผ๋ฏธํฐ ๊ณต์ ๋ฅผ ์ ์งํ๋ฉด์๋ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค.
- ์์์ ์์ ๋ณ ํ๋ผ๋ฏธํฐ๋ก ์ด์ ์์ ์ ์๋ฒฝํ ๊ธฐ์ตํฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ Adapters๊ฐ NLP๋ฅผ ์ํ Parameter-Efficient Tuning์ Adapter Module์ ์ค๊ณํ๊ณ ์ด๋ฅผ ๊ธฐ๋ณธ ๋ชจ๋ธ๊ณผ ํตํฉํ๋ ๊ฒ์ด์ง๋ง, ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ Bottleneck Architecture๋ฅผ ์ ์ํฉ๋๋ค.
GLUE Benchmark์์ ์ฐ๋ฆฌ์ ์ ๋ต์ ์ ์ฒด Fine-Tuning๋ BERT์ ๊ฑฐ์ ๋์ผํ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ฉด์๋ ์์ ๋น 3%์ ์์ ๋ณ ํ๋ผ๋ฏธํฐ๋ง์ ์ฌ์ฉํ๋ฉฐ, Fine-Tuning์ ์์ ๋น 100%์ ์์ ๋ณ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ถ๊ฐ๋ก 17๊ฐ์ ๊ณต๊ฐ ํ ์คํธ ๋ฐ์ดํฐ์ ๊ณผ SQuAD ์ถ์ถํ ์ง๋ฌธ ์๋ต์์๋ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๊ด์ฐฐํ์ต๋๋ค.
์์ฝํ๋ฉด, Adapter-Based Tuning์ ํ ์คํธ ๋ถ๋ฅ์์ ์ต์ ์ฑ๋ฅ์ ๊ฐ๊น์ด ๋จ์ผ, ํ์ฅ ๊ฐ๋ฅํ ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค.
Adapter tuning for NLP
์ด ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ Downstream Task์ ๋ํด ์ฌ๋ฌ Text Model์ ์กฐ์ ํ ์ ์๋ Adapter Tuning์ด๋ผ๋ ์ ๋ต์ ์ ์ํฉ๋๋ค.
์ฃผ์ 3๊ฐ์ง ํน์ฑ์ ๋ฐํ์ฌ ์ค๋ช ์ ๋๋ฆฌ๋ฉด
- ์ฑ๋ฅ์ด ์ฐ์ํจ
- ์์ ์ ์์ฐจ์ ์ผ๋ก ํ์ตํ ์ ์์ - ์ฆ, ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๋์์ ์ ๊ทผํ ํ์๊ฐ ์์
- ์์ ๋ณ๋ก ์๋์ ์ถ๊ฐ ๋งค๊ฐ๋ณ์๋ง ์ถ๊ฐ๋จ
์ด๋ฌํ ํน์ฑ์ ํนํ ์ฌ๋ฌ ๋ชจ๋ธ์ ์ผ๋ จ์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๋ํด ํ์ตํด์ผ ํ๋ ํด๋ผ์ฐ๋ ์๋น์ค ํ๊ฒฝ์์ ์ ์ฉํ๋ฉฐ, ๋์ ๊ณต์ ๋๋ฅผ ์ ๊ณตํ์ฌ ํจ์จ์ฑ์ ๋์ ๋๋ค.
์ด๋ฌํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์๋ก์ด ๋ณ๋ชฉ ์ด๋ํฐ ๋ชจ๋์ ์ ์ํฉ๋๋ค.
Adapter Tuning์ ๋ชจ๋ธ์ ์์์ ์๋ก์ด ๋งค๊ฐ๋ณ์๋ฅผ ์ถ๊ฐํ๊ณ ์ด๋ฅผ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๋ํด ํ์ต์ํค๋ ๋ฐฉ์์ ๋๋ค
์ ํต์ ์ธ Fine-Tuning์์๋ ๋คํธ์ํฌ์ ์ต์์ธต์ ์์ ํ๋๋ฐ, ์ด๋ ์์ ์์ ๊ณผ ํ์ ์์ ๊ฐ์ ๋ ์ด๋ธ ๊ณต๊ฐ ๋ฐ ์์ค์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ํ์ํ๊ณ , ์๋ก์ด ๋ ์ด์ด๋ฅผ ์๋ ๋คํธ์ํฌ์ ์ฝ์ ํฉ๋๋ค. ์๋ ๋คํธ์ํฌ์ ๊ฐ์ค์น๋ ๊ทธ๋๋ก ๋๊ณ , ์๋ก์ด ์ด๋ํฐ ๋ ์ด์ด๋ง ๋ฌด์์๋ก ์ด๊ธฐํํ์ฌ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
์ด๋ฌํ Adapter ๋ชจ๋์๋ ๋ ๊ฐ์ง ์ฃผ์ ํน์ง์ด ์์ต๋๋ค:
- ์์์ ๋งค๊ฐ๋ณ์ ์ฌ์ฉ: ์ด๋ํฐ ๋ชจ๋์ ์๋ ๋คํธ์ํฌ์ ๋ ์ด์ด๋ณด๋ค ์์์ผ ํ๋ฉฐ, ์์ ์ด ์ถ๊ฐ๋ ๋ ์ ์ฒด ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์๋์ ์ผ๋ก ์ฒ์ฒํ ์ฆ๊ฐํ๊ฒ ๋ง๋ญ๋๋ค.
- ๊ฑฐ์ ๋์ผํ ์ด๊ธฐํ: ํ์ต์ด ์์ ์ ์ด๊ธฐ ์ํด ์ด๋ํฐ ๋ชจ๋์ ๊ฑฐ์ ๋์ผ ํจ์๋ก ์ด๊ธฐํํด์ผ ํฉ๋๋ค.
์ด๋ฌํ ์ด๊ธฐํ๋ฅผ ํตํด ํ์ต์ด ์์๋ ๋ ์๋ ๋คํธ์ํฌ์ ์ํฅ์ ์ฃผ์ง ์์ผ๋ฉฐ, ํ์ต ์ค ์ด๋ํฐ๋ ๋คํธ์ํฌ ์ ์ฒด์ ๊ฑธ์ณ ํ์ฑํ ๋ถํฌ๋ฅผ ๋ณ๊ฒฝํ ์ ์์ต๋๋ค. ์ด๋ํฐ ๋ชจ๋์ด ํ์ํ์ง ์์ ๊ฒฝ์ฐ ๋ฌด์ํ ์๋ ์์ต๋๋ค.
Instantiation for Transformer Networks
Transformer์ ์ด๋ํฐ ๊ธฐ๋ฐ ํ๋์ ์ ์ฉํ์ฌ ์ต์ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ์ด๋ํฐ ๋ชจ๋์๋ ๋ค์ํ ์ค๊ณ ์ต์ ์ด ์์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ ๋จ์ํ ์ค๊ณ๊ฐ ์ข์ ์ฑ๋ฅ์ ๋ฐํํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
Transformer์ ๊ฐ ๋ ์ด์ด๋ ๋ ๊ฐ์ ์ฃผ์ ํ์ ๋ ์ด์ด๋ฅผ ํฌํจํฉ๋๋ค: Attention Layer์ Feedforward Layer. ๊ฐ ํ์ ๋ ์ด์ด์ ์ถ๋ ฅ์ ์ ๋ ฅ ํฌ๊ธฐ๋ก ๋ค์ ํฌ์๋๋ฉฐ, ์ดํ Skip Connection์ด ์ ์ฉ๋ฉ๋๋ค. ๋ํ, ๊ฐ ํ์ ๋ ์ด์ด์ ์ถ๋ ฅ์ Layer Normalization์ ์ ๋ฌ๋ฉ๋๋ค. ์ ์๋ค์ ๊ฐ ํ์ ๋ ์ด์ด ๋ค์ ๋ ๊ฐ์ ์ง๋ ฌ ์ด๋ํฐ๋ฅผ ์ถ๊ฐํ์ต๋๋ค. ์ด๋ํฐ๋ ํ์ ๋ ์ด์ด์ ์ถ๋ ฅ์ ์ง์ ์ ์ฉ๋๋ฉฐ, ์ ๋ ฅ ํฌ๊ธฐ๋ก ํฌ์ํ ํ Skip Connection์ ์ ์ฉํ๊ธฐ ์ ๋จ๊ณ์ ์ถ๊ฐ๋ฉ๋๋ค. ์ด ์ด๋ํฐ์ ์ถ๋ ฅ์ ์ดํ Layer Normalization์ผ๋ก ๋ฐ๋ก ์ ๋ฌ๋ฉ๋๋ค.
๋ํ, Adapter Module์ Parameter์ ์๋ฅผ ์ ํํ๊ธฐ ์ํด์ ์์์ ์ค๋ช ํ๋ฏ์ด, ๋ณ๋ชฉ Architecuter๋ฅผ ์ ์ํฉ๋๋ค.
๐ค: Pretrained ๋ชจ๋ธ์ ํ์ต ํ๋ผ๋ฏธํฐ(vector)
๐ฃ: ์๋กญ๊ฒ ํ์ตํด์ผํ ํ๋ผ๋ฏธํฐ(vector)
๐_๐ค: ์ฌ์ ํ์ต๋ ๋ชจ๋ธ(Neural network)
x: ์ธํ ๋ฐ์ดํฐ
Feature-based learning: ๐_๐ฃ(๐_๐ค(x))
: ๐_๐ฃ์ ๋จ์ํ ์ถ๋ ฅ๋ง ๋ฐ๊ฟ์ฃผ๋ final layer๋ผ๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค. ์ฆ, ๊ธฐ์กด ์ฌ์ ํ์ต๋ ๋คํธ์ํฌ ๐_๐ค์ ๊ฒฐ๊ณผ๋ฅผ ์๋ก์ด ํ์คํฌ์ ์ถ๋ ฅ(๐_๐ฃ)์ ๋ง๊ฒ ๋ณํํ ๊ฒฐ๊ณผ์ ๋๋ค.
Fine-tuning: ๐'_๐ค'(x)
์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ ์์ฒด๋ฅผ ๋ณํ, ์ฆ ๋ชจ๋ธ ํจ์ ์์ฒด๋ฅผ ๋ณํํฉ๋๋ค. - ๐_๐ค(x) -> ๐'_๐ค'(x)
Adapter: ๐_{๐ค,๐ฃ}
๐ค๋ ๊ณ ์ ํ๋, ์๋ก์ด ํ์คํฌ์ ๋ํ ๊ฐ์ค์น ๐ฃ๋ง ์ ๋ฐ์ดํธํฉ๋๋ค.
d ์ฐจ์์ ํน์ง์ ๋ ์์ ์ฐจ์ m์ผ๋ก ํฌ์ํ ํ, ๋น์ ํ์ฑ์ ์ ์ฉํ๊ณ ๋ค์ d ์ฐจ์์ผ๋ก ํฌ์ํฉ๋๋ค.
๊ฐ ๋ ์ด์ด๋น ์ถ๊ฐ๋๋ ์ด ํ๋ผ๋ฏธํฐ ์๋ 2md + d + m์ ๋๋ค. m < d๋ก ์ค์ ํจ์ผ๋ก์จ ์์ ๋น ์ถ๊ฐ๋๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ผ ์ ์์ผ๋ฉฐ, ์ค์ ๋ก ์๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ์ฝ 0.5-8%๋ง ์ฌ์ฉํฉ๋๋ค.
๋ณ๋ชฉ ์ฐจ์ m์ ์กฐ์ ํจ์ผ๋ก์จ ์ฑ๋ฅ๊ณผ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ ์ฝ๊ฒ ์กฐ์ ํ ์ ์์ต๋๋ค. ์ด๋ํฐ ๋ชจ๋ ์์ฒด์๋ ๋ด๋ถ์ ์ผ๋ก Skip Connection์ด ์์ด, ํฌ์ ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ๊ฐ ๊ฑฐ์ 0์ผ๋ก ์ด๊ธฐํ๋ ๊ฒฝ์ฐ ์ด๋ํฐ ๋ชจ๋์ ๋๋ต์ ์ธ ๋์ผ ํจ์ ๋ก ์ด๊ธฐํ๋ฉ๋๋ค.
๋ํ, ์์ ๋ง๋ค ์๋ก์ด Layer Normalization ํ๋ผ๋ฏธํฐ๋ ํ์ตํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ Conditional Batch Normalization, FiLM, Self-Modulation๊ณผ ์ ์ฌํ๋ฉฐ, ๋ ์ด์ด๋น 2d ํ๋ผ๋ฏธํฐ๋ง์ผ๋ก ๋คํธ์ํฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ ์์ํต๋๋ค. ๊ทธ๋ฌ๋ Layer Normalization ํ๋ผ๋ฏธํฐ๋ง ํ์ตํ๋ ๊ฒ์ผ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ์ป์ ์ ์๋ค๊ณ ์ค๋ช ํฉ๋๋ค.
Experiments
Adapter ๊ธฐ๋ฐ ํ๋์ด ํ ์คํธ ์์ ์์ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ ์ ์ด๋ฅผ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ค๋๋ค. GLUE ๋ฒค์น๋งํฌ์์ BERT๋ฅผ ์์ ํ ํ์ธํ๋ํ ์ฑ๋ฅ์ ๋นํด ์ด๋ํฐ ํ๋์ ์ฑ๋ฅ ์ฐจ์ด๊ฐ 0.4%์ ๋ถ๊ณผํ์ง๋ง, ํ์ธํ๋๋ณด๋ค ์ฝ 3%์ ํ๋ผ๋ฏธํฐ๋ง ์ถ๊ฐ๋ฉ๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ์ถ๊ฐ์ ์ธ 17๊ฐ์ ๊ณต๊ฐ ๋ถ๋ฅ ์์ ๋ฐ SQuAD ์ง๋ฌธ ์๋ต์์๋ ํ์ธ๋์์ต๋๋ค. ๋ถ์ ๊ฒฐ๊ณผ, ์ด๋ํฐ ๊ธฐ๋ฐ ํ๋์ ์๋์ผ๋ก ๋คํธ์ํฌ์ ์์ ๋ ์ด์ด์ ์ง์คํ๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค.
Experimental Setting
- ๊ธฐ๋ณธ ๋ชจ๋ธ: ์ฌ์ ํ์ต๋ BERT Transformer ๋คํธ์ํฌ.
- ๋ถ๋ฅ ์์ : Devlin et al. (2018)์ ๋ฐฉ์ ์ ์ฉ. ํน๋ณํ "[CLS]" ํ ํฐ๊ณผ ์ ํ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ ํด๋์ค ์์ธก ์ํ.
- ํ๋ จ ๊ณผ์ : Adam ์ตํฐ๋ง์ด์ ์ ์๋ฐ์ ํ์ต๋ฅ ์ค์ผ์ค ์ฌ์ฉ, ๋ฐฐ์น ํฌ๊ธฐ๋ 32. Google Cloud TPU 4๋๋ฅผ ํ์ฉํด ํ๋ จ.
- ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋: ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํด ๊ฒ์ฆ ์ธํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต์ ๋ชจ๋ธ์ ์ ํ.
์ฃผ์ ๋ชฉํ: ํ๋ผ๋ฏธํฐ๋ฅผ ์ต์๋ก ์ถ๊ฐ(์ด์์ ์ผ๋ก๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ 1๋ฐฐ)ํ์ฌ ํ์ธํ๋๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑ.
Glue Benchmark
- ์ฌ์ฉ ๋ชจ๋ธ: BERTLARGE (24๊ฐ ๋ ์ด์ด, 3์ต 3์ฒ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ).
- ์ด๋ํฐ ํ๋: ์ด๋ํฐ ๋ ์ด์ด ์ถ๊ฐ ํ ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ง ํ์ต:
- ํ์ดํผํ๋ผ๋ฏธํฐ: ํ์ต๋ฅ 3×10−5,3×10−4,3×10−3, ์ํฌํฌ ์ 3,20, ์ด๋ํฐ ํฌ๊ธฐ 8,64,256.3,20{3, 20}
- 8,64,256{8, 64, 256}
- 3×10−5,3×10−4,3×10−3{3 × 10โปโต, 3 × 10โปโด, 3 × 10โป³}
- ์์ ์ฑ์ ์ํด ๋ฌด์์ ์๋๋ก 5ํ ๋ฐ๋ณต ํ๋ จ.
- ์ฑ๋ฅ:
- ์ด๋ํฐ ํ๋: GLUE ํ๊ท ์ ์ 80.0.
- ์ ์ฒด ํ์ธํ๋: ํ๊ท ์ ์ 80.4 (0.4% ๋ ๋์).
- ์ด๋ํฐ ํฌ๊ธฐ๋ฅผ 64๋ก ๊ณ ์ ํ์ ๋ ํ๊ท ์ ์๋ 79.6์ผ๋ก ์ฝ๊ฐ ๊ฐ์.
- ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ:
- ์ ์ฒด ํ์ธํ๋: BERT ํ๋ผ๋ฏธํฐ์ 9๋ฐฐ ํ์.
- ์ด๋ํฐ ํ๋: 1.3๋ฐฐ ํ๋ผ๋ฏธํฐ๋ง ์๊ตฌ.
Additional Classification Tasks
- ๋ฐ์ดํฐ์ : 900~33๋ง๊ฐ์ ํ์ต ์์ , 2157 ํด๋์ค, ํ ์คํธ ๊ธธ์ด 57~1,900์.
- ํ๊ฐ ๋ฐฉ๋ฒ:
- ์ ์ฒด ํ์ธํ๋.
- ๊ฐ๋ณ ํ์ธํ๋(์์ n๊ฐ ๋ ์ด์ด๋ง ํ๋).
- ์ด๋ํฐ ํ๋.
- ๊ฒฐ๊ณผ:
- ์ด๋ํฐ ํ๋์ ์ ์ฒด ํ์ธํ๋๊ณผ ๊ฑฐ์ ๋์ผํ ์ฑ๋ฅ(0.4% ์ฐจ์ด)์ผ๋ก, ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ด ํจ์ฌ ๋ฐ์ด๋จ.
- ํ๋ผ๋ฏธํฐ ๋น๊ต:
- ์ ์ฒด ํ์ธํ๋: BERTBASE ํ๋ผ๋ฏธํฐ์ 17๋ฐฐ.
- ๊ฐ๋ณ ํ์ธํ๋: ํ๊ท 9.9๋ฐฐ.
- ์ด๋ํฐ ํ๋: ๋ชจ๋ ์์ ์์ 1.19๋ฐฐ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉ.
Parameter/Performance Trade-off
์ด๋ํฐ ํฌ๊ธฐ๋ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ ์กฐ์ ํ๋ฉฐ, ์์ ์ด๋ํฐ๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด์ง๋ง ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํ์ํ๊ธฐ ์ํด ๋ค์ํ ์ด๋ํฐ ํฌ๊ธฐ๋ฅผ ์คํํ๊ณ ๋ ๊ฐ์ง ๊ธฐ์ค๊ณผ ๋น๊ตํ์ต๋๋ค.
- (i) BERTBASE์ ์์ k ๋ ์ด์ด๋ง ํ์ธํ๋.
- (ii) ๋ ์ด์ด ์ ๊ทํ ํ๋ผ๋ฏธํฐ๋ง ํ๋.
Figure 3์์๋ GLUE์ ์ถ๊ฐ ๋ถ๋ฅ ์์ ์ ์ฒด์์ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ Trade-off๋ฅผ ๋ณด์ฌ์ค๋๋ค. GLUE์์๋ ์ ์ ๋ ์ด์ด๋ฅผ ํ์ธํ๋ํ ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ํ๋ ๋ฐ๋ฉด, ์ผ๋ถ ์ถ๊ฐ ์์ ์์๋ ์ ์ ๋ ์ด์ด ํ์ต์ด ์ ๋ฆฌํ์ฌ ์ฑ๋ฅ ๊ฐ์๊ฐ ์ ์ต๋๋ค. ๋ ๊ฒฝ์ฐ ๋ชจ๋, ์ด๋ํฐ๋ ํ์ธํ๋๋ณด๋ค ํจ์ฌ ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค.
Figure 4์์๋ ๋ GLUE ์์ (MNLIm๊ณผ CoLA)์ ๋ํ ์์ธํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์์ ๋ ์ด์ด๋ฅผ ํ๋ํ๋ฉด ๋ชจ๋ k > 2์ ๋ํด ๋ ๋ง์ ์์ ๋ณ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ต๋ฉ๋๋ค. ์ ์ฌํ ์์ ์์ ๋ณ ํ๋ผ๋ฏธํฐ๋ก ํ์ธํ๋ํ ๋ ์ด๋ํฐ๋ณด๋ค ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋๋ค.
์๋ฅผ ๋ค์ด, ์์ ๋ ์ด์ด ํ๋๋ง ํ์ธํ๋ํ ๊ฒฝ์ฐ ์ฝ 900๋ง ๊ฐ์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ MNLIm์์ 77.8% ± 0.1%์ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ๋ฐ๋ฉด, ํฌ๊ธฐ 64์ ์ด๋ํฐ ํ๋์ ์ฝ 200๋ง ๊ฐ์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ก 83.7% ± 0.1%์ ๊ฒ์ฆ ์ ํ๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์์ ํ์ธํ๋์ MNLIm์์ 84.4% ± 0.02%์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. CoLA์์๋ ์ ์ฌํ ๊ฒฝํฅ์ด ๋ํ๋ฌ์ต๋๋ค.
๋ํ, ๋ ์ด์ด ์ ๊ทํ ํ๋ผ๋ฏธํฐ๋ง ํ๋ํ์ฌ ๋น๊ตํ์ต๋๋ค. ์ด ๋ ์ด์ด๋ ์ ๋ณ ์ถ๊ฐ ๋ฐ ๊ณฑ์ ๋ง ํฌํจํ์ฌ 4๋ง ๊ฐ์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ ํ์ง๋ง, ์ฑ๋ฅ์ด CoLA์์ ์ฝ 3.5%, MNLIm์์ ์ฝ 4% ๊ฐ์ํ์ฌ ์ฑ๋ฅ์ด ์ข์ง ์์์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ์ด๋ํฐ ํ๋์ ๋งค์ฐ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ด๋ฉฐ, 0.5-5%์ ํ๋ผ๋ฏธํฐ๋ก๋ ์๋ณธ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋นํด ์ฑ๋ฅ ์ ํ๊ฐ ๊ฑฐ์ ์๊ณ , BERTLARGE์ ์ฑ๋ฅ์ ๊ทผ์ ํ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค.
SQuAD Extractive Question Answering
๋ง์ง๋ง์ผ๋ก, Adapter๊ฐ ๋ถ๋ฅ ์ธ์ ์์ ์๋ ํจ๊ณผ๊ฐ ์์์ ํ์ธํ๊ธฐ ์ํด SQuAD v1.1 ๋ฐ์ดํฐ์ ์์ ์คํ์ ์ํํ์ต๋๋ค. ์ด ์์ ์ ์ง๋ฌธ๊ณผ ์ํคํผ๋์ ๋ฌธ๋จ์ ์ฃผ์ด ๋ฌธ๋จ์์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์ ํํ๋ ๊ฒ์ ๋๋ค.
Figure 5๋ SQuAD ๊ฒ์ฆ ์ ์์ Fine-tuning๊ณผ Adapter์ ํ๋ผ๋ฏธํฐ/์ฑ๋ฅ ๊ฐ trade-off๋ฅผ ๋ณด์ฌ์ค๋๋ค. Fine-tuning์ ๊ฒฝ์ฐ ํ์ต๋ ๋ ์ด์ด ์, ํ์ต๋ฅ {3·10โปโต, 5·10โปโต, 1·10โปโด}, ์ํฌํฌ ์ {2, 3, 5}๋ฅผ ์กฐ์ ํ์๊ณ , Adapter์ ๊ฒฝ์ฐ Adapter ํฌ๊ธฐ, ํ์ต๋ฅ {3·10โปโต, 1·10โปโด, 3·10โปโด, 1·10โป³}, ์ํฌํฌ ์ {3, 10, 20}์ ์กฐ์ ํ์ต๋๋ค.
๋ถ๋ฅ ์์ ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, Adapter๋ ํจ์ฌ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํ๋ฉด์๋ Fine-tuning๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ํฌ๊ธฐ๊ฐ 64์ธ Adapter(2%์ ํ๋ผ๋ฏธํฐ)๋ ์ต๊ณ F1 ์ ์ 90.4%๋ฅผ ๋ฌ์ฑํ๊ณ , Fine-tuning์ 90.7%๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ํฌ๊ธฐ๊ฐ ๋งค์ฐ ์์ Adapter(ํฌ๊ธฐ 2, 0.1%์ ํ๋ผ๋ฏธํฐ)์กฐ์ฐจ F1 ์ ์ 89.9%๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
Analysis and Discussion
1. Adapter์ ์ค์์ฑ๊ณผ ์ญํ
- ๊ฐ๋ณ Adapter ์ ๊ฑฐ ์คํ
- ์ผ๋ถ ํ์ต๋ Adapter๋ฅผ ์ ๊ฑฐํ๊ณ ์ฌํ์ต ์์ด ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ๋จ์ผ ๋ ์ด์ด์ Adapter ์ ๊ฑฐ๋ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ด ๋ฏธ๋ฏธํ์ผ๋ฉฐ, ์ต๋ ์ฑ๋ฅ ์ ํ๋ 2%์ ๋ถ๊ณผํ์ต๋๋ค.
- ๋ชจ๋ Adapter๋ฅผ ์ ๊ฑฐํ์ ๋: MNLI์์ 37%, CoLA์์ 69%์ ์ฑ๋ฅ ์ ํ ๋ฐ์. ์ด๋ Adapter๊ฐ ๊ฐ๋ณ์ ์ผ๋ก๋ ์์ ์ํฅ์ ๋ฏธ์น์ง๋ง, ์ ์ฒด ๋คํธ์ํฌ์ ์ค์ํ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
- ์์ ๋ ์ด์ด์ ์ค์์ฑ
- ํ์ ๋ ์ด์ด(0~4 ๋ ์ด์ด)์ Adapter๋ฅผ ์ ๊ฑฐํด๋ ์ฑ๋ฅ์ ๊ฑฐ์ ์ํฅ์ ๋ฏธ์น์ง ์์.
- ์์ ๋ ์ด์ด Adapter๊ฐ ๋ ํฐ ์ํฅ์ ๋ฏธ์นจ. ์ด๋ ์์ ๋ ์ด์ด๊ฐ ์์ ๋ณ ๊ณ ์ ํน์ง์ ํ์ตํ๋ฉฐ, Adapter๊ฐ ์์ ๋ ์ด์ด์ ์ฐ์ ์ ์ผ๋ก ์๋ํ๋ค๋ ์ ์์ Fine-tuning ์ ๋ต๊ณผ ์ ์ฌ.
2. Adapter ์ด๊ธฐํ์ ํฌ๊ธฐ์ ๊ฐ๊ฑด์ฑ
- ์ด๊ธฐํ ํฌ๊ธฐ ์คํ
- Adapter ๋ชจ๋์ ๊ฐ์ค์น๋ ํ์คํธ์ฐจ 10โป² ์ดํ์์ ์ฑ๋ฅ์ด ์์ ์ ์ด์์.
- ์ด๊ธฐํ ํฌ๊ธฐ๊ฐ ๋๋ฌด ํฌ๋ฉด(CoLA์์ ๋ ๋๋ ทํ๊ฒ) ์ฑ๋ฅ์ด ์ ํ๋จ.
- ์ด๊ธฐํ ํ์คํธ์ฐจ ๋ฒ์ [10โปโท, 1] ๋ด์์ 10โป² ์ดํ๋ฅผ ๊ถ์ฅ.
- Adapter ํฌ๊ธฐ๋ณ ์ฑ๋ฅ
- ๋ค์ํ ํฌ๊ธฐ(8, 64, 256)์ Adapter๋ก ์คํํ ๊ฒฐ๊ณผ, ํฌ๊ธฐ 8~256 ์ฌ์ด์์ ์ฑ๋ฅ ์ฐจ์ด๋ ๊ฑฐ์ ์์.
- MNLI ํ๊ท ๊ฒ์ฆ ์ ํ๋:
- ํฌ๊ธฐ 8: 86.2%
- ํฌ๊ธฐ 64: 85.8%
- ํฌ๊ธฐ 256: 85.7%
3. Adapter ์ํคํ ์ฒ ํ์ฅ ์๋
- ํ์ฅ ์คํ: ๋ค์ํ ๋ณํ ์ํคํ
์ฒ๋ฅผ ์คํํ์ง๋ง, ์ฑ๋ฅ ํฅ์์ ๋ฏธ๋ฏธํ์.
- ์๋ํ ํ์ฅ ๋ฐฉ์:
- Batch/Layer Normalization ์ถ๊ฐ.
- Adapter์ ๋ ์ด์ด ์ ์ฆ๊ฐ.
- tanh ๋ฑ ๋ค๋ฅธ ํ์ฑํ ํจ์ ์ ์ฉ.
- Attention ๋ ์ด์ด ๋ด๋ถ์๋ง Adapter ์ฝ์ .
- ์ฃผ์ ๋ ์ด์ด์ ๋ณ๋ ฌ๋ก Adapter ์ถ๊ฐ ๋ฐ ๊ณฑ์ ์ํธ์์ฉ ๋์ .
- ๊ฒฐ๊ณผ: ์ ์๋ ๊ธฐ๋ณธ Adapter ๊ตฌ์กฐ์ ์ ์ฌํ ์ฑ๋ฅ.
- ์๋ํ ํ์ฅ ๋ฐฉ์:
Related Work
์ฌ์ ํ์ต๋ ํ ์คํธ ํํ
- ์ฌ์ ํ์ต๋ ํ ์คํธ ํํ์ NLP ์์ ์ฑ๋ฅ ํฅ์์ ์ํด ์ฌ์ฉ๋๋ฉฐ, ์ฃผ๋ก ๋๊ท๋ชจ ๋น์ง๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ดํ ์์ ์์ fine-tuning์ ํตํด ์ต์ ํ๋ฉ๋๋ค.
- ๋จ์ด ์๋ฒ ๋ฉ ๋ฐ์ : Brown ํด๋ฌ์คํฐ์ ๊ฐ์ ์ด๊ธฐ ๊ธฐ๋ฒ์์ ์์ํ์ฌ Word2Vec, GloVe, FastText ๋ฑ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ผ๋ก ๋ฐ์ (Mikolov et al., 2013; Pennington et al., 2014). ๊ธด ํ ์คํธ ์๋ฒ ๋ฉ ๊ธฐ์ ๋ Le & Mikolov(2014) ๋ฑ์ ์ฐ๊ตฌ๋ก ๊ฐ๋ฐ๋์์ต๋๋ค.
- ๋ฌธ๋งฅ ํฌํจ: ELMo, BiLSTM ๋ฑ์ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ฉฐ, ์ด๋ํฐ๋ ์ด๋ฌํ ๋ชจ๋ธ์ฒ๋ผ ๋ด๋ถ ๊ณ์ธต์ ํ์ฉํ์ง๋ง, ๋คํธ์ํฌ ์ ์ฒด์์ ํผ์ฒ๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ๊ฒ์ด ํน์ง.
Pre-trained text representations
- ์ฌ์ ํ์ต๋ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์์ ์ ๋ง๊ฒ fine-tuningํ๋ฉฐ, ์๋ก์ด ์์ ๋ง๋ค ๋คํธ์ํฌ ๊ฐ์ค์น ์ธํธ๊ฐ ํ์.
- ์ฅ์ : task๋ณ ๋ชจ๋ธ ์ค๊ณ๊ฐ ํ์ ์์ผ๋ฉฐ, Masked Language Model(MLM)์ ํ์ฉํ Transformer ๊ธฐ๋ฐ ๋คํธ์ํฌ(Vaswani et al., 2017)๊ฐ ์ง๋ฌธ ๋ต๋ณ, ํ ์คํธ ๋ถ๋ฅ ๋ฑ์ ์์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ ๋ฌ์ฑ(Devlin et al., 2018).
Multi-task Learning (MTL)
- ํ์ ๊ณ์ธต์ ๊ณต์ , ์์ ๊ณ์ธต์ ์์ ๋ณ ํนํ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉ.
- ์ฌ๋ฌ ์์ ์ ๋์์ ํ์ตํ๋ฉฐ, ์์ ๊ฐ ๊ท์น์ฑ์ ํ์ฉํด ์ฑ๋ฅ์ ํฅ์(Caruana, 1997).
- ํ์ฉ ์ฌ๋ก: ํ์ฌ ํ๊น , ๊ฐ์ฒด๋ช ์ธ์, ๊ธฐ๊ณ ๋ฒ์ญ(Johnson et al., 2017), ์ง๋ฌธ ๋ต๋ณ(Choi et al., 2017) ๋ฑ.
- ์ ํ: ํ๋ จ ์ค ์์ ๋ค์ ๋์ ์ ๊ทผ์ด ํ์ํ๋ฉฐ, ์ด๋ Adapter์ ์ฐจ๋ณ์ .
Continual Learning
- ์์ ์ํ์ค์์ ํ์ตํ๋ฉฐ, ์๋ก์ด ์์ ์ ํ์ตํ ๋ ์ด์ ์์ ์ ์๋ "๋ง๊ฐ(catastrophic forgetting)" ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ ์ ๊ทผ.
- ๋ฐฉ๋ฒ: ๊ทธ๋ฌ๋ ์์
์๊ฐ ๋ง์์ง์๋ก ๋นํจ์จ์ . Adapter๋ ์ด๋ณด๋ค ํจ์จ์ ์ผ๋ก ํ์ฅ ๊ฐ๋ฅ.
- Progressive Networks๋ ์์ ๋ง๋ค ์๋ก์ด ๋คํธ์ํฌ๋ฅผ ์์ฑํด ๋ง๊ฐ ๋ฐฉ์ง(Rusu et al., 2016).
Transfer Learning in Vision
- ImageNet ์ฌ์ ํ์ต ๋ชจ๋ธ: Fine-tuning์ ๋ถ๋ฅ, ๊ฒ์ถ, ์ธ๊ทธ๋จผํธ ๋ฑ์ ๋น์ ์์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ ๋ฌ์ฑ(Kornblith et al., 2018).
- Convolutional Adapter:Adapter ํฌ๊ธฐ๋ฅผ ์ค์ฌ๋ ์ฑ๋ฅ ์ ์ง, ๋ชจ๋ธ ํฌ๊ธฐ๋ ์์ ๋น ์ฝ 11% ์ฆ๊ฐ.
- ์์ convolutional ๊ณ์ธต์ ์ถ๊ฐํด ์์ ๋ณ ํ์ต ์ํ(Rebuffi et al., 2017).
BERT์ Adapter ์ฐ๊ตฌ์ ๋น๊ต
- Stickland & Murray(2019):PALs์ Adapter๋ ์ ์ฌํ์ง๋ง, ์ํคํ ์ฒ์ ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ.
- Projected Attention Layers(PALs)์ ๋์ ํด BERT์ ๋ชจ๋ GLUE ์์ ์์ ๋ค์ค ์์ ํ์ต ์ํ.
- ๊ฒฐ๋ก : ๋ค์ค ์์
ํ์ต๊ณผ ์ง์ ํ์ต์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ๊ณผ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๋ณด์ฌ์ค.
- Adapter๋ ์์ ํฌ๊ธฐ๋ก ํจ์จ์ ์ธ ํ์ฅ์ ์ ๊ณตํ๋ฉฐ, ์ฌ์ ํ์ต ๋ชจ๋ธ๊ณผ fine-tuning์ ํ๊ณ๋ฅผ ๋ณด์.