Pre-Trained Language Model - ๋ฏธ๋ฆฌ ํ์ต๋ ์ธ์ด๋ชจ๋ธ
๐ก ์ธ์ด ๋ชจ๋ธ(Language Model)
→ ๋จ์ด ์ํ์ค์ ๋ถ์ฌํ๋ ๋ชจ๋ธ (๋จ์ด ์ํ์ค๋ฅผ ์ ๋ ฅ๋ฐ์ ํด๋น ์ํ์ค๊ฐ ์ผ๋ง๋ ๊ทธ๋ด๋ฏํ์ง ํ๋ฅ ์ ์ถ๋ ฅ์ผ๋ก ํ๋ ๋ชจ๋ธ)
- ๋ฌธ์ฅ์์ i๋ฒ์งธ๋ก ๋ฑ์ฅํ๋ ๋จ์ด๋ฅผ ๐คn ์ด๋ ๊ฒ ํ๊ธฐํ๋ฉด n๋ฒ์งธ๋ก ๋ฑ์ฅํ๋ ์ธ์ด๋ชจ๋ธ์ ๋ฑ์ฅํ ํ๋ฅ (์์ 1)
- ex) ๋ํญ์ด๋ผ๋ ๋จ์ด ๋ฑ์ฅํ์ ์ด์ ์ด๋ผ๋ ๋จ์ด๊ฐ ๋ํ๋ ํ๋ฅ ? → ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด๋ผ๊ณ ํ๋ค.
์กฐ๊ฑด๋ถ ํ๋ฅ ํ๊ธฐ์
- ๊ฒฐ๊ณผ๊ฐ ๋๋ ์ฌ๊ฑด(์ด์ )์ ์์, ์กฐ๊ฑด์ด ๋๋ ์ฌ๊ฑด(๋ํญ)์ ๋ค์ ์ด๋ค
- ์กฐ๊ฑด์ด ๋๋ ์ฌ๊ฑด์ด ์ฐ๋ณ ๋ถ์์ ์ผ๋ถ, ๊ทธ๋ฆฌ๊ณ ์ฐ๋ณ ๋ถ๋ชจ๋ฅผ ๊ตฌ์ฑํ๊ณ ์์์ ๋ณผ ์ ์์
= ์ด๋ ๊ฒฐ๊ณผ๊ฐ ๋๋ ์ฌ๊ฑด(์ด์ )์ ์กฐ๊ฑด์ด ๋๋ ์ฌ๊ฑด(๋ํญ)์ ์ํฅ์ ๋ฐ์ ๋ณํ๋ค๋ ๊ฐ๋ ์ ๋ดํฌ
- ๊ฒฐํฉํ๋ฅ ๊ณผ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ฌ์ด์๋ ๋ฐ์ ํ ๊ด๋ จ์ด ์์
- ๊ฒฐํฉ ํ๋ฅ ๊ณผ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ฌ์ด์ ๊ด๊ณ
๊ฒฐํฉ ํ๋ฅ ๊ณผ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ฌ์ด์ ๊ด๊ณ
๋จ์ด 3๊ฐ๊ฐ ๋์์ ๋ฑ์ฅํ๋ ค๋ฉด, ์๋ 3๊ฐ ์ฌ๊ฑด(event) ์ด ๋์์ ์ผ์ด๋์ผ ํ๋ค๋ ๋ง์ด ๋๋ค.
- ์ฒซ๋ฒ์งธ ๋จ์ด(๐ค1)๊ฐ ๋ฑ์ฅ
- ์ฒซ๋ฒ์งธ ๋จ์ด(๐ค1)๊ฐ ๋ฑ์ฅํ ํ ๋๋ฒ์งธ ๋จ์ด(๐ค2)๊ฐ ๋ฑ์ฅ
- ์ฒซ๋ฒ์งธ ๋จ์ด(๐ค1)์ ๋๋ฒ์งธ ๋จ์ด(๐ค2 )๊ฐ ๋ฑ์ฅํ ํ ์ธ๋ฒ์งธ ๋จ์ด(๐ค3)๊ฐ ๋ฑ์ฅ
- ์ ์ฒด ๋จ์ด ์ํ์ค๊ฐ ๋ํ๋ ํ๋ฅ (์ผ์ชฝ ์์) = ์ด์ ๋จ์ด๋ค์ด ์ฃผ์ด์ก์๋ ๋ค์ ๋จ์ด๊ฐ ๋ฑ์ฅํ ํ๋ฅ
์ด๊ฒ ๋๋ฌธ์ ์ธ์ด ๋ชจ๋ธ์ ์ด์ ๋จ์ด๋ค์ด ์ฃผ์ด์ก์๋ ๋ค์ ๋์ด๊ฐ ๋ํ๋ ํ๋ฅ ์ ๋ถ์ฌํ๋ ๋ชจ๋ธ
์๋ฐฉํฅ ์ธ์ด๋ชจ๋ธ
์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ ์์ ๋ฐ๋ผ ์์1์ ์กฐ๊ฑด๋ถ์์์ ์ข๋ณ๊ณผ ์ฐ๋ณ์ด ๊ฐ๋ค๋ ์ฌ์ค์ ์๊ณ ์์ผ๋ฏ๋ก ์ธ์ด ๋ชจ๋ธ์ ๊ณ์ฐ ๋ก์ง์ ์ด์ ๋จ์ด๋ค(context)๊ฐ ์ฃผ์ด์ก์ ๋ ๋ค์ ๋จ์ด๋ฅผ ๋ง์ถ๋๊ฒ์ด ๊ฐ๋ฅํ๋ค.
๐ก Example: ์ด์ ์นดํ ๊ฐ์์ด ๊ฑฐ๊ธฐ ์ฌ๋ ๋ง๋๋ผ
- ํ์ ๋จ์ด๋ ์ปจํ ์คํธ, ๋ถ์์ ๋จ์ด๋ ๋งํ์ผํ ๋ค์ ๋จ์ด๋ฅผ ์๋ฏธ
- ์ด์ฒ๋ผ ๋ฌธ์ฅ ์๋ถํฐ ๋ค๋ก, ์ฌ๋์ด ์ดํดํ๋ ์์๋๋ก ๊ณ์ฐํ๋ ๋ชจ๋ธ์ ์๋ฐฉํฅ(forward) ์ธ์ด๋ชจ๋ธ → GPT, ELMo๊ฐ ๋ํ์ ์ด๋ค.
์ญ๋ฐฉํฅ ์ธ์ด๋ชจ๋ธ
- ์ญ๋ฐฉํฅ ์ธ์ด๋ชจ๋ธ์ ๋ฐฉํฅ๋ง ๋ด๋, ๋ค์ ๋จ์ด ๋ง์ถ๊ธฐ ๊ณผ์ ์์ ์ ์ฒด ๋จ์ด ์ํ์ค๊ฐ ๋ํ๋ ํ๋ฅ ์ ๊ณ์ฐํ ์ ์์ต๋๋ค.
- ELMo ๊ฐ์ ๋ชจ๋ธ์ด ์ด๊ฐ์ ๋ฐฉ์์ผ๋ก ํ๋ฆฌํธ๋ ์ธ์ ์ํ
๐ก ELMo(Embeddings from Language Models)→ ์๋ฐฉํฅ๊ณผ ์ญ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ ๋ชจ๋ ํ์ฉํ๋ ๊ธฐ๋ฒ
๋์ ์๋ฏธ์ ์ธ์ด๋ชจ๋ธ
์ต๊ทผ์๋ ์ธ์ด๋ชจ๋ธ์ ์ด๋ฐ ์์์ผ๋ก ์ ์ ํ๊ธฐ๋ ํ๋ค. → P(w | context)
- context → ์ฃผ๋ณ ๋งฅ๋ต ์ ๋ณด๊ฐ ์ ์ ๋ ์ํ์์ ํน์ ๋จ์ด(w)๊ฐ ๋ํ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์๋ฏธ
- ์ด๋ ๊ฒ ์ ์๋ ์ธ์ด๋ชจ๋ธ์ ๋จ์ด or ๋จ์ด ์ํ์ค๋ก ์ ์๋ context๋ฅผ input → ํน์ ๋จ์ด ๋ํ๋ ํ๋ฅ ์ถ๋ ฅ
Mask ์ธ์ด๋ชจ๋ธ
๐ก ํ์ต ๋ฌธ์ฅ์ ๋น์นธ์ ๋ง๋ค์ด ๋๊ณ , ํด๋น ๋น์นธ์ ์ฌ ๋จ์ด๋ก ์ ์ ํ ๋จ์ด๊ฐ ๋ฌด์์ธ์ง ๋ถ๋ฅํ๋ ๊ณผ์ ์ผ๋ก ํ์ต → ๋ํ์ ์ผ๋ก BERT
- ํ์์ context → [MASK] ์นดํ ๊ฐ์์ด ๊ฑฐ๊ธฐ ์ฌ๋ ๋ง๋๋ผ
- ๋นจ๊ฐ์์ด Target → ๋งํ ๋์
๐ก ๋งํ ๋จ์ด ์ด์ ๋จ์ด๋ค๋ง ์ฐธ๊ณ ํ ์ ์๋ ์๋ฐฉํฅ/์ญ๋ฐฉํฅ ์ธ์ด๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ๋ง์คํฌ ์ธ์ด ๋ชจ๋ธ์ ๋งํ ๋จ์ด๋ฅผ ๊ณ์ฐํ ๋ ๋ฌธ์ฅ ์ ์ฒด์ ๋งฅ๋ฝ์ ์ฐธ๊ณ ํ ์ ์์
- ๋ง์คํฌ ์ธ์ด๋ชจ๋ธ์ ์๋ฐฉํฅ(bidirectional) ์ฑ์ง = ๋งํ ๋จ์ด ์๋ค๋ฅผ ๋ชจ๋ ๋ณธ๋ค๋ ๋ป
Skip-Gram ๋ชจ๋ธ
๐ก ์ด๋ค ๋จ์ด ์๋ค์ ํน์ ๋ฒ์๋ฅผ ์ ํด ๋๊ณ ์ด ๋ฒ์ ๋ด์ ์ด๋ค ๋จ์ด๋ค์ด ์ฌ์ง ๋ถ๋ฅํ๋ ๊ณผ์ ์์ ํ์ต
- Skip-Gram Model์ ๊ฐ์์ด ์ฃผ๋ณ์ ์ด์ , ์นดํ, ๊ฑฐ๊ธฐ, ์ฌ๋์ด ๋ํ๋ ํ๋ฅ ์ ๊ฐ๊ฐ ๋์ด๋ ๋ฐฉ์์ผ๋ก ํ์ต
- ๊ฑฐ๊ธฐ ์ฃผ๋ณ์ ์นดํ, ๊ฐ์์ด, ์ฌ๋, ๋ง๋๋ผ๊ฐ ๋ํ๋ ํ๋ฅ ์ ๊ฐ๊ฐ ๋์.
- ์ฆ ์คํต-๊ทธ๋จ ๋ชจ๋ธ์ context๋ก ์ค์ ํ ๋จ์ด ์ฃผ๋ณ์ ์ด๋ค ๋จ์ด๋ค์ด ๋ถํฌํด ์๋์ง๋ฅผ ํ์ต ํ๋ ๋ฐฉ์
Word2Vec์ด skip-gram ๋ชจ๋ธ ๋ฐฉ์
'๐ NLP (์์ฐ์ด์ฒ๋ฆฌ) > ๐ Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP] RNN (Recurrent Netural Network) - ์ํ์ ๊ฒฝ๋ง (0) | 2024.01.22 |
---|---|
[NLP] Seq2Seq, Encoder & Decoder (0) | 2024.01.19 |
[NLP} Tokenization - ํ ํฐํํ๊ธฐ (0) | 2024.01.18 |
[NLP] Building a vocabulary set - ์ดํ ์งํฉ ๊ตฌ์ถํ๊ธฐ (0) | 2024.01.18 |
[NLP] Tokenization - ํ ํฐํ๋? (0) | 2024.01.16 |