A A
[NLP] Pre-Trained Language Model - ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ์–ธ์–ด๋ชจ๋ธ

Pre-Trained Language Model - ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ์–ธ์–ด๋ชจ๋ธ

๐Ÿ’ก ์–ธ์–ด ๋ชจ๋ธ(Language Model)

 

→ ๋‹จ์–ด ์‹œํ€€์Šค์— ๋ถ€์—ฌํ•˜๋Š” ๋ชจ๋ธ (๋‹จ์–ด ์‹œํ€€์Šค๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ํ•ด๋‹น ์‹œํ€€์Šค๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ทธ๋Ÿด๋“ฏํ•œ์ง€ ํ™•๋ฅ ์„ ์ถœ๋ ฅ์œผ๋กœ ํ•˜๋Š” ๋ชจ๋ธ)

 

  • ๋ฌธ์žฅ์—์„œ i๋ฒˆ์งธ๋กœ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋ฅผ ๐‘คn ์ด๋ ‡๊ฒŒ ํ‘œ๊ธฐํ•˜๋ฉด n๋ฒˆ์งธ๋กœ ๋“ฑ์žฅํ•˜๋Š” ์–ธ์–ด๋ชจ๋ธ์— ๋“ฑ์žฅํ•  ํ™•๋ฅ  (์ˆ˜์‹ 1)
  • ex) ๋‚œํญ์ด๋ผ๋Š” ๋‹จ์–ด ๋“ฑ์žฅํ›„์— ์šด์ „์ด๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ? → ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ์ด๋ผ๊ณ  ํ•œ๋‹ค.

์ˆ˜์‹.1 (์ขŒ), ์ˆ˜์‹.2 (์šฐ)

 

์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ํ‘œ๊ธฐ์‹œ
  • ๊ฒฐ๊ณผ๊ฐ€ ๋˜๋Š” ์‚ฌ๊ฑด(์šด์ „)์„ ์•ž์—, ์กฐ๊ฑด์ด ๋˜๋Š” ์‚ฌ๊ฑด(๋‚œํญ)์€ ๋’ค์— ์“ด๋‹ค
  • ์กฐ๊ฑด์ด ๋˜๋Š” ์‚ฌ๊ฑด์ด ์šฐ๋ณ€ ๋ถ„์ž์˜ ์ผ๋ถ€, ๊ทธ๋ฆฌ๊ณ  ์šฐ๋ณ€ ๋ถ„๋ชจ๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ  ์žˆ์Œ์„ ๋ณผ ์ˆ˜ ์žˆ์Œ
= ์ด๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋˜๋Š” ์‚ฌ๊ฑด(์šด์ „)์€ ์กฐ๊ฑด์ด ๋˜๋Š” ์‚ฌ๊ฑด(๋‚œํญ)์˜ ์˜ํ–ฅ์„ ๋ฐ›์•„ ๋ณ€ํ•œ๋‹ค๋Š” ๊ฐœ๋…์„ ๋‚ดํฌ

 

  • ๊ฒฐํ•ฉํ™•๋ฅ ๊ณผ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ์‚ฌ์ด์—๋Š” ๋ฐ€์ ‘ํ•œ ๊ด€๋ จ์ด ์žˆ์Œ
  • ๊ฒฐํ•ฉ ํ™•๋ฅ ๊ณผ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ์‚ฌ์ด์˜ ๊ด€๊ณ„

๊ฒฐํ•ฉ ํ™•๋ฅ ๊ณผ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ์‚ฌ์ด์˜ ๊ด€๊ณ„

 

๋‹จ์–ด 3๊ฐœ๊ฐ€ ๋™์‹œ์— ๋“ฑ์žฅํ•˜๋ ค๋ฉด, ์•„๋ž˜ 3๊ฐœ  ์‚ฌ๊ฑด(event) ์ด ๋™์‹œ์— ์ผ์–ด๋‚˜์•ผ ํ•œ๋‹ค๋Š” ๋ง์ด ๋œ๋‹ค.

  • ์ฒซ๋ฒˆ์งธ ๋‹จ์–ด(๐‘ค1)๊ฐ€ ๋“ฑ์žฅ
  • ์ฒซ๋ฒˆ์งธ ๋‹จ์–ด(๐‘ค1)๊ฐ€ ๋“ฑ์žฅํ•œ ํ›„ ๋‘๋ฒˆ์งธ ๋‹จ์–ด(๐‘ค2)๊ฐ€ ๋“ฑ์žฅ
  • ์ฒซ๋ฒˆ์งธ ๋‹จ์–ด(๐‘ค1)์™€ ๋‘๋ฒˆ์งธ ๋‹จ์–ด(๐‘ค2 )๊ฐ€ ๋“ฑ์žฅํ•œ ํ›„ ์„ธ๋ฒˆ์งธ ๋‹จ์–ด(๐‘ค3)๊ฐ€ ๋“ฑ์žฅ

์ˆ˜์‹.1 ์˜ ์กฐ๊ฑด๋ถ€ ์ˆ˜์‹

  • ์ „์ฒด ๋‹จ์–ด ์‹œํ€€์Šค๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ  (์™ผ์ชฝ ์ˆ˜์‹) = ์ด์ „ ๋‹จ์–ด๋“ค์ด ์ฃผ์–ด์กŒ์„๋•Œ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•  ํ™•๋ฅ 

์ด๊ฒƒ ๋•Œ๋ฌธ์— ์–ธ์–ด ๋ชจ๋ธ์„ ์ด์ „ ๋‹จ์–ด๋“ค์ด ์ฃผ์–ด์กŒ์„๋•Œ ๋‹ค์Œ ๋‚œ์–ด๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์„ ๋ถ€์—ฌํ•˜๋Š” ๋ชจ๋ธ


์ˆœ๋ฐฉํ–ฅ ์–ธ์–ด๋ชจ๋ธ

์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์˜ ์ •์˜์— ๋”ฐ๋ผ ์ˆ˜์‹1์˜ ์กฐ๊ฑด๋ถ€์ˆ˜์‹์˜ ์ขŒ๋ณ€๊ณผ ์šฐ๋ณ€์ด ๊ฐ™๋‹ค๋Š” ์‚ฌ์‹ค์„ ์•Œ๊ณ  ์žˆ์œผ๋ฏ€๋กœ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ณ„์‚ฐ ๋กœ์ง์„ ์ด์ „ ๋‹จ์–ด๋“ค(context)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ๋งž์ถ”๋Š”๊ฒƒ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

 

๐Ÿ’ก Example: ์–ด์ œ ์นดํŽ˜ ๊ฐ”์—ˆ์–ด ๊ฑฐ๊ธฐ ์‚ฌ๋žŒ ๋งŽ๋”๋ผ

  • ํšŒ์ƒ‰ ๋‹จ์–ด๋Š” ์ปจํ…์ŠคํŠธ, ๋ถ‰์€์ƒ‰ ๋‹จ์–ด๋Š” ๋งžํ˜€์•ผํ•  ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜๋ฏธ
  • ์ด์ฒ˜๋Ÿผ ๋ฌธ์žฅ ์•ž๋ถ€ํ„ฐ ๋’ค๋กœ, ์‚ฌ๋žŒ์ด ์ดํ•ดํ•˜๋Š” ์ˆœ์„œ๋Œ€๋กœ ๊ณ„์‚ฐํ•˜๋Š” ๋ชจ๋ธ์„ ์ˆœ๋ฐฉํ–ฅ(forward) ์–ธ์–ด๋ชจ๋ธ → GPT, ELMo๊ฐ€ ๋Œ€ํ‘œ์ ์ด๋‹ค.

์—ญ๋ฐฉํ–ฅ ์–ธ์–ด๋ชจ๋ธ

  • ์—ญ๋ฐฉํ–ฅ ์–ธ์–ด๋ชจ๋ธ์€ ๋ฐฉํ–ฅ๋งŒ ๋ด๋€œ, ๋‹ค์Œ ๋‹จ์–ด ๋งž์ถ”๊ธฐ ๊ณผ์ •์—์„œ ์ „์ฒด ๋‹จ์–ด ์‹œํ€€์Šค๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ELMo ๊ฐ™์€ ๋ชจ๋ธ์ด ์ด๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ํ”„๋ฆฌํŠธ๋ ˆ์ธ์„ ์ˆ˜ํ–‰
๐Ÿ’ก ELMo(Embeddings from Language Models)→ ์ˆœ๋ฐฉํ–ฅ๊ณผ ์—ญ๋ฐฉํ–ฅ ์–ธ์–ด ๋ชจ๋ธ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•

 


๋„“์€ ์˜๋ฏธ์˜ ์–ธ์–ด๋ชจ๋ธ

์ตœ๊ทผ์—๋Š” ์–ธ์–ด๋ชจ๋ธ์€ ์ด๋Ÿฐ ์ˆ˜์‹์œผ๋กœ ์ •์˜ ํ•˜๊ธฐ๋„ ํ•œ๋‹ค. → P(w | context)

  • context → ์ฃผ๋ณ€ ๋งฅ๋žต ์ •๋ณด๊ฐ€ ์ „์ œ๋œ ์ƒํƒœ์—์„œ ํŠน์ • ๋‹จ์–ด(w)๊ฐ€ ๋‚˜ํƒ€๋‚  ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ์˜๋ฏธ
  • ์ด๋ ‡๊ฒŒ ์ •์˜๋œ ์–ธ์–ด๋ชจ๋ธ์€ ๋‹จ์–ด or ๋‹จ์–ด ์‹œํ€€์Šค๋กœ ์ •์˜๋œ context๋ฅผ input → ํŠน์ • ๋‹จ์–ด ๋‚˜ํƒ€๋‚  ํ™•๋ฅ  ์ถœ๋ ฅ

Mask ์–ธ์–ด๋ชจ๋ธ

๐Ÿ’ก ํ•™์Šต ๋ฌธ์žฅ์— ๋นˆ์นธ์„ ๋งŒ๋“ค์–ด ๋†“๊ณ , ํ•ด๋‹น ๋นˆ์นธ์— ์˜ฌ ๋‹จ์–ด๋กœ ์ ์ ˆํ•œ ๋‹จ์–ด๊ฐ€ ๋ฌด์—‡์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ ํ•™์Šต → ๋Œ€ํ‘œ์ ์œผ๋กœ BERT

 

  • ํšŒ์ƒ‰์€ context → [MASK] ์นดํŽ˜ ๊ฐ”์—ˆ์–ด ๊ฑฐ๊ธฐ ์‚ฌ๋žŒ ๋งŽ๋”๋ผ
  • ๋นจ๊ฐ„์ƒ‰์ด Target → ๋งžํž ๋Œ€์ƒ
๐Ÿ’ก ๋งžํž ๋‹จ์–ด ์ด์ „ ๋‹จ์–ด๋“ค๋งŒ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ์ˆœ๋ฐฉํ–ฅ/์—ญ๋ฐฉํ–ฅ ์–ธ์–ด๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ์€ ๋งžํž ๋‹จ์–ด๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ๋ฌธ์žฅ ์ „์ฒด์˜ ๋งฅ๋ฝ์„ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Œ
  • ๋งˆ์Šคํฌ ์–ธ์–ด๋ชจ๋ธ์— ์–‘๋ฐฉํ–ฅ(bidirectional) ์„ฑ์งˆ = ๋งžํž ๋‹จ์–ด ์•ž๋’ค๋ฅผ ๋ชจ๋‘ ๋ณธ๋‹ค๋Š” ๋œป

Skip-Gram ๋ชจ๋ธ

๐Ÿ’ก ์–ด๋–ค ๋‹จ์–ด ์•ž๋’ค์— ํŠน์ • ๋ฒ”์œ„๋ฅผ ์ •ํ•ด ๋‘๊ณ  ์ด ๋ฒ”์œ„ ๋‚ด์— ์–ด๋–ค ๋‹จ์–ด๋“ค์ด ์˜ฌ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ •์—์„œ ํ•™์Šต

  • Skip-Gram Model์€ ๊ฐ”์—ˆ์–ด ์ฃผ๋ณ€์— ์–ด์ œ, ์นดํŽ˜, ๊ฑฐ๊ธฐ, ์‚ฌ๋žŒ์ด ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์„ ๊ฐ๊ฐ ๋†’์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต
  • ๊ฑฐ๊ธฐ ์ฃผ๋ณ€์— ์นดํŽ˜, ๊ฐ”์—ˆ์–ด, ์‚ฌ๋žŒ, ๋งŽ๋”๋ผ๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์„ ๊ฐ๊ฐ ๋†’์ž„.
  • ์ฆ‰ ์Šคํ‚ต-๊ทธ๋žจ ๋ชจ๋ธ์€ context๋กœ ์„ค์ •ํ•œ ๋‹จ์–ด ์ฃผ๋ณ€์— ์–ด๋–ค ๋‹จ์–ด๋“ค์ด ๋ถ„ํฌํ•ด ์žˆ๋Š”์ง€๋ฅผ ํ•™์Šต ํ•˜๋Š” ๋ฐฉ์‹
Word2Vec์ด skip-gram ๋ชจ๋ธ ๋ฐฉ์‹