A A
[NLP] ํ•ฉ์„ฑ๊ณฑ, ์ˆœํ™˜์‹ ๊ฒฝ๋ง, Encoder, Decoder์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” Self-Attention
์ „์— ์ผ๋˜ ๋‚ด์šฉ์— ์ด์–ด์„œ ์จ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง (CNN Model)๊ณผ ๋น„๊ตํ•œ Self-Attention

CNN์€ *Convolution filter(ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ)๋ผ๋Š” ํŠน์ˆ˜ํ•œ ์žฅ์น˜๋ฅผ ์ด์šฉํ•ด์„œ Sequence์˜ ์ง€์—ญ์ ์ธ ํŠน์ง•์„ ์žก์•„๋‚ด๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ์—ฌ๊ธฐ์„œ Convolution filter(ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ)๋Š” ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง์„ ๊ตฌ์„ฑํ•˜๋Š” ํ•˜๋‚˜์˜ ์š”์†Œ-ํ•„ํ„ฐ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ „์ฒด์ ์œผ๋กœ ํ›‘์œผ๋ฉด์„œ ์ธ์ ‘ํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ์ž์—ฐ์–ด๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ Sequence(๋‹จ์–ด ํ˜น์€ ํ˜•ํƒœ์†Œ์˜ ๋‚˜์—ด)์ด๊ณ  ํŠน์ • ๋‹จ์–ด ๊ธฐ์ค€ ์ฃผ๋ณ€ ๋ฌธ๋งฅ์ด ์˜๋ฏธ ํ˜•์„ฑ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ์œผ๋ฏ€๋กœ, CNN์ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์— ๋„๋ฆฌ ์“ฐ์ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

CNN ๋ฌธ์žฅ์˜ Encoding ๋ฐฉํž‰

  • ์œ„์˜ ๊ทธ๋ฆผ์€ CNN ๋ฌธ์žฅ์˜ Encoding ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. Convolution filter(ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ)๊ฐ€ ๋‹จ์–ด๋ฅผ ํ•˜๋‚˜์”ฉ ๋„ˆ๊ธฐ๋ฉด์„œ ์ฐจ๋ก€๋Œ€๋กœ ์ฝ์–ด ๋“ค์ด๋Š”๊ฑธ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ทธ๋Ÿฐ๋ฐ, CNN์€ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ ํฌ๊ธฐ๋ฅผ ๋„˜์–ด๊ฐ€๋Š” ๋ฌธ๋งฅ์€ ์ฝ์–ด๋‚ด๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด์„œ ํ•„ํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ 3์ด๋ฉด 4์นธ ์ด์ƒ ๋–จ์–ด์ € ์žˆ๋Š” ๋‹จ์–ด ์‚ฌ์ด์˜ ์˜๋ฏธ๋Š” ์บ์น˜ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

์ˆœํ™˜์‹ ๊ฒฝ๋ง (RNN)๊ณผ ๋น„๊ตํ•œ Self-Attention

์ˆœํ™˜์‹ ๊ฒฝ๋ง (RNN)์€ Sequence(์‹œํ€€์Šค)์ •๋ณด๋ฅผ ์••์ถ•ํ•˜๋Š”๋ฐ ๊ฐ•์ ์ด ์žˆ๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.
  • ์˜ˆ๋ฅผ ๋“ค์–ด์„œ Source ์–ธ์–ด Sequence์ธ '์–ด์ œ, ์นดํŽ˜, ๊ฐ”์—ˆ์–ด, ๊ฑฐ๊ธฐ, ์‚ฌ๋žŒ, ๋งŽ๋”๋ผ' ๋ฅผ Encodingํ•ด์•ผ ํ•œ๋‹ค๋ฉด ๊ฐ€์ •ํ•ด๋ฉด?
  • RNN์€ ์ˆœ์„œ๋Œ€๋กœ Source Sequence๋ฅผ ์ฐจ๋ก€๋Œ€๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  • ๊ทธ๋Ÿฌ๋‚˜ RNN์€ Sequence์˜ ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ์ •๋ณด๋ฅผ ์••์ถ•ํ•˜๋Š”๋ฐ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.
  • ์ด์œ ๋Š” RNN์˜ ํŠน์„ฑ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. RNN์€ ์ž…๋ ฅ ์ •๋ณด๋ฅผ ์ฐจ๋ก€๋Œ€๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์˜ค๋ž˜์ „์— ์ฝ์—ˆ๋˜ ๋‹จ์–ด๋Š” ์žŠ์–ด๋ฒ„๋ฆฌ๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • ์ •๋ฆฌํ•˜๋ฉด, RNN์€ ์˜ค๋ž˜์ „์— ์ž…๋ ฅ๋œ ๋‹จ์–ด๋Š” ์žŠ์–ด๋ฒ„๋ฆฌ๊ฑฐ๋‚˜, ํŠน์ • ๋‹จ์–ด ์ •๋ณด๋ฅผ ๊ณผ๋„ํ•˜๊ฒŒ ๋ฐ˜์˜ํ•ด ์ „์ฒด ์ •๋ณด๋ฅผ ์™œ๊ณกํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ž์ฃผ ์ƒ๊น๋‹ˆ๋‹ค.

Encoder์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” Self-Attention

  • Encoder Block์˜ ์ž…๋ ฅ์€ ์ด์ „ ๋ธ”๋ก์˜ ๋‹จ์–ด Vector Sequence, ์ถœ๋ ฅ์€ ์ด๋ฒˆ ๋ธ”๋ก ์ˆ˜ํ–‰ ๊ฒฐ๊ณผ๋กœ ๋„์ถœ๋œ ๋‹จ์–ด Vector Sequence ์ž…๋‹ˆ๋‹ค.
  • ์˜ˆ๋ฅผ ๋“ค์–ด์„œ ์ฟผ๋ฆฌ๊ฐ€ '์–ด์ œ' ์ธ๊ฒฝ์šฐ, '์นดํŽ˜' ์ธ๊ฒฝ์šฐ์˜ Softmax ํ™•๋ฅ ๊ฐ’ ๋“ค์„ ๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ด์—ˆ์Šต๋‹ˆ๋‹ค.


Decoder์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” Self-Attention

  • Decoder์—์„œ์˜ Self-Attention์— ๋ฐํ•˜์—ฌ ์•Œ์•„๋ณด๊ธฐ ์ „์— Mask Multi-Head Attention์— ๋ฐํ•˜์—ฌ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
  • Mask Multi-Head Attention์€ Transformer ๋ชจ๋ธ์˜ Decoder ๋ถ€๋ถ„์—์„œ ์‚ฌ์šฉ๋˜๋ฉฐ, Sequence๋ฅผ ์ƒ์„ฑํ•  ๋•Œ, ๊ฐ ์‹œ์ ์—์„œ๋งŒ ๊ณผ๊ฑฐ์˜ ์ •๋ณด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋Š” ๋ฏธ๋ž˜์˜ ์ •๋ณด๋ฅผ ์ฐธ์กฐ ํ•˜์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ํ•œ๋ฒˆ ์˜ˆ๋ฅผ ๋“ค์–ด์„œ ์„ค๋ช…ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ์œ„์˜ ์™ผ์ชฝ ๊ทธ๋ฆผ์€ Target ์–ธ์–ด์˜ ๋‹จ์–ด Vector Sequence๋ฅผ ๊ณ„์‚ฐํ•œ ๋Œ€์ƒ์ž…๋‹ˆ๋‹ค.
  • ๊ทผ๋ฐ ์—ฌ๊ธฐ์„œ๋Š” Input Sequence๊ฐ€ ์˜์–ด๋กœ ๋ด๋€Œ์—ˆ์„๋ฟ, Decoder์ชฝ Self-Attention๊ณผ ํฌ๊ฒŒ ๋‹ค๋ฅธ์ ์€ ์—†์Šต๋‹ˆ๋‹ค.
  • ์œ„์˜ ์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์€ Query(์ฟผ๋ฆฌ)๊ฐ€ cafe์ธ ๊ฒฝ์šฐ Mask Multi-Head Attention์„ ๋‚˜ํƒ€๋‚ธ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์—ฌ๊ธฐ์„œ์˜ Multi-Head Attention์€ Encoder, Decoder ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • Encoder์—์„œ์˜ ๋„˜์–ด์˜จ ์ •๋ณด๋Š” Source ์–ธ์–ด์˜ ๋ฌธ์žฅ("์–ด์ œ ์นดํŽ˜ ๊ฐ”์—ˆ์–ด ๊ฑฐ๊ธฐ ์‚ฌ๋žŒ ๋งŽ๋”๋ผ")์˜ ๋‹จ์–ด Vector Sequence ์ž…๋‹ˆ๋‹ค.
  • Decoder์˜ ์ •๋ณด๋Š” Target ์–ธ์–ด์˜ ๋ฌธ์žฅ ("<s> I went to the cafe yesterday There ...")์˜ ๋‹จ์–ด Vector Sequence ์ž…๋‹ˆ๋‹ค.
  • ์—ฌ๊ธฐ์„œ ์ „์ž๋ฅผ Key(Encoder ์ •๋ณด), ํ›„์ž๋ฅผ Query(Decoder ์ •๋ณด)๋กœ ์‚ผ์•„์„œ Self-Attention ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

  • ์œ„์˜ ์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์€ ์ฟผ๋ฆฌ ๋‹จ์–ด๊ฐ€ cafe์ธ  Multi-Head Attention ๊ณ„์‚ฐ์„ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ๋งŒ์•ฝ ํ•™์Šต์ด ์ž˜ ๋˜์—ˆ๋‹ค๋ฉด, ์ฟผ๋ฆฌ(ํƒ€๊นƒ ์–ธ์–ด ๋ฌธ์žฅ), ํ‚ค(์†Œ์Šค ์–ธ์–ด ๋ฌธ์žฅ)๋กœ๋ถ€ํ„ฐ ๊ณ„์‚ฐํ•œ ์†Œํ”„ํŠธ๋งฅ์Šค ํ™•๋ฅ  ๊ฐ€์šด๋ฐ, ์ฟผ๋ฆฌ์— ๋Œ€์‘ํ•˜๋Š” ํ•ด๋‹น ์žฅ์†Œ๋ฅผ ์ง€์นญํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ๋†’์€ ๊ฐ’์„ ์ง€๋‹๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • Softmax ํ™•๋ฅ ๊ฐ’๋“ค๊ณผ Value ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ค‘ํ•ฉํ•ด์„œ ์…€ํ”„ ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ๋งˆ์นฉ๋‹ˆ๋‹ค.
์—ฌ๊ธฐ์„œ ๋ณด๋ฉด ํ•™์Šต(Training)๊ณผ์ •์—์„œ ์•ฝ๊ฐ„์˜ Trick์„ ์ผ์Šต๋‹ˆ๋‹ค.
๋‹ค์Œ๊ธ€์—์„œ ์ž์„ธํžˆ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์— ๋ฐํ•˜์—ฌ ๊ธ€์„ ์“ฐ๊ฒ ์ง€๋งŒ,
ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ์ตœ์ข… ์ถœ๋ ฅ์€ ํƒ€๊ฒŸ ์‹œํ€€์Šค ๊ฐ๊ฐ์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ, ๋ฌธ์žฅ์˜ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ์–ด๋–ค ๊ฒƒ์ด ์ ์ ˆํ• ์ง€์— ๊ด€ํ•œ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

  • ์ธ์ฝ”๋”์— ์–ด์ œ ์นดํŽ˜ ๊ฐ”์—ˆ์–ด ๊ฑฐ๊ธฐ ์‚ฌ๋žŒ ๋งŽ๋”๋ผ๊ฐ€, ๋””์ฝ”๋”์— <s>๊ฐ€ ์ž…๋ ฅ๋œ ์ƒํ™ฉ์ด๋ฉด, ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ๋‹ค์Œ ์˜์–ด ๋‹จ์–ด I๋ฅผ ๋งž์ถ”๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. → ๊ทผ๋ฐ ๋ชจ๋ธ์ด ๋งž์ถฐ์•ผ ํ•˜๋Š” ์ •๋‹ต์ธ I๋ฅผ ์•Œ๋ ค์ฃผ๋ฉด ํ•™์Šต ํ•˜๋Š” ์˜๋ฏธ๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.
  • ๊ทธ๋ž˜์„œ, ์ •๋‹ต์„ ํฌํ•จํ•œ ๋ฏธ๋ž˜ ์ •๋ณด๋ฅผ ์…€ํ”„ ์–ดํ…์…˜ ๊ณ„์‚ฐ์—์„œ ์ œ์™ธํ•ฉ๋‹ˆ๋‹ค. → ๊ทธ๋ž˜์„œ ๋””์ฝ”๋” ๋ธ”๋ก์˜ ์ฒซ๋ฒˆ์งธ Attention์„ ๋งˆ์Šคํฌ ๋ฉ€ํ‹ฐ-ํ—ค๋“œ ์–ดํ…์…˜(Masked Multi-Head Attention)์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.
  • Masking์€ ํ™•๋ฅ ์ด 0์ด ๋˜๋„๋ก ํ•˜์—ฌ, ๋ฐธ๋ฅ˜์™€์˜ ๊ฐ€์ค‘ํ•ฉ์—์„œ ํ•ด๋‹น ๋‹จ์–ด ์ •๋ณด๋“ค์ด ๋ฌด์‹œ๋˜๊ฒŒ๋” ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.

 

  • ๋””์ฝ”๋” ๋งˆ์ง€๋ง‰ ๋ธ”๋ก์˜ I ๋ฒกํ„ฐ์—๋Š” ์†Œ์Šค ๋ฌธ์žฅ(์–ด์ œ … ๊ฐ”๋”๋ผ)๊ณผ <s> I ์‚ฌ์ด์˜ ๋ฌธ๋งฅ์  ๊ด€๊ณ„์„ฑ์ด ๋…น์•„ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ์ด I ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  went๋ฅผ ๋งžํžˆ๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. → ์ •๋‹ต went์— ๊ด€ํ•œ ํ™•๋ฅ ์€ ๋†’์ด๊ณ  ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ ์€ ๋‚ฎ์•„์ง€๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

went์— ๊ด€ํ•œ ํ™•๋ฅ ์€ ๋†’์ด๊ณ  ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ ์€ ๋‚ฎ์•„์ง€๋Š”๊ฑธ ํ‘œํ˜„ํ•œ ๊ทธ๋ฆผ

  • ์•„๋ž˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด, Encoder์— ์–ด์ œ ์นดํŽ˜ ๊ฐ”์—ˆ์–ด ๊ฑฐ๊ธฐ ์‚ฌ๋žŒ ๋งŽ๋”๋ผ๊ฐ€, ๋””์ฝ”๋”์— <s> I went๊ฐ€ ์ž…๋ ฅ๋œ ์ƒํ™ฉ์ž…๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ ์ด๋•Œ์˜ Masked Multi-Head Attention ์€ ์ •๋‹ต ๋‹จ์–ด to ์ดํ›„์˜ ๋ชจ๋“  ํƒ€๊นƒ ์–ธ์–ด ๋‹จ์–ด๋“ค์„ ๋ชจ๋ธ์ด ๋ณด์ง€ ๋ชปํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  • ๋””์ฝ”๋” ๋งˆ์ง€๋ง‰ ๋ธ”๋ก์˜ went ๋ฒกํ„ฐ์—๋Š” ์†Œ์Šค ๋ฌธ์žฅ๊ณผ <s> I went ์‚ฌ์ด์˜ ๋ฌธ๋งฅ์  ๊ด€๊ณ„์„ฑ์ด ๋…น์•„์žˆ์Šต๋‹ˆ๋‹ค.
  • ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ์ด went์— ํ•ด๋‹นํ•˜๋Š” ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  to๋ฅผ ๋งž์ถ”๋„๋ก ํ•™์Šต → ๋‹ค์‹œ ๋งํ•ด ์ •๋‹ต to์— ๊ด€ํ•œ ํ™•๋ฅ ์€ ๋†’์ด๊ณ  ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ ์€ ๋‚ฎ์•„์ง€๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.


ํ•™์Šต์ด ๋งˆ์นœ ๋ชจ๋ธ์ด ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณผ์ •

  1. ์†Œ์Šค ์–ธ์–ด(ํ•œ๊ตญ์–ด) ๋ฌธ์žฅ์„ ์ธ์ฝ”๋”์— ์ž…๋ ฅํ•ด ์ธ์ฝ”๋” ๋งˆ์ง€๋ง‰ ๋ธ”๋ก์˜ ๋‹จ์–ด ๋ฒกํ„ฐ ์‹œํ€€์Šค๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.
  2. ์ธ์ฝ”๋”์—์„œ ๋„˜์–ด์˜จ ์†Œ์Šค ์–ธ์–ด ๋ฌธ์žฅ ์ •๋ณด์™€ ๋””์ฝ”๋”์— ํƒ€๊นƒ ๋ฌธ์žฅ ์‹œ์ž‘์„ ์•Œ๋ฆฌ๋Š” ์ŠคํŽ˜์…œ ํ† ํฐ <s>๋ฅผ ๋„ฃ์–ด์„œ, ํƒ€๊นƒ ์–ธ์–ด(์˜์–ด)์˜ ์ฒซ ๋ฒˆ์งธ ํ† ํฐ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. ์ธ์ฝ”๋” ์ชฝ์—์„œ ๋„˜์–ด์˜จ ์†Œ์Šค ์–ธ์–ด ๋ฌธ์žฅ ์ •๋ณด์™€ ์ด์ „์— ์ƒ์„ฑ๋œ ํƒ€๊นƒ ์–ธ์–ด ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ๋””์ฝ”๋”์— ๋„ฃ์–ด์„œ ๋งŒ๋“  ์ •๋ณด๋กœ ํƒ€๊นƒ ์–ธ์–ด์˜ ๋‹ค์Œ ํ† ํฐ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  4. ์ƒ์„ฑ๋œ ๋ฌธ์žฅ ๊ธธ์ด๊ฐ€ ์ถฉ๋ถ„ํ•˜๊ฑฐ๋‚˜ ๋ฌธ์žฅ ๋์„ ์•Œ๋ฆฌ๋Š” ์ŠคํŽ˜์…œ ํ† ํฐ </s>๊ฐ€ ๋‚˜์˜ฌ ๋•Œ๊นŒ์ง€ 3์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.
  • ํ•œํŽธ </s>๋Š” ๋ณดํ†ต ํƒ€๊นƒ ์–ธ์–ด ๋ฌธ์žฅ ๋งจ ๋งˆ์ง€๋ง‰์— ๋ถ™์—ฌ์„œ ํ•™์Šต. ์ด ํ† ํฐ์ด ๋‚˜ํƒ€๋‚ฌ๋‹ค๋Š” ๊ฒƒ์€ ๋ชจ๋ธ์ด ํƒ€๊นƒ ๋ฌธ์žฅ ์ƒ์„ฑ์„ ๋งˆ์ณค๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

 

๋‹ค์Œ๊ธ€์€ Transformer ๋ชจ๋ธ์— ๊ด€ํ•œ ๊ธ€์„ ๋“ค๊ณ  ์˜ค๊ฒ ์Šต๋‹ˆ๋‹ค^^