๐Ÿ“ NLP (์ž์—ฐ์–ด์ฒ˜๋ฆฌ)/๐Ÿ“• Natural Language Processing

๐Ÿ“ NLP (์ž์—ฐ์–ด์ฒ˜๋ฆฌ)/๐Ÿ“• Natural Language Processing

[NLP] Tokenization - ํ† ํฐํ™”๋ž€?

Tokenization - ํ† ํฐํ™” 1. ํ† ํฐํ™”๋ž€? ๐Ÿ’ก ๋ฌธ์žฅ์„ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋‚˜๋ˆ„๋Š” ๊ณผ์ • → ๋ฌธ์ž, ๋‹จ์–ด, ์„œ๋ธŒ์›Œ๋“œ๋“ฑ 3๊ฐ€์ง€ ๋ฐฉ๋ฒ• ํ† ๊ทผํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ํ”„๋กœ๊ทธ๋žจ์„(Tokenizer)๋ผ๊ณ  ํ•œ๋‹ค. ํ† ๊ทผํ™” ๋ฐฉ์‹์—๋Š” ์—ฌ๋Ÿฌ๊ฐ€์ง€๊ฐ€ ์žˆ์Œ → ๋‹จ์–ด(์–ด์ ˆ), ๋ฌธ์ž, ์„œ๋ธŒ์›Œ๋“œ(Subword) ๋‹จ์œ„ ๋‹จ์–ด ๋‹จ์œ„ ํ† ํฐํ™” ๊ณต๋ฐฑ์œผ๋กœ ๋ถ„๋ฆฌ ์žฅ์ : Tokenizer๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์–ดํœ˜ ์ง‘ํ•ฉ์ด ์ปค์ง€๋Š”๊ฑฐ ์™„ํ™” ๐Ÿ’ก Example ์€์ „ํ•œ๋‹ข์œผ๋กœ ํ† ํฐํ™” → ๊ทธ๋ ‡๋‹ค๊ณ  ์€์ „ํ•œ๋‹ข ๊ฐ™์€ Tokenizer ์‚ฌ์šฉํ•ด์š” ์–ดํœ˜์ง‘ํ•ฉ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋Š”๊ฑด ๋ง‰๊ธฐ ์–ด๋ ค์›€ (์–ดํœ˜ ์ง‘ํ•ฉ ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก..) ๋ฌธ์ž ๋‹จ์œ„ ํ† ๊ทผํ™” ๐Ÿ’ก ๋ฌธ์ž ๋‹จ์œ„ → ๋ชจ๋“  ๋ฌธ์ž๋ฅผ ์–ดํœ˜ ์ง‘ํ•ฉ์— ํฌํ•จํ•จ์œผ๋กœ ๋ฏธ๋“ฑ๋ก ํ† ํฐ ๋ฌธ์ž๋กœ๋ถ€ํ„ฐ ์ž์œ ๋กญ๋‹ค. ๋ฏธ๋“ฑ๋ก ํ† ํฐ: ์–ดํœ˜ ์ง‘ํ•ฉ์— ์—†๋Š” ํ† ํฐ - ์‹ ์กฐ์–ด๋“ฑ ์—์„œ ๋ฐœ์ƒ ๋‹จ์ : ๊ฐ ๋ฌธ..

๐Ÿ“ NLP (์ž์—ฐ์–ด์ฒ˜๋ฆฌ)/๐Ÿ“• Natural Language Processing

[NLP] ์ฒ˜์Œ ๋งŒ๋‚˜๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ & Transfer Learning

๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ ๐Ÿ’ก ๋ชจ๋ธ(Model): ์ž…๋ ฅ์„ ๋ฐ›์•„ ์–ด๋–ค ์ฒ˜๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ํ•จ์ˆ˜, ์ž์—ฐ์–ด์ฒ˜๋ฆฌ์—์„œ์˜ input์€ ์ž์—ฐ์–ด ๐Ÿ’ก ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์€ ํ™•๋ฅ ์ด๋ผ๋Š” ์ ์— ์ฃผ๋ชฉ์„ ํ•ด์•ผํ•œ๋‹ค. ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๋„ ํ™•๋ฅ  → ๊ทธ๋Ÿฌ๋‚˜, ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ํ˜•ํƒœ๋Š” ํ™•๋ฅ , ์‚ฌ๋žŒ์ด ์›ํ•˜๋Š”๊ฑด ์ž์—ฐ์–ด ํ˜•ํƒœ. ๊ทธ๋Ÿฌ๋ฉด ์ถœ๋ ฅ๋œ ํ™•๋ฅ ์„ ํ›„์ฒ˜๋ฆฌ ํ•ด์„œ ์ž์—ฐ์–ด ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜์„ ํ•ด์•ผํ•œ๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ๋Š” ๋ฐ์ดํ„ฐ์— ‘๊ฐ์„ฑ’ ์ด๋ผ๋Š” ๋ ˆ์ด๋ธ”์„ ๋‹ฌ์•„ ๋†“์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์–ด์•ผ ํ•œ๋‹ค. → ์ด๊ฑธ ํ•™์Šต ๋ฐ์ดํ„ฐ ๋ผ๊ณ  ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ์Šค์Šค๋กœ ์ตํžˆ๊ฒŒ ํ•˜๋Š” ๊ณผ์ • → ํ•™์Šต(train) Transfer Learning ๐Ÿ’ก ํŠธ๋žœ์Šคํผ ๋Ÿฌ๋‹: ํŠน์ • Task๋ฅผ ํ•™์Šตํ•œ ๋ชจ๋ธ์„ ๋‹ค๋ฅธ ํ…Œ์Šคํฌ ์ˆ˜ํ–‰์— ์žฌ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•์„ ๊ฐ€๋ฆฌํ‚ด ํŠธ๋žœ์Šคํผ ์ ์šฉ์‹œ ๊ธฐ์กด๋ณด๋‹ค ๋ชจ๋ธ์˜ ํ•™์Šต ์†..

Bigbread1129
'๐Ÿ“ NLP (์ž์—ฐ์–ด์ฒ˜๋ฆฌ)/๐Ÿ“• Natural Language Processing' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (3 Page)