๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
Tokenization - ํ ํฐํ 1. ํ ํฐํ๋? ๐ก ๋ฌธ์ฅ์ ํ ํฐ ์ํ์ค๋ก ๋๋๋ ๊ณผ์ → ๋ฌธ์, ๋จ์ด, ์๋ธ์๋๋ฑ 3๊ฐ์ง ๋ฐฉ๋ฒ ํ ๊ทผํ๋ฅผ ์ํํ๋ ํ๋ก๊ทธ๋จ์(Tokenizer)๋ผ๊ณ ํ๋ค. ํ ๊ทผํ ๋ฐฉ์์๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์์ → ๋จ์ด(์ด์ ), ๋ฌธ์, ์๋ธ์๋(Subword) ๋จ์ ๋จ์ด ๋จ์ ํ ํฐํ ๊ณต๋ฐฑ์ผ๋ก ๋ถ๋ฆฌ ์ฅ์ : Tokenizer๋ฅผ ์ฌ์ฉํ๋ฉด ์ดํ ์งํฉ์ด ์ปค์ง๋๊ฑฐ ์ํ ๐ก Example ์์ ํ๋ข์ผ๋ก ํ ํฐํ → ๊ทธ๋ ๋ค๊ณ ์์ ํ๋ข ๊ฐ์ Tokenizer ์ฌ์ฉํด์ ์ดํ์งํฉ ํฌ๊ธฐ๊ฐ ์ปค์ง๋๊ฑด ๋ง๊ธฐ ์ด๋ ค์ (์ดํ ์งํฉ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก..) ๋ฌธ์ ๋จ์ ํ ๊ทผํ ๐ก ๋ฌธ์ ๋จ์ → ๋ชจ๋ ๋ฌธ์๋ฅผ ์ดํ ์งํฉ์ ํฌํจํจ์ผ๋ก ๋ฏธ๋ฑ๋ก ํ ํฐ ๋ฌธ์๋ก๋ถํฐ ์์ ๋กญ๋ค. ๋ฏธ๋ฑ๋ก ํ ํฐ: ์ดํ ์งํฉ์ ์๋ ํ ํฐ - ์ ์กฐ์ด๋ฑ ์์ ๋ฐ์ ๋จ์ : ๊ฐ ๋ฌธ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ ๐ก ๋ชจ๋ธ(Model): ์
๋ ฅ์ ๋ฐ์ ์ด๋ค ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ ํจ์, ์์ฐ์ด์ฒ๋ฆฌ์์์ input์ ์์ฐ์ด ๐ก ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ๋ฅ ์ด๋ผ๋ ์ ์ ์ฃผ๋ชฉ์ ํด์ผํ๋ค. ์์ฐ์ด์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ถ๋ ฅ๋ ํ๋ฅ → ๊ทธ๋ฌ๋, ๋ชจ๋ธ์ ์ถ๋ ฅ ํํ๋ ํ๋ฅ , ์ฌ๋์ด ์ํ๋๊ฑด ์์ฐ์ด ํํ. ๊ทธ๋ฌ๋ฉด ์ถ๋ ฅ๋ ํ๋ฅ ์ ํ์ฒ๋ฆฌ ํด์ ์์ฐ์ด ํํ๋ก ๋ณํ์ ํด์ผํ๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ ๋ฐ์ดํฐ์ ‘๊ฐ์ฑ’ ์ด๋ผ๋ ๋ ์ด๋ธ์ ๋ฌ์ ๋์ ๋ฐ์ดํฐ๊ฐ ์์ด์ผ ํ๋ค. → ์ด๊ฑธ ํ์ต ๋ฐ์ดํฐ ๋ผ๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ํจํด์ ์ค์ค๋ก ์ตํ๊ฒ ํ๋ ๊ณผ์ → ํ์ต(train) Transfer Learning ๐ก ํธ๋์คํผ ๋ฌ๋: ํน์ Task๋ฅผ ํ์ตํ ๋ชจ๋ธ์ ๋ค๋ฅธ ํ
์คํฌ ์ํ์ ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ ๊ฐ๋ฆฌํด ํธ๋์คํผ ์ ์ฉ์ ๊ธฐ์กด๋ณด๋ค ๋ชจ๋ธ์ ํ์ต ์..