๋ฐ์ํ
Word Tokenization - Morphemes
Word-based tokenization - ์ฌ๋์ด ์ฐ๋ ๋จ์ด์ ์๋ฏธ
- ํฐ ์ฌ์ ์ด ์์ด์ผ ํ๋ค. ์ฌ์ ์ ์๋ ๋จ์ด๊ฐ ์์ผ๋ฉด ์ฒ๋ฆฌ ๋ถ๊ฐ → ํด๊ฒฐํ๋ ค๋ฉด ์ฌ์ ์ด ์์ฒญ ์ปค์ผํด!
- ๋ณด์ด์ง ์๋ ๋จ์ด๋ ํฌ๊ทํ ๋จ์ด๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์์
- ํด๊ฒฐ์ฑ → subword tokenization
Subword tokenization
- ๋ณดํต ๋ง๋ญ์น ์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ์งํฉ, ๋น๋๊ฐ ๋ฎ์ ๋จ์ด๋ ์ดํ๊ฐ ๋ถ์กฑํ ์๋
- ๋จ์ด๋ณด๋ค ๋ ์ชผ๊ฐ. ๊ทธ๋ ๋ค๊ณ ๋จ์ด or ๊ธ์๋ ์๋ , ๊ทธ ์ค๊ฐ์์ ์๋ฅธ๋ค.
- ๋น๋๊ฐ ๋ฎ์๊ฑด ์ต๋ํ ์๋ฅด๊ณ ์ถ์ ์๊ตฌ์ ์ํ์ฌ ๋ง๋ค์ด์ง
- ๋ณธ์ ์๋ ๋จ์ด, ํํ์ง ์์ ๋จ์ด
- ๊ธฐ์กด์ NLP๋ ๊ณ ์ ๋ ์ดํ๋ก ์๋ → ๊ทธ ๋ฐ์ ์๋ ๋ชจ๋ ํ ํฐ์ UNK(์์์์)์ผ๋ก ์ถ์
Example)
strawberryies
- OOV in sentence: The basket was filled with strawberrie
- The / Basket / was / filled / with / UNK (strawberries ์๋ฆฌ)
Example)
"subword" -> "sub" & "word" (๊ฐ๊ฐ vector ์ฌ์ฉ)
Character-based tokenization - ๊ธ์ง, ๊ทน๋จ์ ๋ฐฉ๋ฒ (๋ชจ๋ ๊ธ์ ๋ค ์ชผ๊ฐฌ)
- ํ ํฐํ ๋ฅผ ์์ ํ ํฌ๊ธฐํ๊ณ , ๋ชจ๋ ๊ฒ์ ๊ฐ๋ณ ๋ฌธ์๋ก ๋๋๊ธฐ
- in English: ๋ชจ๋ ๋๋ฌธ์, ์๋ฌธ์, ์ซ์์ ์ผ๋ถ ๊ตฌ๋์ ๋
Example)
T / h / e / _ / b / a / s / k / e / t / _ / w / a / s / ...
- dictionary ๊ฑฐ์ด ํ์ ์์ → ์คํ๋ ค ๋จ์ ๋ค์ด ๋ง๋ค์ด๋(์ธ์ด์ ๊ด์ )
- ๊ฐ๋ณ ๋ฌธ์๋ก ๋ถํ ์, sequence๊ฐ ๊ธธ์ด์ง๊ณ , ๊ณ์ฐ ์๊ฐ ์ฆ๊ฐ
- ์ค๊ตญ์ด๋ ๊ด์ฐฎ์ ์๋(๊ฐ๋ณ ๋ฌธ์์ ์๋ฏธ ์ ๋ฌ) , ์์ด & ํ๊ตญ์ด๋ ํ๋ค์ด. ๋ณ๋ก ์์ข์
- ์ฐ๊ฒฐ๋ ์ธ์ด(๋ณตํฉ์ด)๋ฅผ ๋ฌธ์๋ก ์ฒ๋ฆฌ ํ ์ ์๋ค.
Example)
- ๋ฌด์๋ฏธํ ๊ฐ๋ณ ํ ํฐ “d” and “o” -> “dog” & “dollar”
subword tokenization(ํ ํฐํ)๋ฅผ ์ํ ๊ณตํต ์๊ณ ๋ฆฌ์ฆ
- Byte-Pair Encoding (BPE)
- Unigram Language Modeling Tokenization
- WordPiece Model
- SentencePiece Model
- ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- raw training corpus๋ฅผ ์๊ฐํ๊ณ ์ดํ(ํ ํฐ ์ธํธ)๋ฅผ ์ ๋ํ๋ ํ ํฐ ํ์ต์
- raw test sentence๋ฅผ ๊ฐ์ ธ์์ ํด๋น ์ดํ์ ๋ฐ๋ผ ํ ํฐํํ๋ ํ ํฐ ์ธ๊ทธ๋จผํธํ ํ๋ก๊ทธ๋จ
๋ฐ์ํ
'๐ NLP (์์ฐ์ด์ฒ๋ฆฌ) > ๐จ๏ธ Linguistic Engineering' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Words] ํ๊ตญ์ด ํํ์ & Other Morphological Processes (0) | 2024.01.16 |
---|---|
[Semantics & Pragmatics] Thematic Roles - ์๋ฏธ์ญ (0) | 2024.01.16 |
[Semantics & Pragmatics] Lexical Semantics - ์ดํ ์๋ฏธ๋ก (0) | 2024.01.16 |
[Semantics & Pragmatics] The meaning of language - ์๋ฏธ๋ก , ์ด์ฉ๋ก (0) | 2024.01.16 |
[Syntax] Syntactic analysis in NLP - NLP์์ ๊ตฌ๋ฌธ๋ถ์ (0) | 2023.07.26 |