📝 NLP (자연어처리)/📕 Natural Language Processing
[NLP] Tokenization - 토큰화란?
Tokenization - 토큰화 1. 토큰화란? 💡 문장을 토큰 시퀀스로 나누는 과정 → 문자, 단어, 서브워드등 3가지 방법 토근화를 수행하는 프로그램을(Tokenizer)라고 한다. 토근화 방식에는 여러가지가 있음 → 단어(어절), 문자, 서브워드(Subword) 단위 단어 단위 토큰화 공백으로 분리 장점: Tokenizer를 사용하면 어휘 집합이 커지는거 완화 💡 Example 은전한닢으로 토큰화 → 그렇다고 은전한닢 같은 Tokenizer 사용해요 어휘집합 크기가 커지는건 막기 어려움 (어휘 집합 크기가 커질수록..) 문자 단위 토근화 💡 문자 단위 → 모든 문자를 어휘 집합에 포함함으로 미등록 토큰 문자로부터 자유롭다. 미등록 토큰: 어휘 집합에 없는 토큰 - 신조어등 에서 발생 단점: 각 문..