My Dev & Engineering Repository

Character-based tokenization

[Words] Word Tokenization - Morphemes (형태소)

2024. 1. 16.

[Words] Word Tokenization - Morphemes (형태소)

2024. 1. 16.

[Words] Word Tokenization - Morphemes (형태소)

Word Tokenization - Morphemes Word-based tokenization - 사람이 쓰는 단어의 의미 큰 사전이 있어야 한다. 사전에 없는 단어가 있으면 처리 불가 → 해결하려면 사전이 엄청 커야해! 보이지 않는 단어나 희귀한 단어를 잘 처리할 수 없음 해결책 → subword tokenization Subword tokenization 보통 말뭉치 에 자주 등장하는 단어들의 집합, 빈도가 낮은 단어는 어휘가 부족할 수도 단어보다 더 쪼개. 그렇다고 단어 or 글자도 아님 , 그 중간에서 자른다. 빈도가 낮은건 최대한 자르고 싶은 욕구에 의하여 만들어짐 본적 없는 단어, 흔하지 않은 단어 기존의 NLP는 고정된 어휘로 작동 → 그 밖에 있는 모든 토큰은 UNK(알수없음)으로 축소 ..

[Words] Word Tokenization - Morphemes (형태소)

2024. 1. 16.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Notice

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

SUBSCRIBE

Notice

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

[Words] Word Tokenization - Morphemes (형태소)

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역