๋ฐ์ํ
The Words of Language
- ๋จ์ด๋ ์ธ์ด์ ์ง์์ ์ค์ํ ๋ถ๋ถ & ๋ฌธ๋ฒ์ ๊ตฌ์ฑ ์์๋ฅผ ๊ตฌ์ฑ
- ์ฐ๋ฆฌ๊ฐ ์๋ ๋ชจ๋ ๋จ์ด๋ mental dictionary๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
- Pronunciation (๋ฐ์)
- Meaning (์๋ฏธ)
- Orthography (Spelling) - ๋ง์ถค๋ฒ
- Grammatial Category (๋ฌธ๋ฒ ๋ฒ์ฃผ)
Morphology (ํํ์)
- ํํ์ ๋ผ๊ณ ํ๋ ์์ ๋จ์๋ก ๋ณธ๋ค.
- ์ ํํ ๋ฐ์ดํฐ์์ ๋ง๋ค์ด ๋ด์ง๋ง ์ ํํ ๊ท์น์ด ์๋ค.
example) ๋๋ ํ๊ต์ ๊ฐ๋ค, ํ๋์ ๋๋ ์
- ์ค์ ๋ก Morphological Persingํ๋ฉด
๋๊ฐ์ ๋๋ ์ด์ง๋ง ๋ → ๋๋ช ์ฌ, ์กฐ์ฌ ์๊ฐ๋ง ๋๋ค.
Normalization (ํ์คํ)
๋ฌธ์ฅ์ ๋๋๋ ค๋ฉด ๋ฌธ์ฅ๋ถํธ ๊ฐ ์์ด์ผ ํ๋ค, ๋ถํธ ์์ด๋ ๋๋ ์ผ ํ์ง๋ง ๊ฐ๋ฅ์ ํ๋ค.
- ํ๊ตญ์ด๋ ๋ฌธ์ฅ๋ถํธ ์ ์ฉ๋๊ฐ ๊ฑฐ์ด ์๋ค. but ์์ด๋ ๋ง๋ค. ๋ฌธ์ฅ ์ค๊ฐ์๋ ๊ธฐํธ๊ฐ ๋ง์ด ๋ค์ด๊ฐ๋ค.
- ex) Mr. / US vs us (๋ฏธ๊ตญ, ์ฐ๋ฆฌ) / Windows vs windows (MS Window vs ์ฐฝ๋ฌธ)
- ํ๊ตญ์ด์ ์์ด๋ฌ๋๋ ๋ฌธ์ฅ๋ถํธ๊ฐ ์์ผ๋ฉด ๋ฌธ์ฅ ๋๋๊ธฐ ์ฝ์ง๋ง ์์ผ๋ฉด ์ด๋ ค์
- ๊ทธ๋ ๋ค๊ณ ์์ด๋ ๋,์๋ฌธ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ฝ์ง ์๋ค.
- ๋ค์ํ๊ฒ ํด์๋ ์ ์์ผ๋ฏ๋ก ํ๋ณด๋ฅผ ๋ค๊ณ ๋ค๋๋ค๊ฐ ๊ฐ์ง์น๊ธฐ๋ฅผ ํด์ ์์ค๋ค.
Issue
- ์์ด๋
‘
…. → mary’s / mary ‘s → ๋ฉ๋ฆฌ์ธ์ง, ์์ ๊ฒฉ์ธ์ง - hyphen
-
→ Calcium-dependent / New York-New Jersey
stemming vs lemmatization
- stemming - ๊ณตํต๋ ๋ถ๋ถ ์ ์ธํ๊ณ ์๋ผ์ง
- Lemmatization - ๋จ์ด์ ์๋ณธ์ ์ฐพ์๊ฐ๋ ค๊ณ ํจ (์ฌ์ ์ด ์์ผ๋ฉด ํ์๊ฐ ์๋ค.)
content word & function word
- content word: ๊ฐ๋ ์ ์๋ฏธ๋ฅผ ์ ๋ฌ & ๊ณ์ ๋ง๋ค์ด์ง๋ค (๋์ฌ, ํ์ฉ์ฌ ๋ฑ) (open class)
- function word: ๋ฌธ๋ฒ์ ์๋ฏธ๋ฅผ ์ ๋ฌ (์ ์น์ฌ, ์ ์์ฌ ๋ฑ)
(Closed class: ์ ๋ด๋๋ค-๋ฌธ๋ฒ ๊ธฐ๋ฅ๋ง ํ๊ธฐ ๋๋ฌธ, but ์ถ๊ฐ๋ ๊ฐ๋ฅ-๊ฑฐ์ด ์์ด ๋์ง๋ ์์,)
Morphemes (ํํ์)
- Morpheme (ํํ์): ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ์ต์ ๋จ์
- ์ด๋ค ๊ฑด ํผ์ ์ธ ์ ์๊ธฐ๋ ํ๊ณ ๋ถ๊ฐ๋ฅ ํ๊ธฐ๋ ํจ
๐ก ํํ์๋ ๊ทธ ์์ฒด๋ก ๋จ์ด๊ฐ ๋ ์๋ ์๊ณ , ์ข ์ข ๋จ์ด๋ฅผ ๋ง๋ค๊ธฐ ์ํด ๋ค๋ฅธ ํํ์์ ๊ฒฐํฉ๋ ์๋ ์๋ค
ex) ์ฌ๋ํ๋ค
- ํ๋์ ํํ์, books
- book + s, ์
: ์ - ๋จ์ด์ด๋ฉด์ ํํ์
ํ๋์: ํ๋
+ ์
→ ๋๋ค ํํ์์ด๋ฉด์ ๋จ์ด
๋๋: ๋(๋๋ช
์ฌ)
+ ๋ / ๋(๋์ฌ) + ๋ / ๋ + ๋
- ์ฃผ์ ์ฌํญ: ํํ์๋ ์ฌ์ ์์ ์ฐพ์ ์ ์๋ ํํ๋ก ๋ง๋ค์ด์ผ ํ๋ค & ํํ์ ๋จ์๋ก ๋๋ ์ผ ํ๋ค.
Bound and Free Morphemes
- Free Morphemes: ํผ์ ์ธ ์ ์์
- ํ๊ตญ์ด๋ ๊ต์ฐจ ๋ถํธ ์ ํน์ง์ด ์์ด์, ํผ์ ์ธ ์ ์๋ ํํ์๊ฐ ๋ง๋ค.
- Bound Morphemes: ํผ์ ์ธ ์ ์๋ค, ๋ค๋ฅธ ํํ์์ ์ฐ๊ฒฐ์ด ๋์ด์ผ ํ๋ค.
- Infixes: root์์ ์ฝ์ & ์์ชฝ์ ๋ถ๋ ํํ์
- Circumfixes: ๋จ์ด๋ฅผ ์ค์ฌ์ผ๋ก ์์ชฝ(์์ & ๋)์ ๋ถ๋ ํํ์
- Derivational Morphemes(ํ์ ํํ์): ํํ์๊ฐ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋์ง ์๋์ง
- ์ด๊ทผ์ ์๋ฏธ ๋ฐ/๋๋ ์ผ๋ถ๋ฅผ ๋ณ๊ฒฝ
- Inflectional Morphemes: ๋ฌธ๋ฒ์ ๊ธฐ๋ฅ์ ํด์ ๋ง๋๋ ํํ์ - ํฌ๊ฒ ์๋ฏธ๊ฐ ์์
- ์งํํ
ing
/ 3์ธ์นญ ๋จ์s
- ์งํํ
- ํํ์๋ ๋จ์ด์ ๊ตฌ์กฐ๋ฅผ ๋ณ๊ฒฝํ๋ ๊ณ ์ ๋ ์์๋ก ์ถ๊ฐ๋๋ค. → ๋จ์ด์ ๊ณ์ธต ๊ตฌ์กฐ
- ๋จผ์ ๋ถ๋ ์์์ ๋ฐ๋ผ ๋จ์ด์ ์๋ฏธ๊ฐ ๊ฒฐ์ ๋๋ค / ๋ชจ๋ฅด๋ฉด ๋จ์ด์ ์ค์์ฑ
Morphological Processes/operation
- ์ด๋ค input์ผ๋ก ๋ค์ด์ค๋ฉด morpheme์ ์ ์ชผ๊ฐ์ผ ์ฌ์ ์์์ ์๋ฏธ ํ์ ๊ฐ๋ฅ?
๋์ฒด
๋จ์ด ํ์๊ฐ ์ ๊ด๊ณ ๋ณด๊ธฐ- ex) go → went
- ๊ฐ์ฅ ์์ ์๋ฏธ ๋จ์๋ก์ ํํ์๊ฐ ์กด์ฌ
- Input: The fearsome cats attacked the foolish dog
- Output: The fear-some cat-s attack-ed the fool-ish dog
๋ฐ์ํ
'๐ NLP (์์ฐ์ด์ฒ๋ฆฌ) > ๐จ๏ธ Linguistic Engineering' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Semantics & Pragmatics] The meaning of language - ์๋ฏธ๋ก , ์ด์ฉ๋ก (0) | 2024.01.16 |
---|---|
[Syntax] Syntactic analysis in NLP - NLP์์ ๊ตฌ๋ฌธ๋ถ์ (0) | 2023.07.26 |
[Syntax] Sentence Structure - ๋ฌธ์ฅ ๊ตฌ์กฐ (0) | 2023.07.26 |
[Syntax] Syntax Intro - ๊ตฌ๋ฌธ (0) | 2023.07.26 |
[Intro] Introduction to Language Engineering - ์ธ์ด๊ณตํ๊ฐ๋ก (0) | 2023.07.23 |