The Words of Language
- λ¨μ΄λ μΈμ΄μ μ§μμ μ€μν λΆλΆ & λ¬Έλ²μ κ΅¬μ± μμλ₯Ό ꡬμ±
- μ°λ¦¬κ° μλ λͺ¨λ λ¨μ΄λ mental dictionaryλ₯Ό κ°μ§κ³ μλ€.
- Pronunciation (λ°μ)
- Meaning (μλ―Έ)
- Orthography (Spelling) - λ§μΆ€λ²
- Grammatial Category (λ¬Έλ² λ²μ£Ό)
Morphology (ννμ)
- ννμ λΌκ³ νλ μμ λ¨μλ‘ λ³Έλ€.
- μ νν λ°μ΄ν°μμ λ§λ€μ΄ λ΄μ§λ§ μ νν κ·μΉμ΄ μλ€.
example) λλ νκ΅μ κ°λ€, νλμ λλ μ
- μ€μ λ‘ Morphological Persingνλ©΄
λκ°μ λλ μ΄μ§λ§ λ → λλͺ μ¬, μ‘°μ¬ μκ°λ§ λλ€.
Normalization (νμ€ν)
λ¬Έμ₯μ λλλ €λ©΄ λ¬Έμ₯λΆνΈ κ° μμ΄μΌ νλ€, λΆνΈ μμ΄λ λλ μΌ νμ§λ§ κ°λ₯μ νλ€.
- νκ΅μ΄λ λ¬Έμ₯λΆνΈ μ μ©λκ° κ±°μ΄ μλ€. but μμ΄λ λ§λ€. λ¬Έμ₯ μ€κ°μλ κΈ°νΈκ° λ§μ΄ λ€μ΄κ°λ€.
- ex) Mr. / US vs us (λ―Έκ΅, μ°λ¦¬) / Windows vs windows (MS Window vs μ°½λ¬Έ)
- νκ΅μ΄μ μμ΄λ¬λλ λ¬Έμ₯λΆνΈκ° μμΌλ©΄ λ¬Έμ₯ λλκΈ° μ½μ§λ§ μμΌλ©΄ μ΄λ €μ
- κ·Έλ λ€κ³ μμ΄λ λ,μλ¬Έμκ° μκΈ° λλ¬Έμ μ½μ§ μλ€.
- λ€μνκ² ν΄μλ μ μμΌλ―λ‘ ν보λ₯Ό λ€κ³ λ€λλ€κ° κ°μ§μΉκΈ°λ₯Ό ν΄μ μμ€λ€.
Issue
- μμ΄λ
‘
…. → mary’s / mary ‘s → λ©λ¦¬μΈμ§, μμ 격μΈμ§ - hyphen
-
→ Calcium-dependent / New York-New Jersey
stemming vs lemmatization
- stemming - 곡ν΅λ λΆλΆ μ μΈνκ³ μλΌμ§
- Lemmatization - λ¨μ΄μ μλ³Έμ μ°Ύμκ°λ €κ³ ν¨ (μ¬μ μ΄ μμΌλ©΄ νμκ° μλ€.)
content word & function word
- content word: κ°λ μ μλ―Έλ₯Ό μ λ¬ & κ³μ λ§λ€μ΄μ§λ€ (λμ¬, νμ©μ¬ λ±) (open class)
- function word: λ¬Έλ²μ μλ―Έλ₯Ό μ λ¬ (μ μΉμ¬, μ μμ¬ λ±)
(Closed class: μ λ΄λλ€-λ¬Έλ² κΈ°λ₯λ§ νκΈ° λλ¬Έ, but μΆκ°λ κ°λ₯-κ±°μ΄ μμ΄ λμ§λ μμ,)
Morphemes (ννμ)
- Morpheme (ννμ): μλ―Έλ₯Ό κ°μ§κ³ μλ μ΅μ λ¨μ
- μ΄λ€ 건 νΌμ μΈ μ μκΈ°λ νκ³ λΆκ°λ₯ νκΈ°λ ν¨
π‘ ννμλ κ·Έ μμ²΄λ‘ λ¨μ΄κ° λ μλ μκ³ , μ’ μ’ λ¨μ΄λ₯Ό λ§λ€κΈ° μν΄ λ€λ₯Έ ννμμ κ²°ν©λ μλ μλ€
ex) μ¬λνλ€
- νλμ ννμ, books
- book + s, μ
: μ - λ¨μ΄μ΄λ©΄μ ννμ
νλμ: νλ
+ μ
→ λλ€ ννμμ΄λ©΄μ λ¨μ΄
λλ: λ(λλͺ
μ¬)
+ λ / λ(λμ¬) + λ / λ + λ
- μ£Όμ μ¬ν: ννμλ μ¬μ μμ μ°Ύμ μ μλ ννλ‘ λ§λ€μ΄μΌ νλ€ & ννμ λ¨μλ‘ λλ μΌ νλ€.
Bound and Free Morphemes
- Free Morphemes: νΌμ μΈ μ μμ
- νκ΅μ΄λ κ΅μ°¨ λΆνΈ μ νΉμ§μ΄ μμ΄μ, νΌμ μΈ μ μλ ννμκ° λ§λ€.
- Bound Morphemes: νΌμ μΈ μ μλ€, λ€λ₯Έ ννμμ μ°κ²°μ΄ λμ΄μΌ νλ€.
- Infixes: rootμμ μ½μ & μμͺ½μ λΆλ ννμ
- Circumfixes: λ¨μ΄λ₯Ό μ€μ¬μΌλ‘ μμͺ½(μμ & λ)μ λΆλ ννμ
- Derivational Morphemes(νμ ννμ): ννμκ° μλ―Έλ₯Ό κ°μ§κ³ μλμ§ μλμ§
- μ΄κ·Όμ μλ―Έ λ°/λλ μΌλΆλ₯Ό λ³κ²½
- Inflectional Morphemes: λ¬Έλ²μ κΈ°λ₯μ ν΄μ λ§λλ ννμ - ν¬κ² μλ―Έκ° μμ
- μ§νν
ing
/ 3μΈμΉ λ¨μs
- μ§νν
- ννμλ λ¨μ΄μ ꡬ쑰λ₯Ό λ³κ²½νλ κ³ μ λ μμλ‘ μΆκ°λλ€. → λ¨μ΄μ κ³μΈ΅ ꡬ쑰
- λ¨Όμ λΆλ μμμ λ°λΌ λ¨μ΄μ μλ―Έκ° κ²°μ λλ€ / λͺ¨λ₯΄λ©΄ λ¨μ΄μ μ€μμ±
Morphological Processes/operation
- μ΄λ€ inputμΌλ‘ λ€μ΄μ€λ©΄ morphemeμ μ μͺΌκ°μΌ μ¬μ μμμ μλ―Έ νμ κ°λ₯?
λ체
λ¨μ΄ νμκ° μ κ΄κ³ 보기- ex) go → went
- κ°μ₯ μμ μλ―Έ λ¨μλ‘μ ννμκ° μ‘΄μ¬
- Input: The fearsome cats attacked the foolish dog
- Output: The fear-some cat-s attack-ed the fool-ish dog
'π NLP (μμ°μ΄μ²λ¦¬) > π¨οΈ Linguistic Engineering' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[Semantics & Pragmatics] The meaning of language - μλ―Έλ‘ , μ΄μ©λ‘ (0) | 2024.01.16 |
---|---|
[Syntax] Syntactic analysis in NLP - NLPμμ ꡬ문λΆμ (0) | 2023.07.26 |
[Syntax] Sentence Structure - λ¬Έμ₯ ꡬ쑰 (0) | 2023.07.26 |
[Syntax] Syntax Intro - ꡬ문 (0) | 2023.07.26 |
[Intro] Introduction to Language Engineering - μΈμ΄κ³΅νκ°λ‘ (0) | 2023.07.23 |