A A
[Words] Words - 단어

The Words of Language

  • λ‹¨μ–΄λŠ” 언어적 μ§€μ‹μ˜ μ€‘μš”ν•œ λΆ€λΆ„ & λ¬Έλ²•μ˜ ꡬ성 μš”μ†Œλ₯Ό ꡬ성
  • μš°λ¦¬κ°€ μ•„λŠ” λͺ¨λ“  λ‹¨μ–΄λŠ” mental dictionaryλ₯Ό 가지고 μžˆλ‹€.
    • Pronunciation (발음)
    • Meaning (의미)
    • Orthography (Spelling) - λ§žμΆ€λ²•
    • Grammatial Category (문법 λ²”μ£Ό)

Morphology (ν˜•νƒœμ†Œ)

  • ν˜•νƒœμ†Œ 라고 ν•˜λŠ” μž‘μ€ λ‹¨μœ„λ‘œ λ³Έλ‹€.

  • μœ ν•œν•œ λ°μ΄ν„°μ—μ„œ λ§Œλ“€μ–΄ λ‚΄μ§€λ§Œ μœ ν•œν•œ κ·œμΉ™μ΄ μžˆλ‹€.
example) λ‚˜λŠ” 학ꡐ에 κ°„λ‹€, ν•˜λŠ˜μ„ λ‚˜λŠ” μƒˆ

  • μ‹€μ œλ‘œ Morphological Persingν•˜λ©΄
    λ˜‘κ°™μ€ λ‚˜λŠ” μ΄μ§€λ§Œ λ‚˜ → λŒ€λͺ…사, 쑰사 μƒκ°λ§Œ λ‚œλ‹€.

Normalization (ν‘œμ€€ν™”)

λ¬Έμž₯을 λ‚˜λˆ„λ €λ©΄ λ¬Έμž₯λΆ€ν˜Έ κ°€ μžˆμ–΄μ•Ό ν•œλ‹€, λΆ€ν˜Έ 없어도 λ‚˜λˆ μ•Ό ν•˜μ§€λ§Œ κ°€λŠ₯은 ν•˜λ‹€.

  • ν•œκ΅­μ–΄λŠ” λ¬Έμž₯λΆ€ν˜Έ 의 μš©λ„κ°€ 거이 μ—†λ‹€. but μ˜μ–΄λŠ” λ§Žλ‹€. λ¬Έμž₯ 쀑간에도 κΈ°ν˜Έκ°€ 많이 λ“€μ–΄κ°„λ‹€.
  • ex) Mr. / US vs us (λ―Έκ΅­, 우리) / Windows vs windows (MS Window vs μ°½λ¬Έ)
  • ν•œκ΅­μ–΄μ˜ μ•„μ΄λŸ¬λ‹ˆλŠ” λ¬Έμž₯λΆ€ν˜Έκ°€ 있으면 λ¬Έμž₯ λ‚˜λˆ„κΈ° μ‰½μ§€λ§Œ μ—†μœΌλ©΄ 어렀움
  • κ·Έλ ‡λ‹€κ³  μ˜μ–΄λŠ” λŒ€,μ†Œλ¬Έμžκ°€ 있기 λ•Œλ¬Έμ— 쉽지 μ•Šλ‹€.
  • λ‹€μ–‘ν•˜κ²Œ 해석될 수 μžˆμœΌλ―€λ‘œ 후보λ₯Ό λ“€κ³  λ‹€λ‹ˆλ‹€κ°€ κ°€μ§€μΉ˜κΈ°λ₯Ό ν•΄μ„œ μ—†μ•€λ‹€.

Issue

  • μ˜μ–΄λŠ” …. → mary’s / mary ‘s → 메리인지, μ†Œμœ κ²©μΈμ§€
  • hyphen - → Calcium-dependent / New York-New Jersey

stemming vs lemmatization

  • stemming - κ³΅ν†΅λœ λΆ€λΆ„ μ œμ™Έν•˜κ³  잘라짐
  • Lemmatization - λ‹¨μ–΄μ˜ 원본은 μ°Ύμ•„κ°€λ €κ³  함 (사전이 μ—†μœΌλ©΄ νšŸμˆ˜κ°€ μ—†λ‹€.)

content word & function word

  • content word: κ°œλ…μ  의미λ₯Ό 전달 & 계속 λ§Œλ“€μ–΄μ§„λ‹€ (동사, ν˜•μš©μ‚¬ λ“±) (open class)
  • function word: 문법적 의미λ₯Ό 전달 (μ „μΉ˜μ‚¬, 접속사 λ“±)

(Closed class: μ•ˆ 봐뀐닀-문법 κΈ°λŠ₯만 ν•˜κΈ° λ•Œλ¬Έ, but μΆ”κ°€λŠ” κ°€λŠ₯-거이 μžƒμ–΄ λ‚˜μ§€λŠ” μ•Šμ•„,)


Morphemes (ν˜•νƒœμ†Œ)

  • Morpheme (ν˜•νƒœμ†Œ): 의미λ₯Ό 가지고 μžˆλŠ” μ΅œμ†Œ λ‹¨μœ„
    • μ–΄λ–€ 건 혼자 μ“Έ 수 μžˆκΈ°λ„ ν•˜κ³  λΆˆκ°€λŠ₯ ν•˜κΈ°λ„ 함
πŸ’‘ ν˜•νƒœμ†ŒλŠ” κ·Έ 자체둜 단어가 될 μˆ˜λ„ 있고, μ’…μ’… 단어λ₯Ό λ§Œλ“€κΈ° μœ„ν•΄ λ‹€λ₯Έ ν˜•νƒœμ†Œμ™€ 결합될 μˆ˜λ„ μžˆλ‹€

ex) μ‚¬λž‘ν•˜λ‹€ - ν•˜λ‚˜μ˜ ν˜•νƒœμ†Œ, books - book + s, μƒˆ: μƒˆ - λ‹¨μ–΄μ΄λ©΄μ„œ ν˜•νƒœμ†Œ

ν•˜λŠ˜μ„: ν•˜λŠ˜ + 을 → λ‘˜λ‹€ ν˜•νƒœμ†Œμ΄λ©΄μ„œ 단어

λ‚˜λŠ”: λ‚˜(λŒ€λͺ…사) + λŠ” / λ‚˜(동사) + λŠ” / λ‚  + λŠ”

  • 주의 사항: ν˜•νƒœμ†ŒλŠ” μ‚¬μ „μ—μ„œ 찾을 수 μžˆλŠ” ν˜•νƒœλ‘œ λ§Œλ“€μ–΄μ•Ό ν•œλ‹€ & ν˜•νƒœμ†Œ λ‹¨μœ„λ‘œ λ‚˜λˆ μ•Ό ν•œλ‹€.

Bound and Free Morphemes

  • Free Morphemes: 혼자 μ“Έ 수 있음
    • ν•œκ΅­μ–΄λŠ” ꡐ차 λΆ€ν˜Έ 의 νŠΉμ§•μ΄ μžˆμ–΄μ„œ, 혼자 μ“Έ 수 μžˆλŠ” ν˜•νƒœμ†Œκ°€ λ§Žλ‹€.
  • Bound Morphemes: 혼자 μ“Έ 수 μ—†λ‹€, λ‹€λ₯Έ ν˜•νƒœμ†Œμ™€ 연결이 λ˜μ–΄μ•Ό ν•œλ‹€.
  • Infixes: rootμ•ˆμ— μ‚½μž… & μ•žμͺ½μ— λΆ™λŠ” ν˜•νƒœμ†Œ
  • Circumfixes: 단어λ₯Ό μ€‘μ‹¬μœΌλ‘œ μ–‘μͺ½(μ‹œμž‘ & 끝)에 λΆ™λŠ” ν˜•νƒœμ†Œ
  • Derivational Morphemes(νŒŒμƒ ν˜•νƒœμ†Œ): ν˜•νƒœμ†Œκ°€ 의미λ₯Ό 가지고 μžˆλŠ”μ§€ μ•„λ‹Œμ§€
    • μ–΄κ·Όμ˜ 의미 및/λ˜λŠ” 일뢀λ₯Ό λ³€κ²½
  • Inflectional Morphemes: 문법적 κΈ°λŠ₯을 ν•΄μ„œ λ§Œλ“œλŠ” ν˜•νƒœμ†Œ - 크게 μ˜λ―Έκ°€ μ—†μŒ
    • μ§„ν–‰ν˜• ing / 3인칭 λ‹¨μˆ˜ s
  • ν˜•νƒœμ†ŒλŠ” λ‹¨μ–΄μ˜ ꡬ쑰λ₯Ό λ³€κ²½ν•˜λŠ” κ³ μ •λœ μˆœμ„œλ‘œ μΆ”κ°€λœλ‹€. → λ‹¨μ–΄μ˜ 계측 ꡬ쑰
    • λ¨Όμ € λΆ™λŠ” μˆœμ„œμ— 따라 λ‹¨μ–΄μ˜ μ˜λ―Έκ°€ κ²°μ •λœλ‹€ / λͺ¨λ₯΄λ©΄ λ‹¨μ–΄μ˜ μ€‘μ˜μ„±


Morphological Processes/operation

  • μ–΄λ–€ input으둜 λ“€μ–΄μ˜€λ©΄ morpheme을 잘 μͺΌκ°œμ•Ό 사전 μ—μ„œμ˜ 의미 νŒŒμ•… κ°€λŠ₯?
  • λŒ€μ²΄ 단어 ν˜•μ‹κ°„ 의 관계 보기
    • ex) go → went
  • κ°€μž₯ μž‘μ€ 의미 λ‹¨μœ„λ‘œμ˜ ν˜•νƒœμ†Œκ°€ 쑴재

  • Input: The fearsome cats attacked the foolish dog
  • Output: The fear-some cat-s attack-ed the fool-ish dog