๋ฐ์ํ
Syntactic analysis in NLP
Parsing - PP & NP์ ๋ฐ๋ณต..
- Counsituency Parsing์ ๋จ์ ์ ๋ณด์ํ ๊ฒ์ด Dependency Parsing
- Counsituency Parsing Structure Tree
- Dependenxy Parsing Structure Tree
Dependent Grammer
- head๊ฐ dependent ์ผ ๋ ๋ ์๊ณ ์๋ก ๋ฐ๋์ผ ์๋ ์๋ค.
- ์ข ์์ฑ์ ๊ธฐ๋ฐ
- Dependency Structure๋ Word(head)์ ๊ทธ๊ฒ์ Dependent๊ณผ์ ๊ด๊ณ์ ์ํด ๊ฒฐ์ ๋๋ค.
- ์๋ฏธ์ ์ผ๋ก ๊ด๊ณ๊ฐ ์๋๊ฒ ๋ค๋ง ์ฐ๊ฒฐ๋๋ค. - ์๋ฏธ์ ์ผ๋ก๋ง ์ฐ๊ฒฐ๋๋ฉด ๋ฌถ์์ ์์ผ๋ฏ๋ก ๋น๊ต์ ์์ ๋ก์ด๊ฒ์ด ํน์ง
- ์์ ์ด์(Free word order)์ ์ธ์ด ๋ถ์์ ๋งค์ฐ ์ ํฉ
- PG
- S -> NP VP
- NP -> Det N
- VP -> V NP …
- → Word order is important
- But, Korean
- Free in word order
- Omission
- ungrammatical sentences on the internet
- ์๋ฏธ์ ์ผ๋ก ๋ฌถ์ผ๋ฉด ๋๋ค! (์๋ฏธ ๊ด๊ณ๋ฅผ ํ์
ํ๊ธฐ๊ฐ ํธํ๋ค & ๊ทธ๋ฆผ์ด ๋จ์)
- ์ต๊ทผ์๋ Partial Parsing, Chunking ์ผ๋ก ์ ํ์ด ์ง๋๊ฐ ใ
Partial parsing
- ์ ์ฒด ๋ง๊ณ , ์ผ๋ถ๋ง Parsing
- Full parse trees - ๋งค์ฐ ์ ์ฉํ๋ค
- ๋ฌธ์ฅ์ ๊ตฌ์กฐ, ์๋ฏธ ํ์ ํ๊ธฐ์ ์ฝ๋ค
- ๋ฌธ๋ฒ์ ๋ณต์ก.. ์๋ก ๋ฌธ๋ฒ๋ค ๋ผ๋ฆฌ ์ถฉ๋ํ๊ธฐ๋ ํ๋ค.
- ๋น์ ํ์ด๊ณ , ์ธ๋ฐ์๋ ๋ฌธ์ฅ๋ ๋ง๋ค์ด ๋ธ๋ค.
- ๋ง๋๋๋ฐ ์๊ฐ์ด ๋ง์ด ๋ ๋ค → ๋๋ ๋ง์ด ๋ค๊ณ ํ๋ค์ด
- ์ผ๋ถ NLP ์์ ์ full hierarchical Parses(์ ์ฒด ๊ณ์ธต์ ๊ตฌ๋ฌธ ๋ถ์)์ ์๊ตฌ ํ์ง ์์์ ๋ ์๋ค.
- Simpler parsing ์๋ ๋ ํจ๊ณผ์ ์ผ์๋ ์๋ค.
- ๊ตฌ๋ฌธ์ ๋ณต์ก ์ฑ์ด ๋ฎ์์ง๊ณ , ์ฒ๋ฆฌํ๋ ์๊ฐ์ด ์ค์ด๋ ๋ค.
- Full parsing์ ๋ง์ NLP Application์ ๋ํด ์ถฉ๋ถํ ๊ฐ๋ ฅ ํ์ง๊ฐ ์๋ค.
- Full parsing ์๋๋ฌ์ด ํ๊ฒฝ์์๋ ์ข์ parse tree๋ฅผ ์๋ณํ์ง ๋ชปํ๋ค.
What Is Partial Parsing?
- Full Traditional Parsing์ ์ด๋ ค์์ ๋ํ ๋์์ผ๋ก ๋์
- ๋ถ์์ ์์ฑ๋ & ๊น์ด๋ฅผ ํฌ์ํ์ฌ ์ ํ๋์ง ์์ text๋ก ๋ถํฐ Syntatic(๊ตฌ๋ฌธ) ์ ๋ณด๋ฅผ ํจ์จ & ์์ ์ ์ผ๋ก ๋ณต๊ตฌํ๋ ๊ธฐ์ ๋ก ์ค๋ช
- ์์ฑ๋๊ฐ ๋จ์ด์ง๊ณ , ๊น์ด๋ ๊น์ง๊ฐ ์๋ค. - ์์ ๊ตฌ๋ฌธ ๋ถ์
- ๋ฌธ์ฅ์ ์ผ๋ จ์ Syntactic constituents (ํต์ฌ์ ๊ตฌ์ฑ์์) or Chunks(๋ฉ์ด๋ฆฌ)๋ก ๋ถํ
- ์ฆ, ์ธ์ด์ ํน์ฑ์ ๊ธฐ์ดํ์ฌ ๊ทธ๋ฃนํ๋ word์ ์์
- ํ์ธต์์ ๋ง๋๋ ๊ตฌ์กฐ
- ๊ฐ์ฒด๋ช ์ ์ฌ์ฉํ ๋ ์ฐ์ธ๋ค.
- Terminology Discovery (์ฉ์ด ๊ฒ์)
- Named Entity Recognition (๋ช ๋ช ๋ ์ํฐํฐ ์ธ์)
- Text Mining (ํ ์คํธ ๋ง์ด๋)
- An intermediate step providing input to further full parsing stages
- (์ ์ฒด ๊ตฌ๋ฌธ ๋ถ์ ๋จ๊ณ์ ๋ํ ์ ๋ ฅ์ ์ ๊ณตํ๋ ์ค๊ฐ ๋จ๊ณ)
Chunking
- ๋ฌธ์ฅ์ ๊ฒน์น์ง ์๊ฒ ํ๋๊ฒ & ๋ฐ๋ณต๋์ง ์๋๊ฒ ์ผ๋ก ๋ถํ ํ๋ค.
- ์ ๋๋ก overlapping ๋๊ฒ ๊ทธ๋ฆฌ์ง ์๋๋ค.
๐ก [Her new shipment] NP [of] PP [facemasks] NP [arrived] VP
- Not Hierarchical - ๋น ๊ณ์ธต์
- flat segmented representation - ํ๋ฉด ๋ถํ ํํ
๋ฌธ์ฅ์ fllat, non-overlapping์ธ segment๋ฅผ ์๋ณ & ๋ถ๋ฅ ํ๋ ๊ณผ์
- ์ฃผ์ content-word์ ์์ฑ(part of speech)๋ถ๋ถ์ ํด๋นํ๋ basic non-recursive phrase (๊ธฐ๋ณธ ๋น์ฌ๊ท ๊ตฌ๋ฌธ)์ ๊ตฌ์ฑํ๋ segment
→ NPs, VPs, APs & PPs
Lacking hierarchical structure - ๊ณ์ธต ๊ตฌ์กฐ์ ๋ถ์กฑ.
- ๊ฐ๋จํ ๋๊ดํธ ํ๊ธฐ๋ฒ์ Chunk์ ์์น์ ์ ํ์ ๋ํ๋ด๊ธฐ์ ์ถฉ๋ถ
Segmenting
non-overlapping (์ค๋ณตX), non-recursive (๋ฐ๋ณต X)์ธ
Her new shipment of facemasks arrived
[Her new shipment] [of] [facemasks] [arrived]
- fundermental phrase(๊ธฐ๋ณธ ๊ตฌ๋ฌธ) ์ฐพ๊ธฐ
Labeling
- ์ฐพ์ Chunk์ ๋ํด ์ฌ๋ฐ๋ฅธ Tag ํ ๋น
- ํ๋ ์ผ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์๋ ์๋ค.
์ผ๋ฐ์ ์ธ ๊ฐ์ด๋๋ผ์ธ
- Non-Recursive → ๋ถํ ๋์ง ์์. (Segment๋ฅผ ๋ ์์ Chunk๋ก ๋ถํ )
- ๋จ์ด๋ฅผ ๊ตฌ์ฑํ๋ head๋ฅผ ์ ์งํ๋ค.
- NP noun
- head word์์ ๋ํ๋๋ ๋ชจ๋ material๋ฅผ ๊ตฌ์ฑ ์์์ ์ํ๋๋ก ์ ์ง
๐ก [Her new shipment] NP of facemasks arrived
๋๋ถ๋ถ์ ์ ๊ทผ ๋ฐฉ์์์ ๊ธฐ๋ณธ ๊ตฌ๋ฌธ(Basic Phrase)
- Phrase์ headword & ๊ตฌ์ฑํ๋ ์์ ๋ด์ ๋ชจ๋ pre-head Material๋ฅผ ํฌํจ
- Post-head Material๋ฅผ ์์ ํ ๋ฐฐ์ ํ๋ค.
- ์ด๋ฌํ ๋ฐฐ์ ๋ PP & VV๊ฐ ์ข ์ข head๋ก ๊ตฌ์ฑ๋๋ ์ด์ํ ์ ์ ์ด๋ํ ์๋ ์๋ค.
๐ก Example
[Her new shipment] NP [of] PP [facemasks] NP [arrived] VP
[a flight] NP [from] PP [Indianapolis] NP [to] PP [Houston] NP [on] PP [NWA] NP
-
- But, ๋ง์ attachement์ ๋ชจํธํจ์ ์ ๊ฑฐํ๋ค!!!
๋ฐ์ํ
'๐ NLP (์์ฐ์ด์ฒ๋ฆฌ) > ๐จ๏ธ Linguistic Engineering' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Semantics & Pragmatics] Lexical Semantics - ์ดํ ์๋ฏธ๋ก (0) | 2024.01.16 |
---|---|
[Semantics & Pragmatics] The meaning of language - ์๋ฏธ๋ก , ์ด์ฉ๋ก (0) | 2024.01.16 |
[Syntax] Sentence Structure - ๋ฌธ์ฅ ๊ตฌ์กฐ (0) | 2023.07.26 |
[Syntax] Syntax Intro - ๊ตฌ๋ฌธ (0) | 2023.07.26 |
[Words] Words - ๋จ์ด (0) | 2023.07.23 |