๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
2024.01.16
Tokenization - ํ ํฐํ 1. ํ ํฐํ๋? ๐ก ๋ฌธ์ฅ์ ํ ํฐ ์ํ์ค๋ก ๋๋๋ ๊ณผ์ → ๋ฌธ์, ๋จ์ด, ์๋ธ์๋๋ฑ 3๊ฐ์ง ๋ฐฉ๋ฒ ํ ๊ทผํ๋ฅผ ์ํํ๋ ํ๋ก๊ทธ๋จ์(Tokenizer)๋ผ๊ณ ํ๋ค. ํ ๊ทผํ ๋ฐฉ์์๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์์ → ๋จ์ด(์ด์ ), ๋ฌธ์, ์๋ธ์๋(Subword) ๋จ์ ๋จ์ด ๋จ์ ํ ํฐํ ๊ณต๋ฐฑ์ผ๋ก ๋ถ๋ฆฌ ์ฅ์ : Tokenizer๋ฅผ ์ฌ์ฉํ๋ฉด ์ดํ ์งํฉ์ด ์ปค์ง๋๊ฑฐ ์ํ ๐ก Example ์์ ํ๋ข์ผ๋ก ํ ํฐํ → ๊ทธ๋ ๋ค๊ณ ์์ ํ๋ข ๊ฐ์ Tokenizer ์ฌ์ฉํด์ ์ดํ์งํฉ ํฌ๊ธฐ๊ฐ ์ปค์ง๋๊ฑด ๋ง๊ธฐ ์ด๋ ค์ (์ดํ ์งํฉ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก..) ๋ฌธ์ ๋จ์ ํ ๊ทผํ ๐ก ๋ฌธ์ ๋จ์ → ๋ชจ๋ ๋ฌธ์๋ฅผ ์ดํ ์งํฉ์ ํฌํจํจ์ผ๋ก ๋ฏธ๋ฑ๋ก ํ ํฐ ๋ฌธ์๋ก๋ถํฐ ์์ ๋กญ๋ค. ๋ฏธ๋ฑ๋ก ํ ํฐ: ์ดํ ์งํฉ์ ์๋ ํ ํฐ - ์ ์กฐ์ด๋ฑ ์์ ๋ฐ์ ๋จ์ : ๊ฐ ๋ฌธ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Word Tokenization - Morphemes Word-based tokenization - ์ฌ๋์ด ์ฐ๋ ๋จ์ด์ ์๋ฏธ ํฐ ์ฌ์ ์ด ์์ด์ผ ํ๋ค. ์ฌ์ ์ ์๋ ๋จ์ด๊ฐ ์์ผ๋ฉด ์ฒ๋ฆฌ ๋ถ๊ฐ → ํด๊ฒฐํ๋ ค๋ฉด ์ฌ์ ์ด ์์ฒญ ์ปค์ผํด! ๋ณด์ด์ง ์๋ ๋จ์ด๋ ํฌ๊ทํ ๋จ์ด๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์์ ํด๊ฒฐ์ฑ
→ subword tokenization Subword tokenization ๋ณดํต ๋ง๋ญ์น ์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ์งํฉ, ๋น๋๊ฐ ๋ฎ์ ๋จ์ด๋ ์ดํ๊ฐ ๋ถ์กฑํ ์๋ ๋จ์ด๋ณด๋ค ๋ ์ชผ๊ฐ. ๊ทธ๋ ๋ค๊ณ ๋จ์ด or ๊ธ์๋ ์๋ , ๊ทธ ์ค๊ฐ์์ ์๋ฅธ๋ค. ๋น๋๊ฐ ๋ฎ์๊ฑด ์ต๋ํ ์๋ฅด๊ณ ์ถ์ ์๊ตฌ์ ์ํ์ฌ ๋ง๋ค์ด์ง ๋ณธ์ ์๋ ๋จ์ด, ํํ์ง ์์ ๋จ์ด ๊ธฐ์กด์ NLP๋ ๊ณ ์ ๋ ์ดํ๋ก ์๋ → ๊ทธ ๋ฐ์ ์๋ ๋ชจ๋ ํ ํฐ์ UNK(์์์์)์ผ๋ก ์ถ์ ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
ํ๊ตญ์ด ํํ์ ํ๊ตญ์ด๋ ๊ต์ฐฉ์ด / ์ด๊ทผ์ ์ ์ฌ๊ฐ ๋ถ์ด์ ๋ฌธ๋ฒ์ด ๊ฒฐ์ ์ด๊ทผ ๋จ์ด๋ฅผ ๋ถ์ํ ๋ ์ค์ง์ ์๋ฏธ๋ฅผ ๋ํ๋ด๋ ์ค์ฌ ๋ถ๋ถ ex) ์ด๋ฅธ์ค๋ฝ๋ค-> ์ด๋ฅธ ์ ์ฌ ๋ค๋ฅธ ์ด๊ทผ์ ๋ถ์ด ์๋ก์ด ๋จ์ด๋ฅผ ๊ตฌ์ฑ ์ ๋์ฌ, ์ ๋ฏธ์ฌ ex) ๋งจ์, ์ ์๋ ์กฐ์ฌ ๋ฌธ๋ฒ์ , ๊ด๊ณ์ ๋ป์ ๋ํ๋ด๋ ๋จ์ด ex) ์ฒ ์๊ฐ ๋ฐฅ์ ์ด๋ฏธ ํ์ฉํ์ฌ ๋ณํ๋ ๋ถ๋ถ ์ ์ด๋ง ์ด๋ฏธ, ์ด๋ง ์ด๋ฏธ ex) ๋จน๋ ๋ค, ๋ถ์ํ๊ฒ ์ต๋๋ค. ex) ์ด๋จธ๋๊ฐ ์ฑ
์ ์ฝ์ผ์
จ๊ฒ ๋ค์ ์ด๋จธ๋ ๊ฐ ์ฑ
์ ์ฝ ์ผ์ ์ ๊ฒ ๋ค์ ๋ช ๊ฐ์ ๋ฌธ์ฅ์ ํตํด ํํ์ ๋ถ์์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๋ช[๊ดํ์ฌ] / ๊ฐ[๋ช
์ฌ] / ์[์กฐ์ฌ] / ๋ฌธ์ฅ[๋ช
์ฌ] / ์[ํต[์ด๊ทผ] / ํด[ํ[์ ๋ฏธ์ฌ] / ์ผ[์ฌ๋ง์ด๋ฏธ]]/ ๊ฒ [์ ์ด๋ง์ด๋ฏธ] / ์ต๋๋ค[์ด๋ง์ด๋ฏธ] ํํ[๋ช
์ฌ]/ ์[๋ช
์ฌ] / ๋ถ์[๋ช
์ฌ] / ์[์กฐ์ฌ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Thematic Roles (์๋ฏธ์ญ) Thematic [ฦ] roles (์๋ฏธ์ญ) : ๋์ฌ์ ์ธ์์ ๋์ฌ๊ฐ ์ค๋ช
ํ๋ ์ํฉ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํํ Agent: the ‘doer’ of the action ์ด๋ค ํ๋์ ‘์คํ์’ Theme: the ‘undergoer’ of the action ํ๋์ ‘๋ฐ๋จ’ Goal: the endpoint of a change in location or possession ์์น & ์์ ๊ถ ๋ณ๊ฒฝ์ ๋ Source: where the action originates ๋์์ด ๋ฐ์ํ๋๊ณณ Instrument: the means used to accomplish an action ์ด๋ค ์๋จ์ ๊ฐ์ง๊ณ ์์ฑํ๊ฑฐ - key ๊ฐ์ ๊ฐ๋
์ด๋ค ํ๋์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ์๋จ Experience..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Lexical Semantics: Reference & Sense Referent (์ง์ ๋์): ๋จ์ด๋ก ์ง์ ๋ ์ค์ ์ฌ๋ฌผํ ๋จ์ด๊ฐ ์ด๋ค ๊ฐ๋ฆฌํค๋ ๋์์ด ์๋ ๊ฒ. ๐ก Example Jack, the happy swimmer, my friend, and that guy can all have the same referent in the sentence Jack swims. -> Jack = the happy swimmer = my friend = that guy ๊ฐ๋จํด ๋ณด์ด์ง๋ง, ๋๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋๊ฑธ ์ง์นญํ๋ ๊ฑด ์ฝ์ง๊ฐ ์๋ค. ์๋ฏธ๋ฅผ ํ์
ํด์ผ ์ฐพ์ ์ ์๋ค. - ์ง์ ๋์์ด ๊ฐ์๋ ์๋ฏธ๊ฐ ๋ค๋ฅด๋ฉด ๊ฐ๋ค๊ณ ํ ์ ์๋ค. ๐ก Example Superman, born Kal-El and legally n..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Semantics (& Pragmatics) Semantics (& Pragmatics) - The meaning of language When Compositionality Goes Awry: Anomaly Sentential Semantics (๋ฌธ์ฅ ์๋ฏธ๋ก ) ํ์๊ฐ ๋ฌธ์ฅ ์๋ฏธ์ ๋ํด ์๋ ๊ฒ ๐ก Example Truth Entailment and Related Notions Ambiguity Compositional Semantics (๊ตฌ์ฑ ์๋ฏธ๋ก ) When Compositionality Goes Awry ๐ก Example Anomaly Metaphor Idioms Lexical Semantics (Word Meanings) - ์ดํ ์๋ฏธ๋ก (๋จ์ด ์๋ฏธ) ๐ก Example Theories of Wor..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
2024.01.16
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ ๐ก ๋ชจ๋ธ(Model): ์
๋ ฅ์ ๋ฐ์ ์ด๋ค ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ ํจ์, ์์ฐ์ด์ฒ๋ฆฌ์์์ input์ ์์ฐ์ด ๐ก ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ๋ฅ ์ด๋ผ๋ ์ ์ ์ฃผ๋ชฉ์ ํด์ผํ๋ค. ์์ฐ์ด์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ถ๋ ฅ๋ ํ๋ฅ → ๊ทธ๋ฌ๋, ๋ชจ๋ธ์ ์ถ๋ ฅ ํํ๋ ํ๋ฅ , ์ฌ๋์ด ์ํ๋๊ฑด ์์ฐ์ด ํํ. ๊ทธ๋ฌ๋ฉด ์ถ๋ ฅ๋ ํ๋ฅ ์ ํ์ฒ๋ฆฌ ํด์ ์์ฐ์ด ํํ๋ก ๋ณํ์ ํด์ผํ๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ ๋ฐ์ดํฐ์ ‘๊ฐ์ฑ’ ์ด๋ผ๋ ๋ ์ด๋ธ์ ๋ฌ์ ๋์ ๋ฐ์ดํฐ๊ฐ ์์ด์ผ ํ๋ค. → ์ด๊ฑธ ํ์ต ๋ฐ์ดํฐ ๋ผ๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ํจํด์ ์ค์ค๋ก ์ตํ๊ฒ ํ๋ ๊ณผ์ → ํ์ต(train) Transfer Learning ๐ก ํธ๋์คํผ ๋ฌ๋: ํน์ Task๋ฅผ ํ์ตํ ๋ชจ๋ธ์ ๋ค๋ฅธ ํ
์คํฌ ์ํ์ ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ ๊ฐ๋ฆฌํด ํธ๋์คํผ ์ ์ฉ์ ๊ธฐ์กด๋ณด๋ค ๋ชจ๋ธ์ ํ์ต ์..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2023.07.26
Syntactic analysis in NLP Parsing - PP & NP์ ๋ฐ๋ณต.. Counsituency Parsing์ ๋จ์ ์ ๋ณด์ํ ๊ฒ์ด Dependency Parsing Counsituency Parsing Structure Tree Dependenxy Parsing Structure Tree Dependent Grammer head๊ฐ dependent ์ผ ๋ ๋ ์๊ณ ์๋ก ๋ฐ๋์ผ ์๋ ์๋ค. ์ข
์์ฑ์ ๊ธฐ๋ฐ Dependency Structure๋ Word(head)์ ๊ทธ๊ฒ์ Dependent๊ณผ์ ๊ด๊ณ์ ์ํด ๊ฒฐ์ ๋๋ค. ์๋ฏธ์ ์ผ๋ก ๊ด๊ณ๊ฐ ์๋๊ฒ ๋ค๋ง ์ฐ๊ฒฐ๋๋ค. - ์๋ฏธ์ ์ผ๋ก๋ง ์ฐ๊ฒฐ๋๋ฉด ๋ฌถ์์ ์์ผ๋ฏ๋ก ๋น๊ต์ ์์ ๋ก์ด๊ฒ์ด ํน์ง ์์ ์ด์(Free word order)์ ์ธ์ด ๋ถ์์ ๋งค์ฐ ์ ํฉ P..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2023.07.26
Sentence Sentence Structure “The child found the puppy” ๋ฌธ์ฅ์ ๋ค์๊ณผ ๊ฐ์ ํ
ํ๋ฆฟ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค๊ณ ๋งํ ์ ์๋ค. Det—N—V—Det—N ์ด๊ฒ์ ๋ฌธ์ฅ์ด ๋ด๋ถ ๊ตฌ์กฐ๊ฐ ์๋ ๋จ์ด์ ๋ฌธ์์ด์ ๋ถ๊ณผํ๋ค๋ ๊ฒ์ ์๋ฏธ ๋ฌธ์ฅ์ ํ์ธต ์ง๋ฆฌ ๋๋ ทํ ๊ตฌ์กฐ๋ก ์ด๋ฃจ์ด์ ธ ์์ง ์๊ณ , ๊ณ์ธต์ ๊ตฌ์กฐ ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ด ๋ฌธ์ฅ์ ์ค์ ๋ก ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋ ์ ์๋ค ์ด๋ป๊ฒ ๊ฒฐํฉํ๋ ์ง์ ๋ฐ๋ผ ๋ง์ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ค. ๐ก example [the child] [found a puppy] [the child] [found [a puppy]] [[the] [child]] [[found] [[a] [puppy]] ํธ๋ฆฌ ๋ค์ด์ด๊ทธ๋จ์ ๋ฌธ์ฅ์ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฐ ์ฌ์ฉ๋๋ค. Syntactic Ca..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2023.07.26
Syntax - ๋ฌธ์ฅ์ pattern ์ฐ๊ตฌ (๋ฌธ๋ฒ) Syntax ๋ชจ๋ ์ธ๊ฐ ์ธ์ด๋ฅผ ๊ตฌ์ฌํ๋ ์ฌ๋์ ๋ฌดํํ ์์ ๊ฐ๋ฅํ ๋ฌธ์ฅ์ ์์ฐํ๊ณ ์ดํดํ ์ ์๋ค. ํ์ง๋ง, ์ฐ๋ฆฌ๋ ๊ฐ๋ฅํ ๋ชจ๋ ๋ฌธ์ฅ๋ค์ ๋ํ mental dictionary์ ๊ฐ์ง ์ ์๋ค. ์คํ๋ ค, ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ ๋์ ์ ์ฅ๋ ๋ฌธ์ฅ์ ํ์ฑํ๊ธฐ ์ํ ๊ท์น์ ๊ฐ์ง๊ณ ์์ต๋๋ค. What Grammaticality Is Not Based On ๋ฌธ๋ฒ์ฑ ์ ์๋ฏธ & ์ง์ค์ฑ์ ๊ธฐ์ด ํ์ง ์๋๋ค. ๐ก example Enormous crickets in pink socks danced at the prom. ๋ฌด๋ํ์์ ๋ถํ์ ์๋ง์ ์ ์ ๊ฑฐ๋ํ ๊ท๋๋ผ๋ฏธ๊ฐ ์ถค์ ์ถ์๋ค. ๊ท๋๋ผ๋ฏธ๊ฐ ์ถค์ ์ถ์๋ค๋๊ฑด → ๋ง์ด ๋์ง ์์. ๋ฌธ๋ฒ์ ๋ง์๋ ๋ง์ด ๋์ง ์๋๋ค. → ๊ทธ๋ ์ง๋ง Di..