๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
2024.01.18
Tokenization - ํ ํฐํํ๊ธฐ 1๋จ๊ณ: ์ฝ๋ฉ ๋
ธํธ๋ถ ์ด๊ธฐํ ํจํค์ง๋ฅผ ์ค์นํด์ค๋๋ค. !pip install ratsnlp ๊ตฌ๊ธ ๋๋ผ์ด๋ธ ์ฐ๋ํ๊ธฐ ํํ ๋ฆฌ์ผ์์ ๊ตฌ์ถํ ์ดํ ์งํฉ์ ์ ์ฅํด ๋ ๊ตฌ๊ธ ๋๋ผ์ด๋ธ๋ฅผ ์ฐ๊ฒฐํฉ๋๋ค. from google.colab import drive drive.mount('/gdrive', force_remount=True) 2๋จ๊ณ: GPT ์
๋ ฅ๊ฐ ๋ง๋ค๊ธฐ GPT ๋ชจ๋ธ ์
๋ ฅ๊ฐ์ ๋ง๋ค๋ ค๋ฉด Byte-level Byte Pair Encoding ์ดํ์งํฉ ๊ตฌ์ถ ๊ฒฐ๊ณผ(`vocab.json`, `merges.txt`)๊ฐ ์์ ์ ๊ตฌ๊ธ ๋๋ผ์ด๋ธ ๊ฒฝ๋ก(`/gdrive/My Drive/nlpbook/wordpiece`)์ ์์ด์ผ ํฉ๋๋ค. ์๋ ์ฝ๋๋ฅผ ์ํํด ์ด๋ฏธ ๋ง๋ค์ด ๋์ BBPE ์ดํ์งํฉ์ ํฌ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
2024.01.18
์ดํ ์งํฉ ๊ตฌ์ถํ๊ธฐ (Vocab) 1๋จ๊ณ: ์ค์ต ํ๊ฒฝ ๋ง๋ค๊ธฐ pip ๋ช
๋ น์ด๋ก ํจํค์ง๋ฅผ ์ค์นํฉ๋๋ค. !pip install ratsnlp 2๋จ๊ณ: ๊ตฌ๊ธ ๋๋ผ์ด๋ธ ์ฐ๋ํ๊ธฐ from google.colab import drive drive.mount('/gdrive', force_remount=True) 3๋จ๊ณ: ๋ง๋ญ์น ๋ค์ด๋ก๋ ๋ฐ ์ ์ฒ๋ฆฌ ์ฝํฌ๋ผ(Korpora)๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฅผ ํ์ฉํด BPE ์ํ ๋์ ๋ง๋ญ์น๋ฅผ ๋ด๋ ค๋ฐ๊ณ ์ ์ฒ๋ฆฌ. ์ค์ต์ฉ ๋ง๋ญ์น๋ ๋ฐ์์ ๋์ด ๊ณต๊ฐํ์ Naver Sentiment Movie Corpus(NSMC)์ ์ฌ์ฉ ๋ฐ์ดํฐ๋ฅผ ๋ด๋ ค๋ฐ์ `nsmc`๋ผ๋ ๋ณ์๋ก ์ฝ์ด๋ค์
๋๋ค. from Korpora import Korpora nsmc = Korpora.load("nsmc", force_download..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
2024.01.16
Tokenization - ํ ํฐํ 1. ํ ํฐํ๋? ๐ก ๋ฌธ์ฅ์ ํ ํฐ ์ํ์ค๋ก ๋๋๋ ๊ณผ์ → ๋ฌธ์, ๋จ์ด, ์๋ธ์๋๋ฑ 3๊ฐ์ง ๋ฐฉ๋ฒ ํ ๊ทผํ๋ฅผ ์ํํ๋ ํ๋ก๊ทธ๋จ์(Tokenizer)๋ผ๊ณ ํ๋ค. ํ ๊ทผํ ๋ฐฉ์์๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์์ → ๋จ์ด(์ด์ ), ๋ฌธ์, ์๋ธ์๋(Subword) ๋จ์ ๋จ์ด ๋จ์ ํ ํฐํ ๊ณต๋ฐฑ์ผ๋ก ๋ถ๋ฆฌ ์ฅ์ : Tokenizer๋ฅผ ์ฌ์ฉํ๋ฉด ์ดํ ์งํฉ์ด ์ปค์ง๋๊ฑฐ ์ํ ๐ก Example ์์ ํ๋ข์ผ๋ก ํ ํฐํ → ๊ทธ๋ ๋ค๊ณ ์์ ํ๋ข ๊ฐ์ Tokenizer ์ฌ์ฉํด์ ์ดํ์งํฉ ํฌ๊ธฐ๊ฐ ์ปค์ง๋๊ฑด ๋ง๊ธฐ ์ด๋ ค์ (์ดํ ์งํฉ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก..) ๋ฌธ์ ๋จ์ ํ ๊ทผํ ๐ก ๋ฌธ์ ๋จ์ → ๋ชจ๋ ๋ฌธ์๋ฅผ ์ดํ ์งํฉ์ ํฌํจํจ์ผ๋ก ๋ฏธ๋ฑ๋ก ํ ํฐ ๋ฌธ์๋ก๋ถํฐ ์์ ๋กญ๋ค. ๋ฏธ๋ฑ๋ก ํ ํฐ: ์ดํ ์งํฉ์ ์๋ ํ ํฐ - ์ ์กฐ์ด๋ฑ ์์ ๋ฐ์ ๋จ์ : ๊ฐ ๋ฌธ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Word Tokenization - Morphemes Word-based tokenization - ์ฌ๋์ด ์ฐ๋ ๋จ์ด์ ์๋ฏธ ํฐ ์ฌ์ ์ด ์์ด์ผ ํ๋ค. ์ฌ์ ์ ์๋ ๋จ์ด๊ฐ ์์ผ๋ฉด ์ฒ๋ฆฌ ๋ถ๊ฐ → ํด๊ฒฐํ๋ ค๋ฉด ์ฌ์ ์ด ์์ฒญ ์ปค์ผํด! ๋ณด์ด์ง ์๋ ๋จ์ด๋ ํฌ๊ทํ ๋จ์ด๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์์ ํด๊ฒฐ์ฑ
→ subword tokenization Subword tokenization ๋ณดํต ๋ง๋ญ์น ์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ์งํฉ, ๋น๋๊ฐ ๋ฎ์ ๋จ์ด๋ ์ดํ๊ฐ ๋ถ์กฑํ ์๋ ๋จ์ด๋ณด๋ค ๋ ์ชผ๊ฐ. ๊ทธ๋ ๋ค๊ณ ๋จ์ด or ๊ธ์๋ ์๋ , ๊ทธ ์ค๊ฐ์์ ์๋ฅธ๋ค. ๋น๋๊ฐ ๋ฎ์๊ฑด ์ต๋ํ ์๋ฅด๊ณ ์ถ์ ์๊ตฌ์ ์ํ์ฌ ๋ง๋ค์ด์ง ๋ณธ์ ์๋ ๋จ์ด, ํํ์ง ์์ ๋จ์ด ๊ธฐ์กด์ NLP๋ ๊ณ ์ ๋ ์ดํ๋ก ์๋ → ๊ทธ ๋ฐ์ ์๋ ๋ชจ๋ ํ ํฐ์ UNK(์์์์)์ผ๋ก ์ถ์ ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
ํ๊ตญ์ด ํํ์ ํ๊ตญ์ด๋ ๊ต์ฐฉ์ด / ์ด๊ทผ์ ์ ์ฌ๊ฐ ๋ถ์ด์ ๋ฌธ๋ฒ์ด ๊ฒฐ์ ์ด๊ทผ ๋จ์ด๋ฅผ ๋ถ์ํ ๋ ์ค์ง์ ์๋ฏธ๋ฅผ ๋ํ๋ด๋ ์ค์ฌ ๋ถ๋ถ ex) ์ด๋ฅธ์ค๋ฝ๋ค-> ์ด๋ฅธ ์ ์ฌ ๋ค๋ฅธ ์ด๊ทผ์ ๋ถ์ด ์๋ก์ด ๋จ์ด๋ฅผ ๊ตฌ์ฑ ์ ๋์ฌ, ์ ๋ฏธ์ฌ ex) ๋งจ์, ์ ์๋ ์กฐ์ฌ ๋ฌธ๋ฒ์ , ๊ด๊ณ์ ๋ป์ ๋ํ๋ด๋ ๋จ์ด ex) ์ฒ ์๊ฐ ๋ฐฅ์ ์ด๋ฏธ ํ์ฉํ์ฌ ๋ณํ๋ ๋ถ๋ถ ์ ์ด๋ง ์ด๋ฏธ, ์ด๋ง ์ด๋ฏธ ex) ๋จน๋ ๋ค, ๋ถ์ํ๊ฒ ์ต๋๋ค. ex) ์ด๋จธ๋๊ฐ ์ฑ
์ ์ฝ์ผ์
จ๊ฒ ๋ค์ ์ด๋จธ๋ ๊ฐ ์ฑ
์ ์ฝ ์ผ์ ์ ๊ฒ ๋ค์ ๋ช ๊ฐ์ ๋ฌธ์ฅ์ ํตํด ํํ์ ๋ถ์์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๋ช[๊ดํ์ฌ] / ๊ฐ[๋ช
์ฌ] / ์[์กฐ์ฌ] / ๋ฌธ์ฅ[๋ช
์ฌ] / ์[ํต[์ด๊ทผ] / ํด[ํ[์ ๋ฏธ์ฌ] / ์ผ[์ฌ๋ง์ด๋ฏธ]]/ ๊ฒ [์ ์ด๋ง์ด๋ฏธ] / ์ต๋๋ค[์ด๋ง์ด๋ฏธ] ํํ[๋ช
์ฌ]/ ์[๋ช
์ฌ] / ๋ถ์[๋ช
์ฌ] / ์[์กฐ์ฌ..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Thematic Roles (์๋ฏธ์ญ) Thematic [ฦ] roles (์๋ฏธ์ญ) : ๋์ฌ์ ์ธ์์ ๋์ฌ๊ฐ ์ค๋ช
ํ๋ ์ํฉ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํํ Agent: the ‘doer’ of the action ์ด๋ค ํ๋์ ‘์คํ์’ Theme: the ‘undergoer’ of the action ํ๋์ ‘๋ฐ๋จ’ Goal: the endpoint of a change in location or possession ์์น & ์์ ๊ถ ๋ณ๊ฒฝ์ ๋ Source: where the action originates ๋์์ด ๋ฐ์ํ๋๊ณณ Instrument: the means used to accomplish an action ์ด๋ค ์๋จ์ ๊ฐ์ง๊ณ ์์ฑํ๊ฑฐ - key ๊ฐ์ ๊ฐ๋
์ด๋ค ํ๋์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ์๋จ Experience..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Lexical Semantics: Reference & Sense Referent (์ง์ ๋์): ๋จ์ด๋ก ์ง์ ๋ ์ค์ ์ฌ๋ฌผํ ๋จ์ด๊ฐ ์ด๋ค ๊ฐ๋ฆฌํค๋ ๋์์ด ์๋ ๊ฒ. ๐ก Example Jack, the happy swimmer, my friend, and that guy can all have the same referent in the sentence Jack swims. -> Jack = the happy swimmer = my friend = that guy ๊ฐ๋จํด ๋ณด์ด์ง๋ง, ๋๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋๊ฑธ ์ง์นญํ๋ ๊ฑด ์ฝ์ง๊ฐ ์๋ค. ์๋ฏธ๋ฅผ ํ์
ํด์ผ ์ฐพ์ ์ ์๋ค. - ์ง์ ๋์์ด ๊ฐ์๋ ์๋ฏธ๊ฐ ๋ค๋ฅด๋ฉด ๊ฐ๋ค๊ณ ํ ์ ์๋ค. ๐ก Example Superman, born Kal-El and legally n..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2024.01.16
Semantics (& Pragmatics) Semantics (& Pragmatics) - The meaning of language When Compositionality Goes Awry: Anomaly Sentential Semantics (๋ฌธ์ฅ ์๋ฏธ๋ก ) ํ์๊ฐ ๋ฌธ์ฅ ์๋ฏธ์ ๋ํด ์๋ ๊ฒ ๐ก Example Truth Entailment and Related Notions Ambiguity Compositional Semantics (๊ตฌ์ฑ ์๋ฏธ๋ก ) When Compositionality Goes Awry ๐ก Example Anomaly Metaphor Idioms Lexical Semantics (Word Meanings) - ์ดํ ์๋ฏธ๋ก (๋จ์ด ์๋ฏธ) ๐ก Example Theories of Wor..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐ Natural Language Processing
2024.01.16
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ ๐ก ๋ชจ๋ธ(Model): ์
๋ ฅ์ ๋ฐ์ ์ด๋ค ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ ํจ์, ์์ฐ์ด์ฒ๋ฆฌ์์์ input์ ์์ฐ์ด ๐ก ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ๋ฅ ์ด๋ผ๋ ์ ์ ์ฃผ๋ชฉ์ ํด์ผํ๋ค. ์์ฐ์ด์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ถ๋ ฅ๋ ํ๋ฅ → ๊ทธ๋ฌ๋, ๋ชจ๋ธ์ ์ถ๋ ฅ ํํ๋ ํ๋ฅ , ์ฌ๋์ด ์ํ๋๊ฑด ์์ฐ์ด ํํ. ๊ทธ๋ฌ๋ฉด ์ถ๋ ฅ๋ ํ๋ฅ ์ ํ์ฒ๋ฆฌ ํด์ ์์ฐ์ด ํํ๋ก ๋ณํ์ ํด์ผํ๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ ๋ฐ์ดํฐ์ ‘๊ฐ์ฑ’ ์ด๋ผ๋ ๋ ์ด๋ธ์ ๋ฌ์ ๋์ ๋ฐ์ดํฐ๊ฐ ์์ด์ผ ํ๋ค. → ์ด๊ฑธ ํ์ต ๋ฐ์ดํฐ ๋ผ๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ํจํด์ ์ค์ค๋ก ์ตํ๊ฒ ํ๋ ๊ณผ์ → ํ์ต(train) Transfer Learning ๐ก ํธ๋์คํผ ๋ฌ๋: ํน์ Task๋ฅผ ํ์ตํ ๋ชจ๋ธ์ ๋ค๋ฅธ ํ
์คํฌ ์ํ์ ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ ๊ฐ๋ฆฌํด ํธ๋์คํผ ์ ์ฉ์ ๊ธฐ์กด๋ณด๋ค ๋ชจ๋ธ์ ํ์ต ์..
๐ NLP (์์ฐ์ด์ฒ๋ฆฌ)/๐จ๏ธ Linguistic Engineering
2023.07.26
Syntactic analysis in NLP Parsing - PP & NP์ ๋ฐ๋ณต.. Counsituency Parsing์ ๋จ์ ์ ๋ณด์ํ ๊ฒ์ด Dependency Parsing Counsituency Parsing Structure Tree Dependenxy Parsing Structure Tree Dependent Grammer head๊ฐ dependent ์ผ ๋ ๋ ์๊ณ ์๋ก ๋ฐ๋์ผ ์๋ ์๋ค. ์ข
์์ฑ์ ๊ธฐ๋ฐ Dependency Structure๋ Word(head)์ ๊ทธ๊ฒ์ Dependent๊ณผ์ ๊ด๊ณ์ ์ํด ๊ฒฐ์ ๋๋ค. ์๋ฏธ์ ์ผ๋ก ๊ด๊ณ๊ฐ ์๋๊ฒ ๋ค๋ง ์ฐ๊ฒฐ๋๋ค. - ์๋ฏธ์ ์ผ๋ก๋ง ์ฐ๊ฒฐ๋๋ฉด ๋ฌถ์์ ์์ผ๋ฏ๋ก ๋น๊ต์ ์์ ๋ก์ด๊ฒ์ด ํน์ง ์์ ์ด์(Free word order)์ ์ธ์ด ๋ถ์์ ๋งค์ฐ ์ ํฉ P..