Pre-Trained Language Model - 미리 학습된 언어모델 💡 언어 모델(Language Model) → 단어 시퀀스에 부여하는 모델 (단어 시퀀스를 입력받아 해당 시퀀스가 얼마나 그럴듯한지 확률을 출력으로 하는 모델) 문장에서 i번째로 등장하는 단어를 𝑤n 이렇게 표기하면 n번째로 등장하는 언어모델에 등장할 확률 (수식 1) ex) 난폭이라는 단어 등장후에 운전이라는 단어가 나타날 확률? → 조건부 확률 이라고 한다. 조건부 확률 표기시 결과가 되는 사건(운전)을 앞에, 조건이 되는 사건(난폭)은 뒤에 쓴다 조건이 되는 사건이 우변 분자의 일부, 그리고 우변 분모를 구성하고 있음을 볼 수 있음 = 이는 결과가 되는 사건(운전)은 조건이 되는 사건(난폭)의 영향을 받아 변한다는 개념을 내포..
Tokenization - 토큰화하기 1단계: 코랩 노트북 초기화 패키지를 설치해줍니다. !pip install ratsnlp 구글 드라이브 연동하기 튜토리얼에서 구축한 어휘 집합을 저장해 둔 구글 드라이브를 연결합니다. from google.colab import drive drive.mount('/gdrive', force_remount=True) 2단계: GPT 입력값 만들기 GPT 모델 입력값을 만들려면 Byte-level Byte Pair Encoding 어휘집합 구축 결과(`vocab.json`, `merges.txt`)가 자신의 구글 드라이브 경로(`/gdrive/My Drive/nlpbook/wordpiece`)에 있어야 합니다. 아래 코드를 수행해 이미 만들어 놓은 BBPE 어휘집합을 포..
Semantics (& Pragmatics) Semantics (& Pragmatics) - The meaning of language When Compositionality Goes Awry: Anomaly Sentential Semantics (문장 의미론) 화자가 문장 의미에 대해 아는 것 💡 Example Truth Entailment and Related Notions Ambiguity Compositional Semantics (구성 의미론) When Compositionality Goes Awry 💡 Example Anomaly Metaphor Idioms Lexical Semantics (Word Meanings) - 어휘 의미론 (단어 의미) 💡 Example Theories of Wor..
Syntactic analysis in NLP Parsing - PP & NP의 반복.. Counsituency Parsing의 단점을 보완한 것이 Dependency Parsing Counsituency Parsing Structure Tree Dependenxy Parsing Structure Tree Dependent Grammer head가 dependent 일 때 도 있고 서로 반대일 수도 있다. 종속성에 기반 Dependency Structure는 Word(head)와 그것의 Dependent과의 관계에 의해 결정된다. 의미적으로 관계가 있는것 들만 연결된다. - 의미적으로만 연결되면 묶을수 있으므로 비교적 자유로운것이 특징 자유 어순(Free word order)의 언어 분석에 매우 적합 P..
Sentence Sentence Structure “The child found the puppy” 문장은 다음과 같은 템플릿을 기반으로 한다고 말할 수 있다. Det—N—V—Det—N 이것은 문장이 내부 구조가 없는 단어의 문자열에 불과하다는 것을 의미 문장은 한층 짜리 뚜렷한 구조로 이루어져 있지 않고, 계층적 구조 로 이루어져 있다. 이 문장은 실제로 여러 그룹으로 나눌 수 있다 어떻게 결합하는 지에 따라 말의 의미가 달라진다. 💡 example [the child] [found a puppy] [the child] [found [a puppy]] [[the] [child]] [[found] [[a] [puppy]] 트리 다이어그램은 문장의 계층 구조를 보여주는 데 사용된다. Syntactic Ca..
Syntax - 문장의 pattern 연구 (문법) Syntax 모든 인간 언어를 구사하는 사람은 무한한 수의 가능한 문장을 생산하고 이해할 수 있다. 하지만, 우리는 가능한 모든 문장들에 대한 mental dictionary을 가질 수 없다. 오히려, 우리는 우리의 뇌에 저장된 문장을 형성하기 위한 규칙을 가지고 있습니다. What Grammaticality Is Not Based On 문법성 은 의미 & 진실성에 기초 하지 않는다. 💡 example Enormous crickets in pink socks danced at the prom. 무도회에서 분홍색 양말을 신은 거대한 귀뚜라미가 춤을 추었다. 귀뚜라미가 춤을 추었다는건 → 말이 되지 않음. 문법은 맞아도 말이 되지 않는다. → 그렇지만 Di..
The Words of Language 단어는 언어적 지식의 중요한 부분 & 문법의 구성 요소를 구성 우리가 아는 모든 단어는 mental dictionary를 가지고 있다. Pronunciation (발음) Meaning (의미) Orthography (Spelling) - 맞춤법 Grammatial Category (문법 범주) Morphology (형태소) 형태소 라고 하는 작은 단위로 본다. 유한한 데이터에서 만들어 내지만 유한한 규칙이 있다. example) 나는 학교에 간다, 하늘을 나는 새 실제로 Morphological Persing하면 똑같은 나는 이지만 나 → 대명사, 조사 생각만 난다. Normalization (표준화) 문장을 나누려면 문장부호 가 있어야 한다, 부호 없어도 나눠야 ..
1. 언어공학개론 서론 1) 문맥의 중요성 한국어는 한국어의 특징, 영어는 영어의 특징이 있다. 한국어를 영어로 해석한다고 해서 1:1로 대응하여 단어 하나하나를 해석하지는 않을 것이다. 문맥의 중요성 상황이 달라지면 T, F가 달라질 수 있듯이 어떠한 명제도 참이라고 하기엔 어려우나 보통 그런 명제들은 ‘이시대 모든 사람들이 생각하는 공통점’과 같은 맥락에서 생각해야한다. 생각해야할 사항 인간이 이해하기엔 당연하고 쉬운 일이지만, 인간이 언어를 이해할 때 자연스럽고 당연하다고 느끼는 것이 컴퓨터에겐 어렵다. 딥러닝에 적용하기엔 어려운 인간의 규칙이, 딥러닝을 활용함으로써 오히려 더 쉽게 활용할 수 있기도 하다. 우리가 어떻게 언어를 이해하는지? (컴퓨터와 다른 점) 컴퓨터가 인간의 언어를 이해하는 방향..