1..sequence-to-sequence 💡 트랜스포머(Transformer) 모델은 기계 번역(machine translation) 등 시퀀스-투-시퀀스(sequence-to-sequence) 과제를 수행하기 위한 모델입니다. sequence: 단어 같은 무언가의 나열을 의미합니다. 그러면 여기서 sequence-to-sequence는 특정 속성을 지닌 시퀀스를 다른 속성의 시퀀스로 변환하는 작업(Task) 입니다. 그리고 sequence-to-sequence는 RNN에서 many-to-many 모델을 사용하고 있는데, RNN은.. 추후에 설명하도록 하겠습니다. 💡 example 기계 번역: 어떤 언어(소스 언어, source language)의 단어 시퀀스를 다른 언어(대상 언어, target la..
Pre-Trained Language Model - 미리 학습된 언어모델 💡 언어 모델(Language Model) → 단어 시퀀스에 부여하는 모델 (단어 시퀀스를 입력받아 해당 시퀀스가 얼마나 그럴듯한지 확률을 출력으로 하는 모델) 문장에서 i번째로 등장하는 단어를 𝑤n 이렇게 표기하면 n번째로 등장하는 언어모델에 등장할 확률 (수식 1) ex) 난폭이라는 단어 등장후에 운전이라는 단어가 나타날 확률? → 조건부 확률 이라고 한다. 조건부 확률 표기시 결과가 되는 사건(운전)을 앞에, 조건이 되는 사건(난폭)은 뒤에 쓴다 조건이 되는 사건이 우변 분자의 일부, 그리고 우변 분모를 구성하고 있음을 볼 수 있음 = 이는 결과가 되는 사건(운전)은 조건이 되는 사건(난폭)의 영향을 받아 변한다는 개념을 내포..
Tokenization - 토큰화하기 1단계: 코랩 노트북 초기화 패키지를 설치해줍니다. !pip install ratsnlp 구글 드라이브 연동하기 튜토리얼에서 구축한 어휘 집합을 저장해 둔 구글 드라이브를 연결합니다. from google.colab import drive drive.mount('/gdrive', force_remount=True) 2단계: GPT 입력값 만들기 GPT 모델 입력값을 만들려면 Byte-level Byte Pair Encoding 어휘집합 구축 결과(`vocab.json`, `merges.txt`)가 자신의 구글 드라이브 경로(`/gdrive/My Drive/nlpbook/wordpiece`)에 있어야 합니다. 아래 코드를 수행해 이미 만들어 놓은 BBPE 어휘집합을 포..
어휘 집합 구축하기 (Vocab) 1단계: 실습 환경 만들기 pip 명령어로 패키지를 설치합니다. !pip install ratsnlp 2단계: 구글 드라이브 연동하기 from google.colab import drive drive.mount('/gdrive', force_remount=True) 3단계: 말뭉치 다운로드 및 전처리 코포라(Korpora)라이브러리 를 활용해 BPE 수행 대상 말뭉치를 내려받고 전처리. 실습용 말뭉치는 박은정 님이 공개하신 Naver Sentiment Movie Corpus(NSMC)을 사용 데이터를 내려받아 `nsmc`라는 변수로 읽어들입니다. from Korpora import Korpora nsmc = Korpora.load("nsmc", force_download..
Tokenization - 토큰화 1. 토큰화란? 💡 문장을 토큰 시퀀스로 나누는 과정 → 문자, 단어, 서브워드등 3가지 방법 토근화를 수행하는 프로그램을(Tokenizer)라고 한다. 토근화 방식에는 여러가지가 있음 → 단어(어절), 문자, 서브워드(Subword) 단위 단어 단위 토큰화 공백으로 분리 장점: Tokenizer를 사용하면 어휘 집합이 커지는거 완화 💡 Example 은전한닢으로 토큰화 → 그렇다고 은전한닢 같은 Tokenizer 사용해요 어휘집합 크기가 커지는건 막기 어려움 (어휘 집합 크기가 커질수록..) 문자 단위 토근화 💡 문자 단위 → 모든 문자를 어휘 집합에 포함함으로 미등록 토큰 문자로부터 자유롭다. 미등록 토큰: 어휘 집합에 없는 토큰 - 신조어등 에서 발생 단점: 각 문..
Word Tokenization - Morphemes Word-based tokenization - 사람이 쓰는 단어의 의미 큰 사전이 있어야 한다. 사전에 없는 단어가 있으면 처리 불가 → 해결하려면 사전이 엄청 커야해! 보이지 않는 단어나 희귀한 단어를 잘 처리할 수 없음 해결책 → subword tokenization Subword tokenization 보통 말뭉치 에 자주 등장하는 단어들의 집합, 빈도가 낮은 단어는 어휘가 부족할 수도 단어보다 더 쪼개. 그렇다고 단어 or 글자도 아님 , 그 중간에서 자른다. 빈도가 낮은건 최대한 자르고 싶은 욕구에 의하여 만들어짐 본적 없는 단어, 흔하지 않은 단어 기존의 NLP는 고정된 어휘로 작동 → 그 밖에 있는 모든 토큰은 UNK(알수없음)으로 축소 ..
한국어 형태소 한국어는 교착어 / 어근에 접사가 붙어서 문법이 결정 어근 단어를 분석할 때 실질적 의미를 나타내는 중심 부분 ex) 어른스럽다-> 어른 접사 다른 어근에 붙어 새로운 단어를 구성 접두사, 접미사 ex) 맨손, 선생님 조사 문법적, 관계적 뜻을 나타내는 단어 ex) 철수가 밥을 어미 활용하여 변하는 부분 선어말 어미, 어말 어미 ex) 먹는 다, 분석하겠 습니다. ex) 어머니가 책을 읽으셨겠네요 어머니 가 책 을 읽 으시 었 겠 네요 몇 개의 문장을 통해 형태소 분석을 해 보겠습니다. 몇[관형사] / 개[명사] / 의[조사] / 문장[명사] / 을[통[어근] / 해[하[접미사] / 야[여말어미]]/ 겠[선어말어미] / 습니다[어말어미] 형태[명사]/ 소[명사] / 분석[명사] / 을[조사..
Thematic Roles (의미역) Thematic [Ɵ] roles (의미역) : 동사의 인수와 동사가 설명하는 상황 사이의 관계를 표현 Agent: the ‘doer’ of the action 어떤 행동의 ‘실행자’ Theme: the ‘undergoer’ of the action 행동의 ‘발단’ Goal: the endpoint of a change in location or possession 위치 & 소유권 변경의 끝 Source: where the action originates 동작이 발생하는곳 Instrument: the means used to accomplish an action 어떤 수단을 가지고 완성한거 - key 같은 개념 어떤 행동을 하기 위해 사용되는 수단 Experience..
Lexical Semantics: Reference & Sense Referent (지시 대상): 단어로 지정된 실제 사물한 단어가 어떤 가리키는 대상이 있는 것. 💡 Example Jack, the happy swimmer, my friend, and that guy can all have the same referent in the sentence Jack swims. -> Jack = the happy swimmer = my friend = that guy 간단해 보이지만, 똑같은 의미를 가지고 있는걸 지칭하는 건 쉽지가 않다. 의미를 파악해야 찾을 수 있다. - 지시 대상이 같아도 의미가 다르면 같다고 할 수 없다. 💡 Example Superman, born Kal-El and legally n..
Semantics (& Pragmatics) Semantics (& Pragmatics) - The meaning of language When Compositionality Goes Awry: Anomaly Sentential Semantics (문장 의미론) 화자가 문장 의미에 대해 아는 것 💡 Example Truth Entailment and Related Notions Ambiguity Compositional Semantics (구성 의미론) When Compositionality Goes Awry 💡 Example Anomaly Metaphor Idioms Lexical Semantics (Word Meanings) - 어휘 의미론 (단어 의미) 💡 Example Theories of Wor..