Ai

📝 NLP (자연어처리)/🗨️ Linguistic Engineering

[Words] Word Tokenization - Morphemes (형태소)

Word Tokenization - Morphemes Word-based tokenization - 사람이 쓰는 단어의 의미 큰 사전이 있어야 한다. 사전에 없는 단어가 있으면 처리 불가 → 해결하려면 사전이 엄청 커야해! 보이지 않는 단어나 희귀한 단어를 잘 처리할 수 없음 해결책 → subword tokenization Subword tokenization 보통 말뭉치 에 자주 등장하는 단어들의 집합, 빈도가 낮은 단어는 어휘가 부족할 수도 단어보다 더 쪼개. 그렇다고 단어 or 글자도 아님 , 그 중간에서 자른다. 빈도가 낮은건 최대한 자르고 싶은 욕구에 의하여 만들어짐 본적 없는 단어, 흔하지 않은 단어 기존의 NLP는 고정된 어휘로 작동 → 그 밖에 있는 모든 토큰은 UNK(알수없음)으로 축소 ..

📝 NLP (자연어처리)/🗨️ Linguistic Engineering

[Words] 한국어 형태소 & Other Morphological Processes

한국어 형태소 한국어는 교착어 / 어근에 접사가 붙어서 문법이 결정 어근 단어를 분석할 때 실질적 의미를 나타내는 중심 부분 ex) 어른스럽다-> 어른 접사 다른 어근에 붙어 새로운 단어를 구성 접두사, 접미사 ex) 맨손, 선생님 조사 문법적, 관계적 뜻을 나타내는 단어 ex) 철수가 밥을 어미 활용하여 변하는 부분 선어말 어미, 어말 어미 ex) 먹는 다, 분석하겠 습니다. ex) 어머니가 책을 읽으셨겠네요 어머니 가 책 을 읽 으시 었 겠 네요 몇 개의 문장을 통해 형태소 분석을 해 보겠습니다. 몇[관형사] / 개[명사] / 의[조사] / 문장[명사] / 을[통[어근] / 해[하[접미사] / 야[여말어미]]/ 겠[선어말어미] / 습니다[어말어미] 형태[명사]/ 소[명사] / 분석[명사] / 을[조사..

📝 NLP (자연어처리)/🗨️ Linguistic Engineering

[Semantics & Pragmatics] Thematic Roles - 의미역

Thematic Roles (의미역) Thematic [Ɵ] roles (의미역) : 동사의 인수와 동사가 설명하는 상황 사이의 관계를 표현 Agent: the ‘doer’ of the action 어떤 행동의 ‘실행자’ Theme: the ‘undergoer’ of the action 행동의 ‘발단’ Goal: the endpoint of a change in location or possession 위치 & 소유권 변경의 끝 Source: where the action originates 동작이 발생하는곳 Instrument: the means used to accomplish an action 어떤 수단을 가지고 완성한거 - key 같은 개념 어떤 행동을 하기 위해 사용되는 수단 Experience..

📝 NLP (자연어처리)/🗨️ Linguistic Engineering

[Semantics & Pragmatics] Lexical Semantics - 어휘 의미론

Lexical Semantics: Reference & Sense Referent (지시 대상): 단어로 지정된 실제 사물한 단어가 어떤 가리키는 대상이 있는 것. 💡 Example Jack, the happy swimmer, my friend, and that guy can all have the same referent in the sentence Jack swims. -> Jack = the happy swimmer = my friend = that guy 간단해 보이지만, 똑같은 의미를 가지고 있는걸 지칭하는 건 쉽지가 않다. 의미를 파악해야 찾을 수 있다. - 지시 대상이 같아도 의미가 다르면 같다고 할 수 없다. 💡 Example Superman, born Kal-El and legally n..

📝 NLP (자연어처리)/🗨️ Linguistic Engineering

[Semantics & Pragmatics] The meaning of language - 의미론, 어용론

Semantics (& Pragmatics) Semantics (& Pragmatics) - The meaning of language When Compositionality Goes Awry: Anomaly Sentential Semantics (문장 의미론) 화자가 문장 의미에 대해 아는 것 💡 Example Truth Entailment and Related Notions Ambiguity Compositional Semantics (구성 의미론) When Compositionality Goes Awry 💡 Example Anomaly Metaphor Idioms Lexical Semantics (Word Meanings) - 어휘 의미론 (단어 의미) 💡 Example Theories of Wor..

📝 NLP (자연어처리)/📕 Natural Language Processing

[NLP] 처음 만나는 자연어 처리 & Transfer Learning

딥러닝 기반 자연어 처리 모델 💡 모델(Model): 입력을 받아 어떤 처리를 수행하는 함수, 자연어처리에서의 input은 자연어 💡 모델의 출력은 확률이라는 점에 주목을 해야한다. 자연어처리 모델의 출력도 확률 → 그러나, 모델의 출력 형태는 확률, 사람이 원하는건 자연어 형태. 그러면 출력된 확률을 후처리 해서 자연어 형태로 변환을 해야한다. 딥러닝 모델에서는 데이터에 ‘감성’ 이라는 레이블을 달아 놓은 데이터가 있어야 한다. → 이걸 학습 데이터 라고 한다. 그리고 모델이 데이터의 패턴을 스스로 익히게 하는 과정 → 학습(train) Transfer Learning 💡 트랜스퍼 러닝: 특정 Task를 학습한 모델을 다른 테스크 수행에 재사용하는 기법을 가리킴 트랜스퍼 적용시 기존보다 모델의 학습 속..

📈 Data Engineering/🕹️ 혼공머신

[혼공머신] Decision Tree (결정 트리)

Logistic Regression (로지스틱 회귀) 로 와인 분류하기와인을 분류 하기 위해서 일단 데이터셋을 불러오겠습니다.import pandas as pdwine = pd.read_csv('https://bit.ly/wine_csv_data')wine.head()이렇게 데이터셋을 Pandas DataFrame으로 잘 불러 왔는지 head() Method로 한번 불러왔습니다.처음 3개의 열(alcohol, suger, pH)는 알코올 도수, 당도, pH(산도)를 나타냅니다.class는 타깃값이 0이면 레드와인, 1이면 화이트 와인 이라고 합니다.이건 레드 & 화이트 와인을 구분하는 Binary Classification(이진 분류)문제 인거 같습니다. 즉, 전체 와인의 데이터에서 화이트 와인을 골라내..

📈 Data Engineering/🕹️ 혼공머신

[혼공머신] Stochastic Gradient Descent (확률적 경사 하강법)

확률적 경사 하강법확률적 경사 하강법(Stochastic Gradient Descent)은 점진적 학습 알고리즘 중 하나입니다. 그 전에 점진적 학습 알고리즘에 대하여 설명을 드리면, 이전에 훈련한 모델을 버리고 새로운 모델을 훈련하는 것이 아닌, 기존의 훈련한 모델은 그대로 두고, 새로운 데이터에 데한 훈련을 기존의 모델을 이용하여 학습 하는 알고리즘 입니다.그래서 본론으로 돌아오면, 확률적 경사 하강법에서 확률적이란 말은 '무작위하게' 혹은 '랜덤하게' 의 기술적인 표현입니다.그리고 경사는, 기울기를 의미합니다. 즉, 그러면 확률적 경사 하강법은 경사를 따라 내려가는 방법입니다.경사하강법의 특징은 가장 가파른 경사를 따라 원하는 지점에 도달하는것을 목표로 삼고있습니다. 다만, 가파른 경사를 내려갈때에..

📈 Data Engineering/🕹️ 혼공머신

[혼공머신] Logistic Regression (로지스틱 회귀)

로지스틱 회귀럭키백의 확률K-최근접 이웃 알고리즘은 주변 이웃을 찾아주니까 이웃의 클래스 비율을 확률이라고 출력하면 될수 있다고 생각합니다.보면 샘플 X 주위에 가장 가까운 이웃 샘플 10개를 표시했습니다. 삼각형이 5개, 사각형이 3개, 원 2개가 있습니다.이웃한 샘플의 클래스를 확률로 삼는다면 샘플 X가 사각형이 확률은 30%, 삼각형일 확률은 50%, 원인 확률은 20%입니다.Scikit-learn의 K-최근접 이웃 분류기도 이와 동일한 방식으로 Class 확률을 계산하여 제공합니다. 한번 데이터를 불러와서 해보겠습니다.데이터 준비import pandas as pdfish = pd.read_csv('https://bit.ly/fish_csv_data')fish.head()# Species(7개의 생..

📈 Data Engineering/🕹️ 혼공머신

[ML] 특성 공학과 규제

다중 회귀(Characteristic Engineering and Regulation)다중 회귀여러개의 특성을 사용한 선형 회귀(Linear Regression)를 다중 회귀(Multiple Regression)이라고 부릅니다.1개의 특성을 사용했을때, 선형 회귀 모델이 학습 하는것은 직선입니다. 2개의 특성을 사용하면 선형 회귀는 평면을 학습합니다.왼쪽 그림이 1개의 특성을 사용한 선형 회귀 모델이 학습 하는 모델, 오른쪽 그림이 2개의 특성을 사용한 선형 회귀 모델입니다.오른쪽 그림처럼 특성이 2개면 Target값과 함께 3차원 공간을 형성하고 선형 회귀 방정식은 평면이 됩니다.Target = a x 특성1 + b x 특성2 + 절편그러면 특성이 3개일 경우에는? 우리는 3차원 공간을 그리거나 상상할..

Bigbread1129
'Ai' 태그의 글 목록 (7 Page)