My Dev & Engineering Repository

1. Word Embedding?

Word Embedding, 워드임베딩 이란? 텍스트 데이터를 수치형 벡터로 변환하는 방법입니다.

다른 의미로 말하면 Text내의 단어들을 컴퓨터가 이해할 수 있는 Vector의 형태로 변환하는것을 말합니다. 즉, 단어를 고차원 공간의 저차원 벡터로 변환하는 방법입니다.
Word Embedding 과정을 거친 Vector는 단어의 의미(mean), 문맥(context), 유사성(similar) 등을 수치화 해서 표현할 수 있습니다.
워드 임베딩의 과정은 크게 보면 2가지의 방법으로 이루어집니다.

2. Word Embedding의 방법

Word Embedding의 방법은 크게 보면 2가지의 방법으로 이루어 진다고 했습니다.
하나는 Count기반 방법, 다른 하나는 예측 기반의 방법입니다. 우선 카운트 기반의 방법부터 설명해 보겠습니다.

2-1. Count기반 방법

Count기반 방법은 단어(Word)의 문맥(Context) 정보를 기반으로 하여, 단어를 Vector로 표현합니다.

특정 단어의 주변 단어들의 빈도를 카운트해서 Vector를 생성하는 방식입니다.
대표적으로 TF-IDF, Co-occurence Matrix등이 있습니다.

TF-IDF (Tern Frequency-Inverse Document Frequency)

TF-IDF는 Text Data에서 단어의 중요성을 평가(Weight(가중치)를 계산)하는 통계적 방법입니다. 보통 문서 내에서 특정 단어가 얼마나 중요한지를 나타낼때 사용합니다.

TF-IDF는 두 부분으로 나누어져서 계산됩니다. TF, IDF 2개로 나뉘어져 있습니다.
'TF'는 문서 내에서 특정 단어가 나타나는 빈도수(등장 횟수)를 말합니다.
일반적인 'TF'는 단어 등장 횟수를 그대로 사용하거나, Normalization(정규화)하여 상대적인 빈도로 나타낼 수 있습니다.
TF(t, d) 계산: 특정 단어 t가 문서 d 내에 등장하는 횟수를 문서 d의 전체 단어 수로 나눕니다.

'IDF'는 전체 문서 집합에서 특정 단어가 들어있는 문서들의 비율에 기반한 수치입니다.
쉽게 말하면 전체 문서 집합에서 특정단어가 얼마나 희귀한지를 나타냅니다.
여기서 흔하게 나타나는 단어는 Weight(가중치)가 적고, 희귀하게 나타나는 단어는 Weight(가중치)가 큽니다.
IDF(t, D) 계산, 로그 스케일을 사용하여 전체 문서의 수를 특정 단어 t가 포함된 문서의 수로 나눕니다.

TF-IDF(t, d, D) 계산: TF와 IDF를 곱하여 얻습니다.
TF-IDF(t, d, D) = TF(t, d) * IDF(t, D)

TF-IDF에서 중요하게 봐야 하는건 TF-IDF값이 클수록 어떤 단어가 해당 문서에 더 중요하다는것을 고려합니다.
그래서 특성 문서에서 나주 나타나는 단어에는 높은 Weight(가중치)가 부여되지만, 전체 문서 집합에서 자주 나타나는 단어는 낮은 가중치를 갖게 됩니다.
그리고 TF-IDF는 정보 검색을 하면서 그 문서의 관련성을 판단하는 경우에 사용되기도 합니다.

Example Code - TF-IDF

Python의 sklearn 라이브러리를 활용해서 TF-IDF를 계산하는 코드를 한번 보겠습니다.
이 코도는 문서 list를 input으로 받아서 각 문서의 TF-IDF Vector를 출력합니다.
이 코드는 한국어 Text에 대한 TF-IDF 계산을 하기 위하여 불용어 제거, 토큰화, 어간 추출등의 전처리 과정 및 한국어 Text 처리를 하기 위해서 KoNLPy 라이브러리와 Okt 형태소 분석기를 포함하였습니다.

from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Okt
import re

# 예시 문서 리스트
documents = [
    '이것은 첫 번째 문서입니다.', # 여기에 document 파일을 넣으면 됩니다.
    '이것은 두 번째 문서입니다.', # 여기에 document 파일을 넣으면 됩니다.
    '이것은 세 번째 문서입니다.', # 여기에 document 파일을 넣으면 됩니다.
]

# 한국어 불용어 리스트 - 불용어 리스트는 예시로 넣어놓았습니다. 사용자가 추가해서 사용할 수 있습니다.
stopwords = ['이것', '입니다', '문서', '번째']

# Okt 형태소 분석기 인스턴스 생성
okt = Okt()

# 문서 전처리 함수
def preprocessing(document):
    # 특수 문자 제거
    document = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z]', ' ', document)
    # 형태소 분석기를 이용하여 토큰화 및 어간 추출
    tokens = okt.morphs(document, stem=True)
    # 불용어 제거
    tokens = [token for token in tokens if token not in stopwords]
    return tokens

# TF-IDF 벡터라이저 생성
vectorizer = TfidfVectorizer(tokenizer=preprocessing)

# 문서를 이용하여 벡터라이저를 학습시키고 TF-IDF 벡터 생성
tfidf_matrix = vectorizer.fit_transform(documents)

# 각 단어의 idf값 출력
print('단어별 idf 값: ', dict(zip(vectorizer.get_feature_names(), vectorizer.idf_)))

# TF-IDF 벡터 출력
print('TF-IDF 벡터: ', tfidf_matrix.toarray())

단어 동시 출현 행렬 (Co-occurence Matrix)

단어 동시 출현 행렬 (Co-occurence Matrix)은 단어간에 관계를 파악하는데 사용되는 표현 방법중 하나입니다.

이 행렬은 주어진 문서 or 말뭉치(Corpus)에서 단어 쌍이 함께 등장한 횟수를 나타내는 행렬입니다.
여기서 "동시출현" 이라는 말은, 두 단어가 주어진 맥략(Context)에서 함께 나타나는 것을 의미합니다.
한번 예를 들어서 보면, "무기" 이랑 "전쟁"이라는 단어가 많이 나타난다면, 이 두 단어간에는 의미적인 관계가 있을수도 있습니다. 그러면 한번 단어 동시 출현 행렬 (Co-occurence Matrix)를 만들려면 이러한 단계로 진행됩니다.

Corpus(말뭉치, 단어집합) 구축: 분석하고자 하는 대상 문서들로 이루어진 Corpus를 구축합니다.
Window 구축: 문서를 Token화후, 단어의 Window를 정의합니다. Window는 단어간의 관계를 정의하는데 사용되며, 주변 단어를 몇개까지 포함시킬지를 결정합니다. 자세한 내용은 Word2Vec에 관련해서 쓴 글을 참고해주세요.
단어 동시 출현 행렬 (Co-occurence Matrix): 각 Window에서 등장한 단어쌍의 빈도를 행렬에 기록합니다. 행렬의 행 & 열은 단어를 의미하며, 각 셀은 해당 단어들의 동시 출현 횟수를 나타냅니다.

"무기" 랑 "전쟁"이라는 단어가 주어진 Window에서 등장하면, 해당 행렬의 "무기" 랑 "전쟁"열에 해당하는 셀의 값을 증가시키는 방식으로 진행됩니다.
단어 동시 출현 행렬 (Co-occurence Matrix)는 대칭성을 가지며, 행렬의 각 원소는 해당 단어 쌍의 동시 출현 빈도를 나타냅니다.
- 그리고, 이 행렬은 주로 잠재 의미 분석(Latent Semantic Analysis, LSA) 에 활용되어서 단어간의 의미적 유사성을 파악하는데 사용됩니다.

2-2. 예측 기반 방법

예측 기반 방법은 특정 단어를 예측하는 방식으로 단어를 Vector를 표현합니다.

주어진 Context(문맥) 에서 특정 단어를 예측하거나, 특정 단어를 가지고 주변 Context(문맥)을 예측하는 방식입니다.
대표적으로 Word2Vec, Glove, FastText가 있습니다. Word2Vec에 대해서는 자세하게 설명한 글이 있으니 이번에는 패스하고 Glove, FastText 두 방법에 데하여 설명하겠습니다.

[NLP] Word2Vec - 개념 & Model

1. What is Word2Vec? Word2Vec은 단어를 벡터로 변환하는데 사용되는 인기있는 알고리즘 입니다. 여기서 단어는 보통 'Token' 토큰 입니다. 이 알고리즘은 단어(Token)들 사이의 의미적 관계를 Vector 공간에

daehyun-bigbread.tistory.com

Glove (Global Vectors for Word Representation)

Glove는 Word Embedding을 학습 하는데 사용되는 알고리즘중 하나입니다.

Glove는 Count 기반, 예측 기반을 사용하는 알고리즘 입니다.
그리고 단어 간의 전역적인 의미 관계를 포착하기 위해 설계된 알고리즘이며, Word2Vec과 다른 임베딩 기법과는 다른 방식으로 작동합니다.
Glove는 전체 Corpus(말뭉치)의 통계 정보를 기반으로 해서 단어를 Vector로 표현합니다.
주요 특징은 단어 동시 출현 행렬 (Co-occurence Matrix)를 활용해서 단어간의 관계를 Modeling합니다.
- 이 Modeling한 행렬은 전체 Corpus(말뭉치)에서 단어가 함께 등장한 빈도를 나타냅니다.
비선형 관계 Modeling: Glove는 단어 Vector간의 선형 관계 및 비선형 관계도 캡처합니다. 이를 통해서 단어간의 의미적 유사성을 잘 반영할 수 있습니다.
임베딩 학습 목적 함수 (손실 함수 - loss Function): Glove는 임베딩 학습을 위한 목적 함수(손실 함수)를 정의합니다.
- 이 목적 함수(손실 함수)는 단어 Vector간의 내적이 해당 단어 쌍의 동시 출현 확률의 log로 수렴하도록 합니다. 즉, 두 단어 Vector의 내적이 두 단어가 함께 등장할 확률과 비례하게 되도록 학습됩니다.
- 한번 그러면 함수에 데하여 설명하기 전에 각 용어를 한번 보겠습니다.

Glove 개념 및 수식 설명

Glove는 Embedding 된 중심 단어와 주변 단어 Vector의 내적이 전체 Corpus(말뭉치)에서 동시 등장 확률이 되게 만듭니다.
아래 식으로 표현하면 다음과 같습니다.

아래 식은 목적 함수(손실 함수)로 사용할 수 없으므로, 임베딩된 벡터의 특성을 반영할수 있게 수식을 만들어 줘야 합니다.
일단, 단어간의 관계를 잘 표현해 주어야 합니다. 그러면 어떤 단어가 등장했을때 다른 어떠한 단어가 등장할 확률을 나타낼수 있는 식을 사용해야합니다.

Glove는 Vector wi, wj, wk를 가지고 어떤 함수 F를 수행하면, Pik / Pjk가 나온다는 초기 식으로 전개를 합니다.

일단 F라는 함수가 어떠한 식을 가지고 있는지 알수 없습니다. 그래서 일단 F안에 집어넣을 wi, wj, wk의 관계를 알아보기 위해서 wi, wj를 뺀 벡터를 wk를 내적합니다.
이유는 함수 F는 두 단어 사이의 동시 등장 확률의 크기 관계의 ratio(비) 정보를 Vector 공간에 Encoding 하는것이 Glove 알고리즘의 목적입니다.
그래서 wi, wj 두 Vector의 차이를 함수 F의 input으로 사용합니다. 근데 우변은 스칼라 값이고 좌변은 벡터 값입니다. 이를 성립하게 해주기 위해서는 함수 F의 두 입력의 내적(Dot Product)를 수행합니다.

근데, 이때 함수 F가 만족해야 할 조건이 있습니다. 중심단어 w, 주번단어 ~w의 선택 기준은 무작위 선택이므로, 이 둘의 관계는 자유롭게 교환이 되도록 해야합니다.
이게 성립이 되게 하려면 함수 F가 실수의 덧셈 & 양수의 곱셈에 대해서 준동형(Homomorphism)을 만족하도록 해야합니다.

준동형(Homomorphism)에 데하여 간단히 설명해보면 a와 b에 대해서 함수 F가 F(a+b)가 F(a)F(b)가 같도록 만족시켜야 한다는 의미입니다. 식으로 나타내면 -> F(a+b) = F(a)F(b) 입니다.

관련한 식을 가져오면 다음과 같습니다.

이렇게 현재의 식을 준동형 식으로 뻴셈에 대한 준동형식으로 변경을 합니다. 그러면 원래 곱셈에 대한 식도 나눗셈으로 봐뀝니다.
그러면 이 준동형식의 우변의 식은 Pik / Pjk 이므로, 결과적으로 아래의 식과 같이 정리가 됩니다.

이 준동형(Homomorphism)식 원래 식을 좌변으로 풀어서 쓰면 원래의 식으로 정리가 됩니다.

이 정리한 식은 뻴셈에 대한 준동형(Homomorphism)식 의 형태가 정확히 일치합니다.
그러면 이제 이를 만족하는 함수 F를 찾아야합니다. 이 함수 F를 만족시키는 함수를 지수 함수(Exponential Function)이라고 합니다. 아래의 식에서 F를 지수함수 exp라고 하고 치환해서 보겠습니다.

위의 두번째 식에서 다음과 같은 식을 얻을수 있습니다.

근데, 우리가 봐야하는 중요한 사실이 있습니다. 중심단어 w, 주번단어 ~w는 두값의 위치를 봐꾸어도 식이 성립해야 합니다.
이말은 단어간의 교체가 가능하다는 말인데, 그럴려면 위의 식에서 log Xi 항이 걸림돌 입니다.
이부분만 없다면 이 수식을 성립 시킬수 있습니다. 이때의 해결책은 log Xi항을 wi에 대한 편향 (bi,bk) 상수항으로 대체합니다.
같은 이유로 주변단어 ~w에 대한 편향 ~b도 추가합니다. 그러면 편향(bias)처럼 상수항으로 볼 수 있으므로 둘을 동일한 수식으로 판단할 수 있습니다.
Word(단어)가 달라지게 되면 Bias(편향)도 i, k에 따라 달라지는 상수항이라고 알면 됩니다.

위의 2번째 식이 목적 함수(손실 함수)의 핵심이 되는 식입니다.
식에서 학습되어야 하는 Embedding된 단어들이 좌변쪽 으로 몰려있고, 우변에는 log(Xik)를 통해 Window 사이즈를 두고 Corpus(말뭉치) 전체에서 단어별 등장 빈도를 구한 동시 출현 행렬 (Co-occurence Matrix)에서 로그를 취해준 행렬이 있습니다.
좌변의 4개 항은 Training을 통해서 값이 봐뀌는 변수가 있고, 우변의 값은 좌변의 값과의 차이를 최소화 하는 방향으로 진행됩니다.
이 식을 구하려고 하는 목적함수 J로 나타나면 아래와 같습니다, 그리고 목적함수J 에서 V는 단어 집합의 크기를 의미합니다.

변환을 해주는 이유는 높은 단어 쌍이 등장해서 Embedding 결과과 외곡되지 않게 하기 위한 목적입니다.
예를 들어서 "I", "is" 라는 단어들은 의미가 크지는 않지만 일반적으로 영문 문장에서 많이 등장하는 단어 이므로, 이 단어들의 등장 빈도에 따라서 Embedding 결과과 외곡될수 있기 때문에 Weight(가중치)함수 f(x)를 목적 함수(손실 함수)에 수식을 추가해서 계산합니다.

목적 함수(손실 함수)애 사용하는 Weight(가중치)함수는 동시 출현 빈도가 높은 단어 쌍에 낮은 Weight(가중치)를 부여하고, 반대로 출현빈도가 높은 단어 쌍에는 높은 Weight(가중치)를 부여합니다.
이유는 고밀도 단어쌍이 Model을 지배하는것을 방지하기 때문입니다. 예를 들면 불용어('the', 'is', 'are')는 빈번하게 나타나지만, 불용어들끼리 서로 의미적으로 보면 가깝다는걸 의미하지 않기 때문입니다.
그래서 불용어와 같은 단어쌍에 대한 Weight(가중치)를 줄이는것은 Model의 학습에 도움이 될 뿐더러 희귀 & 회소성이 있는 단어 쌍의 정보를 보존하는데 도움을 줍니다.
그리고 Weight(가중치)함수는 Model이 단순히 동시 출현 빈도가 높은 단어쌍만을 고려하는것이 아닌, 다양한 단어쌍 간의 관계를 학습하여 정확하고 다양한 단어 의미를 포착하는데 도움을 줍니다.

또한 f(x) 함수는 1보다 큰 값을 반환하지 않으며, Weight는 0~1 사이의 값을 가집니다.
이 방식은 동시 출현(Co-occurence)이 위의 그래프 Xmax 라는 변수가 가장 높은 동시 출현(Co-occurence)를 초과하는 단어쌍에 데하여 Weight(가중치)를 제한함으로, 높은 동시 출현(Co-occurence) 횟수를 가진 단어쌍이 학습에 과도한 영향을 주는것을 방지합니다.
이 f(x) 함수의 식은 아래의 왼쪽의 식과 같이 정의되고, 최종적으로 손실함수의 식은 아래의 오른쪽의 식과 같이 정의됩니다.

Example Code - Glove

Glove를 사용하여려면 Glove 패키지를 설치해 줘야 합니다.
원래는 'glove-python' 라이브러리를 설치해서 해야하지만, 현재 패키지 설치 과정에서 오류가 있는거 같아서 'gensim' 라이브러리를 사용해서 대체하겠습니다.

pip install gensim

이 코드는 Glove의 사전 학습이된 모델 파일 'glove.6B.100d.txt'를 불러와서 사용했습니다. 이 모델 파일이 있는 Github를 아래 링크 달아놓을테니까 꼭 다운로드 하고, 경로 지정 해주셔서 코드 돌려보셔야 해요!
이 Github ReadMe Page의 'Download Pre-Trained Word Vector' 섹션에서 다운로드 하시면 됩니다.

GitHub - stanfordnlp/GloVe: Software in C and data files for the popular GloVe model for distributed word representations, a.k.a

Software in C and data files for the popular GloVe model for distributed word representations, a.k.a. word vectors or embeddings - GitHub - stanfordnlp/GloVe: Software in C and data files for the p...

github.com

from gensim.scripts.glove2word2vec import glove2word2vec
from gensim.models import KeyedVectors
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# GloVe 모델을 word2vec 형식으로 변환
glove_input_file = 'glove.6B.100d.txt'  # 실제 GloVe 파일의 경로를 입력하세요.
word2vec_output_file = 'glove.6B.100d.txt.word2vec'
glove2word2vec(glove_input_file, word2vec_output_file)

# 변환된 모델 불러오기
model = KeyedVectors.load_word2vec_format(word2vec_output_file, binary=False)

# 텍스트 파일에서 문서 읽어오기
with open('your_text_file.txt', 'r', encoding='utf-8') as file:
    documents = [line.strip().split() for line in file]

# 문서에 등장하는 단어들의 벡터를 추출하여 동시 등장 행렬 생성
word_vectors = [model[word] for document in documents for word in document]
co_occurrence_matrix = cosine_similarity(word_vectors)

# 입력 단어에 대해 가장 유사한 단어들의 리스트 반환
def most_similar_words(input_word, top_n=5):
    if input_word in model:
        input_vector = model[input_word]
        similarity_scores = cosine_similarity([input_vector], word_vectors)[0]
        most_similar_indices = np.argsort(similarity_scores)[::-1][:top_n]
        most_similar_words = [model.index2word[index] for index in most_similar_indices]
        return most_similar_words
    else:
        return []

# 단어 입력 및 결과 출력
input_word = 'hamburger'
similar_words = most_similar_words(input_word)
print(f"{input_word}와(과) 유사한 단어들: {similar_words}")

여기에 "input_text_file"에는 사용할 훈련 데이터 파일을 넣고, input_word에는 아무런 단어를 넣으면 "most_similar_words" 함수에서 넣은 단어의 가장 유사한 단어들의 리스트를 리턴해줍니다.
또한 top_n Parameter에서 반환할 유사한 단어의 개수를 지정할 수 있습니다.

FastText

FastText는 Facebook(현 Meta)에서 개발한 오픈소스 라이브러리로 Word Embedding (단어 임베딩)을 생성하고 효과적으로 텍스트 분류 작업을 할 수 있도록 개발되었습니다.
FastText의 특징은 매커니즘 자체는 Word2Vec의 확장판 개념이지만, 차이점은 FastText는 Word2Vec과 달리 하나의 단어 안에도 여러 단어들이 존재하는것으로 간주합니다. 즉, subword를 고려하여 학습합니다.

N-gram

FastText에서 각 단어는 글자 단위 N-gram 구성으로 이루어져 있습니다.
여기서 N-gram은 언어학, 통계학적 개념에서 가져온것으로, 연속된 n개의 항목(여기서는 단어입니다)를 나타냅니다.
여기서 "n"은 연속된 항목의 개수로 나타내는데, 1-gram은 유니그램(Unigram), 2-gram은 바이그램(Bigram), 3-gram은 트라이그램(Trigram)으로 부릅니다.
N-gram은 Text에서 어떤 패턴이나 문맥을 파악하는 데에 사용됩니다. 주로 자연어처리(NLP)에서 Text를 특정 크기의 n-gram으로 나누어 사용하면, 문장이나 문서의 구조, 의미, 문맥 등을 파악하는 데 도움이 됩니다.

예를 들어서 "house"라는 문장을 3-gram인 트라이그램(Trigram)으로 Vector화 해서 5개의 내부 단어(subword) Token을 Vector로 만듭니다.

# n = 3인 경우
<ho, hou, ous, use, se>

그리고 추가적으로 기존 단어외 에 <, 와 >를 붙인 토큰을 하나더 벡터화 해줍니다.

# 추가 토큰
<house>

실제 사용할때 n의 최소, 최대 값으로 범위를 설정할수 있는데, 기본으로 최소는 3, 최대는 6으로 설정되어 있습니다.
이 단어들에 대해서 FastText는 내부 단어들을 Vector화 합니다.

# n = 3 ~ 6인 경우
<ho, hou, ous, use, se>, <hou, hous, ouse, use>, ..., <house>

여기서 내부 단어들을 Vector화 한다는건 이 내부단어들에 대하여 Word2Vec을 수행한다는 의미입니다.
이렇게 수행해서 내부 단어들의 Vector값들을 얻었으면, 단어 house의 Vector값들은 벡터값들의 총 합입니다.

house = <ho + hou + ous + use + se>, <hou + hous + ouse + use>, ..., + <house>

모르는 단어

FastText의 인공 신경망을 학습한 후에는 데이터셋의 모든 각 n-gram에 대해서 Word Embedding이 됩니다.
이렇게 되면 데이터셋만 충분하다면 위와 같은 내부 단어(subword)를 통해 모르는 단어(Out of Vocabulary, OOV)에 대해서도 다른 단어와의 유사도를 계산할 수 있습니다.
예를 들어서 FastText에서 "dancestudio"라는 단어가 학습이 안되어 있지만, 다른 단어에서 "dance"와 "studio" 내부 단어가 있으면 FastText는 "dancestudio"의 Vector를 얻을 수 있습니다.
Word2Vec, Glove는 모르는 단어에 데하여 대처할수 없는것 과는 다른점 입니다.

빈도수가 적은 단어

등장 빈도수가 적은(rate word)에 대해서 Word2Vec은 Embedding의 정확도가 높지 않았다는 단점이 있습니다. 참고할수 있는 수가 적기 때문입니다.
근데, FastText는 단어가 적은(rate word) 회귀 단어라도, 그 단어의 N-gram이 다른 단어의 N-gram이 겹치는 경우에는 높은 Embedding Vector값을 얻습니다.
FastText가 Noise가 많은 코퍼스에서 강점을 가지는 것의 이유입니다.
모든 훈련 코퍼스에 오타, 맞춤법이 틀린 단어가 없으면 좋겠지만, 실제 많은 비정형 데이터에는 오타가 섞여있습니다.
그리고 오타가 섞인 단어는 당연히 등장 빈도수가 매우 적으므로 일종의 희귀 단어가 됩니다.
Word2Vec에서는 오타가 섞인 단어는 Embedding이 제대로 안되지만 FastText는 그래도 일정 수준의 성능을 보입니다.
예를 들어 단어 apple과 오타로 p를 한 번 더 입력한 appple의 경우에는 실제로 많은 개수의 동일한 n-gram을 가질 것입니다.

Example Code - FastText

FastText를 사용하려면 'gensim' 라이브러리를 사용해야 하므로 설치하겠습니다.

pip install gensim

from gensim.models import FastText
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 텍스트 파일에서 문서 읽어오기
with open('your_text_file.txt', 'r', encoding='utf-8') as file:
    documents = [line.strip().split() for line in file]

# FastText 모델 학습
fasttext_model = FastText(documents, vector_size=100, window=5, min_count=1, workers=4)

# 입력 단어에 대해 가장 유사한 단어들의 리스트 반환
def most_similar_words(input_word, top_n=5):
    if input_word in fasttext_model.wv:
        most_similar_words = fasttext_model.wv.most_similar(input_word, topn=top_n)
        return [word for word, _ in most_similar_words]
    else:
        return []

# 단어 입력 및 결과 출력
input_word = 'input_word'
similar_words = most_similar_words(input_word)
print(f"{input_word}와(과) 유사한 단어들: {similar_words}")

여기에 "input_text_file"에는 사용할 훈련 데이터 파일을 넣고, "input_word"에는 아무런 단어를 넣으면 "most_similar_words" 함수에서 넣은 단어의 가장 유사한 단어들의 리스트를 리턴해줍니다.
또한 top_n Parameter에서 반환할 유사한 단어의 개수를 지정할 수 있습니다.

저작자표시 비영리 동일조건 (새창열림)

'📝 NLP (자연어처리) > 📕 Natural Language Processing' 카테고리의 다른 글

[NLP] 합성곱, 순환신경망, Encoder, Decoder에서 수행하는 Self-Attention (0)	2024.03.01
[NLP] Attention - 어텐션 (0)	2024.02.17
[NLP] Word2Vec, CBOW, Skip-Gram - 개념 & Model (0)	2024.02.03
[NLP] GRU Model - LSTM Model을 가볍게 만든 모델 (0)	2024.01.30
[NLP] LSTM - Long Short Term Memory Model (0)	2024.01.29

Notice

1. Word Embedding?

2. Word Embedding의 방법

2-1. Count기반 방법

TF-IDF (Tern Frequency-Inverse Document Frequency)

Example Code - TF-IDF

단어 동시 출현 행렬 (Co-occurence Matrix)

2-2. 예측 기반 방법

Glove (Global Vectors for Word Representation)

Glove 개념 및 수식 설명

Example Code - Glove

FastText

N-gram

모르는 단어

빈도수가 적은 단어

Example Code - FastText

'📝 NLP (자연어처리) > 📕 Natural Language Processing' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

1. Word Embedding?

2. Word Embedding의 방법

2-1. Count기반 방법

TF-IDF (Tern Frequency-Inverse Document Frequency)

Example Code - TF-IDF

단어 동시 출현 행렬 (Co-occurence Matrix)

2-2. 예측 기반 방법

Glove (Global Vectors for Word Representation)

Glove 개념 및 수식 설명

Example Code - Glove

FastText

N-gram

모르는 단어

빈도수가 적은 단어

Example Code - FastText

'📝 NLP (자연어처리) > 📕 Natural Language Processing' 카테고리의 다른 글

티스토리툴바