My Dev Repository

[NLP} Tokenization - 토큰화하기

[NLP} Tokenization - 토큰화하기

Tokenization - 토큰화하기 1단계: 코랩 노트북 초기화 패키지를 설치해줍니다. !pip install ratsnlp 구글 드라이브 연동하기 튜토리얼에서 구축한 어휘 집합을 저장해 둔 구글 드라이브를 연결합니다. from google.colab import drive drive.mount('/gdrive', force_remount=True) 2단계: GPT 입력값 만들기 GPT 모델 입력값을 만들려면 Byte-level Byte Pair Encoding 어휘집합 구축 결과(`vocab.json`, `merges.txt`)가 자신의 구글 드라이브 경로(`/gdrive/My Drive/nlpbook/wordpiece`)에 있어야 합니다. 아래 코드를 수행해 이미 만들어 놓은 BBPE 어휘집합을 포..

[NLP} Tokenization - 토큰화하기

2024. 1. 18.

[NLP] Building a vocabulary set - 어휘 집합 구축하기

[NLP] Building a vocabulary set - 어휘 집합 구축하기

[NLP] Building a vocabulary set - 어휘 집합 구축하기

어휘 집합 구축하기 (Vocab) 1단계: 실습 환경 만들기 pip 명령어로 패키지를 설치합니다. !pip install ratsnlp 2단계: 구글 드라이브 연동하기 from google.colab import drive drive.mount('/gdrive', force_remount=True) 3단계: 말뭉치 다운로드 및 전처리 코포라(Korpora)라이브러리 를 활용해 BPE 수행 대상 말뭉치를 내려받고 전처리. 실습용 말뭉치는 박은정 님이 공개하신 Naver Sentiment Movie Corpus(NSMC)을 사용 데이터를 내려받아 `nsmc`라는 변수로 읽어들입니다. from Korpora import Korpora nsmc = Korpora.load("nsmc", force_download..

[NLP] Building a vocabulary set - 어휘 집합 구축하기

2024. 1. 18.

[NLP] Tokenization - 토큰화란?

[NLP] Tokenization - 토큰화란?

[NLP] Tokenization - 토큰화란?

Tokenization - 토큰화 1. 토큰화란? 💡 문장을 토큰 시퀀스로 나누는 과정 → 문자, 단어, 서브워드등 3가지 방법 토근화를 수행하는 프로그램을(Tokenizer)라고 한다. 토근화 방식에는 여러가지가 있음 → 단어(어절), 문자, 서브워드(Subword) 단위 단어 단위 토큰화 공백으로 분리 장점: Tokenizer를 사용하면 어휘 집합이 커지는거 완화 💡 Example 은전한닢으로 토큰화 → 그렇다고 은전한닢 같은 Tokenizer 사용해요 어휘집합 크기가 커지는건 막기 어려움 (어휘 집합 크기가 커질수록..) 문자 단위 토근화 💡 문자 단위 → 모든 문자를 어휘 집합에 포함함으로 미등록 토큰 문자로부터 자유롭다. 미등록 토큰: 어휘 집합에 없는 토큰 - 신조어등 에서 발생 단점: 각 문..

[NLP] Tokenization - 토큰화란?

2024. 1. 16.

[NLP] 처음 만나는 자연어 처리 & Transfer Learning

[NLP] 처음 만나는 자연어 처리 & Transfer Learning