Segment

📕 Natural_Language_Processing

[NLP} Tokenization - 토큰화하기

Tokenization - 토큰화하기 1단계: 코랩 노트북 초기화 패키지를 설치해줍니다. !pip install ratsnlp 구글 드라이브 연동하기 튜토리얼에서 구축한 어휘 집합을 저장해 둔 구글 드라이브를 연결합니다. from google.colab import drive drive.mount('/gdrive', force_remount=True) 2단계: GPT 입력값 만들기 GPT 모델 입력값을 만들려면 Byte-level Byte Pair Encoding 어휘집합 구축 결과(`vocab.json`, `merges.txt`)가 자신의 구글 드라이브 경로(`/gdrive/My Drive/nlpbook/wordpiece`)에 있어야 합니다. 아래 코드를 수행해 이미 만들어 놓은 BBPE 어휘집합을 포..

Bigbread1129
'Segment' 태그의 글 목록