Tokenizer

📕 Natural_Language_Processing

[NLP] Building a vocabulary set - 어휘 집합 구축하기

어휘 집합 구축하기 (Vocab) 1단계: 실습 환경 만들기 pip 명령어로 패키지를 설치합니다. !pip install ratsnlp 2단계: 구글 드라이브 연동하기 from google.colab import drive drive.mount('/gdrive', force_remount=True) 3단계: 말뭉치 다운로드 및 전처리 코포라(Korpora)라이브러리 를 활용해 BPE 수행 대상 말뭉치를 내려받고 전처리. 실습용 말뭉치는 박은정 님이 공개하신 Naver Sentiment Movie Corpus(NSMC)을 사용 데이터를 내려받아 `nsmc`라는 변수로 읽어들입니다. from Korpora import Korpora nsmc = Korpora.load("nsmc", force_download..

📕 Natural_Language_Processing

[NLP] 처음 만나는 자연어 처리 & Transfer Learning

딥러닝 기반 자연어 처리 모델 💡 모델(Model): 입력을 받아 어떤 처리를 수행하는 함수, 자연어처리에서의 input은 자연어 💡 모델의 출력은 확률이라는 점에 주목을 해야한다. 자연어처리 모델의 출력도 확률 → 그러나, 모델의 출력 형태는 확률, 사람이 원하는건 자연어 형태. 그러면 출력된 확률을 후처리 해서 자연어 형태로 변환을 해야한다. 딥러닝 모델에서는 데이터에 ‘감성’ 이라는 레이블을 달아 놓은 데이터가 있어야 한다. → 이걸 학습 데이터 라고 한다. 그리고 모델이 데이터의 패턴을 스스로 익히게 하는 과정 → 학습(train) Transfer Learning 💡 트랜스퍼 러닝: 특정 Task를 학습한 모델을 다른 테스크 수행에 재사용하는 기법을 가리킴 트랜스퍼 적용시 기존보다 모델의 학습 속..

Bigbread1129
'Tokenizer' 태그의 글 목록