LLM관련 스터디를 하고 있는데, BERT 모델에 데하여 공부를 해야할 타이밍이여서, 하는김에 내용도 정리해 보도록 하겠습니다.그리고 BERT Model에 데하여 이해를 하려면 Transformer라는 모델에 데하여 어느정도 이해가 필요합니다.아래 참고글 남길테니 한번 보고 이 글을 읽어주세요!! [NLP] Transformer Model - 트랜스포머 모델 알아보기이번 글에서는 Transformer 모델의 전반적인 Architecture 및 구성에 데하여 알아보겠습니다. Transformer: Attention is All You Need Transformer 모델은 2017년에 "Attention is All You Need"라는 논문을 통해서 소개되었습daehyun-bigbread.tistory.c..
Tokenization - 토큰화하기 1단계: 코랩 노트북 초기화 패키지를 설치해줍니다. !pip install ratsnlp 구글 드라이브 연동하기 튜토리얼에서 구축한 어휘 집합을 저장해 둔 구글 드라이브를 연결합니다. from google.colab import drive drive.mount('/gdrive', force_remount=True) 2단계: GPT 입력값 만들기 GPT 모델 입력값을 만들려면 Byte-level Byte Pair Encoding 어휘집합 구축 결과(`vocab.json`, `merges.txt`)가 자신의 구글 드라이브 경로(`/gdrive/My Drive/nlpbook/wordpiece`)에 있어야 합니다. 아래 코드를 수행해 이미 만들어 놓은 BBPE 어휘집합을 포..
어휘 집합 구축하기 (Vocab) 1단계: 실습 환경 만들기 pip 명령어로 패키지를 설치합니다. !pip install ratsnlp 2단계: 구글 드라이브 연동하기 from google.colab import drive drive.mount('/gdrive', force_remount=True) 3단계: 말뭉치 다운로드 및 전처리 코포라(Korpora)라이브러리 를 활용해 BPE 수행 대상 말뭉치를 내려받고 전처리. 실습용 말뭉치는 박은정 님이 공개하신 Naver Sentiment Movie Corpus(NSMC)을 사용 데이터를 내려받아 `nsmc`라는 변수로 읽어들입니다. from Korpora import Korpora nsmc = Korpora.load("nsmc", force_download..