My Dev & Engineering Repository

Tokenization - 토큰화하기

1단계: 코랩 노트북 초기화

패키지를 설치해줍니다.

!pip install ratsnlp

구글 드라이브 연동하기

튜토리얼에서 구축한 어휘 집합을 저장해 둔 구글 드라이브를 연결합니다.

from google.colab import drive
drive.mount('/gdrive', force_remount=True)

2단계: GPT 입력값 만들기

GPT 모델 입력값을 만들려면 Byte-level Byte Pair Encoding 어휘집합 구축 결과(`vocab.json`, `merges.txt`)가 자신의 구글 드라이브 경로(`/gdrive/My Drive/nlpbook/wordpiece`)에 있어야 합니다.
아래 코드를 수행해 이미 만들어 놓은 BBPE 어휘집합을 포함한 GPT 토크나이저를 `tokenizer_gpt`라는 변수로 선언합니다.

from transformers import GPT2Tokenizer
tokenizer_gpt = GPT2Tokenizer.from_pretrained("/gdrive/My Drive/nlpbook/bbpe")
tokenizer_gpt.pad_token = "[PAD]"

한번 예시 문장 3개를 각각 토큰화 해보겠습니다.

sentences = [
    "아 더빙.. 진짜 짜증나네요 목소리",
    "흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나",
    "별루 였다..",
]
tokenized_sentences = [tokenizer_gpt.tokenize(sentence) for sentence in sentences]

아래 코드를 실행시켜서 토큰화 결과를 확인 해보세요.

tokenized_sentences

이번에는 Batch_size가 3이라고 가정하고 이번 배치의 입력값을 만들어 보겠습니다.

batch_inputs = tokenizer_gpt(
    sentences,
    padding="max_length", # 문장의 최대 길이에 맞춰 패딩
    max_length=12, # 문장의 토큰 기준 최대 길이
    truncation=True, # 문장 잘림 허용 옵션
)

코드 실행 결과로 두 가지의 입력값이 만들어집니다.
하나는 input_ids입니다. batch_inputs['input_ids']를 코랩에서 실행해 그 결과를 출력해보면 input_ids와 실행 결과와 같습니다

batch_input의 내용을 한번 확인해보겠습니다.

batch_inputs.keys()

dict_keys(['input_ids', 'attention_mask'])

input_ids는 토큰화 결과를 가지고 각 토큰들을 인덱스(index)로 바꾼 것입니다.
어휘 집합(vocab.json)을 확인해 보면 각 어휘가 순서대로 나열된 확인할 수 있는데요. 이 순서가 바로 인덱스입니다.
이같이 각 토큰을 인덱스로 변환하는 과정을인덱싱(indexing)>이라고 합니다.

batch_inputs['input_ids']

[[334, 2338, 263, 581, 4055, 464, 3808, 0, 0, 0, 0, 0], [3693, 336, 2876, 758, 2883, 356, 806, 422, 9875, 875, 2960, 7292], [4957, 451, 3653, 263, 0, 0, 0, 0, 0, 0, 0, 0]]

attention_mask는 일반 토큰이 자리한 곳(1)과 패딩 토큰이 자리한 곳(0)을 구분해 알려주는 장치입니다

batch_inputs['attention_mask']

[[1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]]

3단계: BERT 입력값 만들기

이번엔 BERT 모델의 입력값을 만들어보겠습니다. BERT Tokenizer 선언하는 코드를 수행하면 BERT 모델이 사용하는 토크나이저를 초기화할 수 있습니다.
그전에 자신의 구글 드라이브 경로(/gdrive/My Drive/nlpbook/wordpiece)에는 BERT용 워드피스 어휘 집합(vocab.txt)이 있어야 합니다. 만약 vocab.txt를 생성하지 않았다면 꼭 생성해주세요!

from transformers import BertTokenizer
tokenizer_bert = BertTokenizer.from_pretrained("/gdrive/My Drive/nlpbook/wordpiece", do_lower_case=False)

이제 한번 예시 문장 3개를 각각 토큰화 해보겠습니다.

sentences = [
    "아 더빙.. 진짜 짜증나네요 목소리",
    "흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나",
    "별루 였다..",
]
tokenized_sentences = [tokenizer_bert.tokenize(sentence) for sentence in sentences]

코드를 실행시키고 결과를 확인해보면, 토큰 일부에 '##' 이렇게 있는 토큰이 있을겁니다.
이 토큰은 어절(띄어쓰기 기준)의 시작이 아님을 나타냅니다.>
예를 들어 '##네요' 는 이 토큰이 앞선 토큰 >짜증나와 같은 어절에 위치하며 어절 내에서 연속되고 있음을 표시합니다.>

아래 코드는 BERT 모델의 실제 코드 입력 값입니다.

batch_inputs = tokenizer_bert(
    sentences,
    padding="max_length",
    max_length=12,
    truncation=True,
)

코드를 실행시키면 세 가지의 입력값이 만들어집니다.

batch_inputs.keys()

dict_keys(['input_ids', 'token_type_ids', 'attention_mask'])

하나는 GPT 모델과 마찬가지로 토큰 인덱스 시퀀스를 나타내는 input_ids입니다.

batch_inputs['input_ids']를 입력하고 이를 출력해 보겠습니다.

[[2, 621, 2631, 16, 16, 1993, 3678, 1990, 3323, 3, 0, 0], [2, 997, 16, 16, 16, 2609, 2045, 2796, 1981, 1224, 16, 3], [2, 3274, 9508, 16, 16, 3, 0, 0, 0, 0, 0, 0]]

한번 보면 모든 문장 앞에 2, 끝에 3이 붙은 걸 확인할 수 있습니다.
이는 각각 [CLS], [SEP]라는 토큰에 대응하는 인덱스인데요.
BERT는 문장 시작과 끝에 이 두 개 토큰을 덧붙이는 특징이 있습니다.

그리고 attention_mask도 만들어집니다.

BERT의 attention_mask는 GPT와 마찬가지로 일반 토큰이 자리한 곳(1)과 패딩 토큰이 자리한 곳(0)을 구분해 알려줍니다.
한번 코드를 실행시켜서 확인해 보겠습니다.

batch_inputs['attention_mask']

[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0],
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]]

마지막으로 token_type_ids 라는 입력값도 만들어집니다. 이는 세그먼트(segment)에 해당 합니다.

세그먼트(segment)에 해당하는 값은 0입니다.
세그먼트 정보를 입력하는 건 BERT 모델의 특징입니다.
BERT 모델은 기본적으로 문서(혹은 문장) 2개를 입력받는데요, 둘은 token_type_ids 로 구분합니다.
첫 번째 세그먼트(문서 혹은 문장)에 해당하는 token_type_ids는 0, 두 번째 세그먼트는 1입니다.

batch_inputs['token_type_ids']

[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

여기서는 문장을 하나씩 넣었으므로 token_type_ids가 모두 0으로 처리됩니다.

저작자표시 비영리 동일조건 (새창열림)

'📝 NLP (자연어처리) > 📕 Natural Language Processing' 카테고리의 다른 글

[NLP] Seq2Seq, Encoder & Decoder (0)	2024.01.19
[NLP] Pre-Trained Language Model - 미리 학습된 언어모델 (0)	2024.01.18
[NLP] Building a vocabulary set - 어휘 집합 구축하기 (0)	2024.01.18
[NLP] Tokenization - 토큰화란? (0)	2024.01.16
[NLP] 처음 만나는 자연어 처리 & Transfer Learning (0)	2024.01.16

Notice

Tokenization - 토큰화하기

1단계: 코랩 노트북 초기화

구글 드라이브 연동하기

2단계: GPT 입력값 만들기

3단계: BERT 입력값 만들기

'📝 NLP (자연어처리) > 📕 Natural Language Processing' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Tokenization - 토큰화하기

1단계: 코랩 노트북 초기화

구글 드라이브 연동하기

2단계: GPT 입력값 만들기

3단계: BERT 입력값 만들기

'📝 NLP (자연어처리) > 📕 Natural Language Processing' 카테고리의 다른 글

티스토리툴바