Tokenization - ν ν°ννκΈ° 1λ¨κ³: μ½λ© λ ΈνΈλΆ μ΄κΈ°ν ν¨ν€μ§λ₯Ό μ€μΉν΄μ€λλ€. !pip install ratsnlp κ΅¬κΈ λλΌμ΄λΈ μ°λνκΈ° νν 리μΌμμ ꡬμΆν μ΄ν μ§ν©μ μ μ₯ν΄ λ κ΅¬κΈ λλΌμ΄λΈλ₯Ό μ°κ²°ν©λλ€. from google.colab import drive drive.mount('/gdrive', force_remount=True) 2λ¨κ³: GPT μ λ ₯κ° λ§λ€κΈ° GPT λͺ¨λΈ μ λ ₯κ°μ λ§λ€λ €λ©΄ Byte-level Byte Pair Encoding μ΄νμ§ν© κ΅¬μΆ κ²°κ³Ό(`vocab.json`, `merges.txt`)κ° μμ μ κ΅¬κΈ λλΌμ΄λΈ κ²½λ‘(`/gdrive/My Drive/nlpbook/wordpiece`)μ μμ΄μΌ ν©λλ€. μλ μ½λλ₯Ό μνν΄ μ΄λ―Έ λ§λ€μ΄ λμ BBPE μ΄νμ§ν©μ ν¬..
Read moreμ΄ν μ§ν© ꡬμΆνκΈ° (Vocab) 1λ¨κ³: μ€μ΅ νκ²½ λ§λ€κΈ° pip λͺ λ Ήμ΄λ‘ ν¨ν€μ§λ₯Ό μ€μΉν©λλ€. !pip install ratsnlp 2λ¨κ³: κ΅¬κΈ λλΌμ΄λΈ μ°λνκΈ° from google.colab import drive drive.mount('/gdrive', force_remount=True) 3λ¨κ³: λ§λμΉ λ€μ΄λ‘λ λ° μ μ²λ¦¬ μ½ν¬λΌ(Korpora)λΌμ΄λΈλ¬λ¦¬ λ₯Ό νμ©ν΄ BPE μν λμ λ§λμΉλ₯Ό λ΄λ €λ°κ³ μ μ²λ¦¬. μ€μ΅μ© λ§λμΉλ λ°μμ λμ΄ κ³΅κ°νμ Naver Sentiment Movie Corpus(NSMC)μ μ¬μ© λ°μ΄ν°λ₯Ό λ΄λ €λ°μ `nsmc`λΌλ λ³μλ‘ μ½μ΄λ€μ λλ€. from Korpora import Korpora nsmc = Korpora.load("nsmc", force_download..
Read moreTokenization - ν ν°ν 1. ν ν°νλ? π‘ λ¬Έμ₯μ ν ν° μνμ€λ‘ λλλ κ³Όμ → λ¬Έμ, λ¨μ΄, μλΈμλλ± 3κ°μ§ λ°©λ² ν κ·Όνλ₯Ό μννλ νλ‘κ·Έλ¨μ(Tokenizer)λΌκ³ νλ€. ν κ·Όν λ°©μμλ μ¬λ¬κ°μ§κ° μμ → λ¨μ΄(μ΄μ ), λ¬Έμ, μλΈμλ(Subword) λ¨μ λ¨μ΄ λ¨μ ν ν°ν 곡백μΌλ‘ λΆλ¦¬ μ₯μ : Tokenizerλ₯Ό μ¬μ©νλ©΄ μ΄ν μ§ν©μ΄ 컀μ§λκ±° μν π‘ Example μμ νλ’μΌλ‘ ν ν°ν → κ·Έλ λ€κ³ μμ νλ’ κ°μ Tokenizer μ¬μ©ν΄μ μ΄νμ§ν© ν¬κΈ°κ° 컀μ§λ건 λ§κΈ° μ΄λ €μ (μ΄ν μ§ν© ν¬κΈ°κ° 컀μ§μλ‘..) λ¬Έμ λ¨μ ν κ·Όν π‘ λ¬Έμ λ¨μ → λͺ¨λ λ¬Έμλ₯Ό μ΄ν μ§ν©μ ν¬ν¨ν¨μΌλ‘ λ―Έλ±λ‘ ν ν° λ¬Έμλ‘λΆν° μμ λ‘λ€. λ―Έλ±λ‘ ν ν°: μ΄ν μ§ν©μ μλ ν ν° - μ μ‘°μ΄λ± μμ λ°μ λ¨μ : κ° λ¬Έ..
Read moreλ₯λ¬λ κΈ°λ° μμ°μ΄ μ²λ¦¬ λͺ¨λΈ π‘ λͺ¨λΈ(Model): μ λ ₯μ λ°μ μ΄λ€ μ²λ¦¬λ₯Ό μννλ ν¨μ, μμ°μ΄μ²λ¦¬μμμ inputμ μμ°μ΄ π‘ λͺ¨λΈμ μΆλ ₯μ νλ₯ μ΄λΌλ μ μ μ£Όλͺ©μ ν΄μΌνλ€. μμ°μ΄μ²λ¦¬ λͺ¨λΈμ μΆλ ₯λ νλ₯ → κ·Έλ¬λ, λͺ¨λΈμ μΆλ ₯ ννλ νλ₯ , μ¬λμ΄ μνλ건 μμ°μ΄ νν. κ·Έλ¬λ©΄ μΆλ ₯λ νλ₯ μ νμ²λ¦¬ ν΄μ μμ°μ΄ ννλ‘ λ³νμ ν΄μΌνλ€. λ₯λ¬λ λͺ¨λΈμμλ λ°μ΄ν°μ ‘κ°μ±’ μ΄λΌλ λ μ΄λΈμ λ¬μ λμ λ°μ΄ν°κ° μμ΄μΌ νλ€. → μ΄κ±Έ νμ΅ λ°μ΄ν° λΌκ³ νλ€. κ·Έλ¦¬κ³ λͺ¨λΈμ΄ λ°μ΄ν°μ ν¨ν΄μ μ€μ€λ‘ μ΅νκ² νλ κ³Όμ → νμ΅(train) Transfer Learning π‘ νΈλμ€νΌ λ¬λ: νΉμ Taskλ₯Ό νμ΅ν λͺ¨λΈμ λ€λ₯Έ ν μ€ν¬ μνμ μ¬μ¬μ©νλ κΈ°λ²μ κ°λ¦¬ν΄ νΈλμ€νΌ μ μ©μ κΈ°μ‘΄λ³΄λ€ λͺ¨λΈμ νμ΅ μ..
Read more