[LLM] Training language models to follow instructions with human feedback (Instruct GPT / RLHF) Review

방법: 레이블러가 작성한 시연 데이터를 사용해 GPT-3 모델을 지도 학습 방식으로 미세 조정합니다.
설정: 16 에포크 동안 학습하며, 코사인 학습률 감쇠(cosine learning rate decay)와 0.2의 드롭아웃을 사용합니다.
결과: 비록 1 에포크 후 validation loss에서 과적합이 발생했지만, 더 많은 에포크 동안 학습이 보상 모델(RM) 점수와 인간 선호도 평가를 향상시켰습니다.

2024. 10. 30. 19:39

[LLM] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 리뷰 (0)	2024.11.30
[LLM] Parameter-Efficient Transfer Learning for NLP 리뷰 (0)	2024.11.18
[LLM] Improving Language Understanding by Generative Pre-Training (GPT-1 논문 Review) (0)	2024.10.25
[LLM] Retrieve Augmented Generation (RAG) (0)	2024.09.15
[LLM] Prompt Engineering (프롬포트 엔지니어링) (0)	2024.09.14

Training language models to follow instructions with human feedback