A A
[LLM] Training language models to follow instructions with human feedback (Instruct GPT / RLHF) Review
์Šคํ„ฐ๋”” ์ค€๋น„๋ฅผ ํ•˜๋‹ค๊ฐ€ ์ •๋ฆฌํ•œ ๋‚ด์šฉ์„ ํ•œ๋ฒˆ Review๋ฅผ ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

Training language models to follow instructions with human feedback

Abstract

์–ธ์–ด ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ์‚ฌ์šฉ์ž ์˜๋„์— ๋” ์ž˜ ๋ถ€ํ•ฉํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์•„๋‹™๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์€ ์ง„์‹คํ•˜์ง€ ์•Š๊ฑฐ๋‚˜, ์œ ํ•ดํ•˜๊ฑฐ๋‚˜, ์‚ฌ์šฉ์ž์—๊ฒŒ ๋„์›€์ด ๋˜์ง€ ์•Š๋Š” ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ์‚ฌ์šฉ์ž์˜ ์˜๋„์— ๋งž์ถฐ์ ธ ์žˆ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์‚ฌ์šฉ์ž ์˜๋„์™€ ์ผ์น˜ํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

OpenAI API๋ฅผ ํ†ตํ•ด ์ˆ˜์ง‘๋œ ๋ ˆ์ด๋ธ”๋Ÿฌ๊ฐ€ ์ž‘์„ฑํ•œ ํ”„๋กฌํ”„ํŠธ์™€ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ์›ํ•˜๋Š” ๋™์ž‘์„ ์‹œ์—ฐํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•˜๊ณ , ์ด๋ฅผ ์‚ฌ์šฉํ•ด GPT-3๋ฅผ ์ง€๋„ ํ•™์Šต์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดํ›„ ๋ชจ๋ธ ์ถœ๋ ฅ์˜ ์ˆœ์œ„๋ฅผ ๋งค๊ธด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•œ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ์ด ์ง€๋„ ํ•™์Šต ๋ชจ๋ธ์„ ์ถ”๊ฐ€๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

 

์ด๋กœ์จ ์ƒ์„ฑ๋œ ๋ชจ๋ธ์„ InstructGPT๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. API ํ”„๋กฌํ”„ํŠธ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์ธ๊ฐ„ ํ‰๊ฐ€์—์„œ, 1.3B ํŒŒ๋ผ๋ฏธํ„ฐ InstructGPT ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์€ 175B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ GPT-3๋ณด๋‹ค ์„ ํ˜ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. InstructGPT ๋ชจ๋ธ์€ ์ง„์‹ค์„ฑ๊ณผ ๋…์„ฑ ๊ฐ์†Œ ๋ฉด์—์„œ ํ–ฅ์ƒ์„ ๋ณด์˜€์œผ๋ฉฐ, ๊ณต๊ณต NLP ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ๋Šฅ ๊ฐ์†Œ๋Š” ์ตœ์†Œํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.


Introduction

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(Large Language Models, LMs)์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด์„œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ๋‹ค๊ณ  ๋ฐํžˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค(Brown et al., 2020). ํ•˜์ง€๋งŒ, ์ด ์„ฑ๋Šฅ ์ฆ๊ฐ€๋Š” ์ฃผ๋กœ ๊ณต๊ณต NLP ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ๊ฐ๊ด€์  ์„ฑ๋Šฅ์— ๋ถˆ๊ณผํ•˜๋ฉฐ, ๋ชจ๋ธ์ด ์‹ค์ œ ์ธ๊ฐ„์˜ ์˜๋„๋ฅผ ์ œ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ "misalignment"๋ผ๊ณ  ํ‘œํ˜„ํ•˜๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ ์ƒํ™ฉ์„ ํฌํ•จํ•œ๋‹ค๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

Figure 1. Model๋“ค์— ๋Œ€ํ•œ Human Feddback ๊ฒฐ๊ณผ, API ํ”„๋กฌํ”„ํŠธ ๋ถ„ํฌ์—์„œ ๊ฐ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด 175B SFT ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๋ณด๋‹ค ์„ ํ˜ธ๋˜๋Š” ๋นˆ๋„๋กœ ํ‰๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค. InstructGPT ๋ชจ๋ธ(PPO-ptx) ๋ฐ ์‚ฌ์ „ ํ›ˆ๋ จ ํ˜ผํ•ฉ ์—†์ด ํ›ˆ๋ จ๋œ ๋ณ€ํ˜• ๋ชจ๋ธ(PPO)์€ GPT-3 ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(GPT, GPT prompted)์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, 1.3B PPO-ptx ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์€ 175B GPT-3 ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๋ณด๋‹ค ์„ ํ˜ธ๋ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์ „๋ฐ˜์— ๊ฑธ์นœ ์˜ค์ฐจ ๋ง‰๋Œ€๋Š” 95% ์‹ ๋ขฐ ๊ตฌ๊ฐ„์ž…๋‹ˆ๋‹ค.

  1. ์‚ฌ์‹ค์ด ์•„๋‹Œ ์ •๋ณด๋ฅผ ์‚ฌ์‹ค์ฒ˜๋Ÿผ ์ƒ์„ฑ (Untruthful): ๋ชจ๋ธ์ด ์ •ํ™•ํ•˜์ง€ ์•Š์€ ์ •๋ณด๋ฅผ ์‚ฌ์‹ค์ฒ˜๋Ÿผ ์ „๋‹ฌํ•˜๋Š” ๋ฌธ์ œ.
  2. ์œ ํ•ดํ•œ ์ •๋ณด ์ƒ์„ฑ (Toxic): ํŽธํ–ฅ์ ์ด๊ฑฐ๋‚˜ ์œ ํ•ดํ•œ ๋‚ด์šฉ์„ ์ƒ์„ฑํ•˜์—ฌ ์‚ฌ์šฉ์ž์˜ ์•ˆ์ „๊ณผ ์œค๋ฆฌ์  ๊ธฐ์ค€์— ์œ„ํ˜‘์ด ๋  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ.
  3. ์‚ฌ์šฉ์ž์—๊ฒŒ ๋„์›€๋˜์ง€ ์•Š๋Š” ์ •๋ณด ์ƒ์„ฑ (Not helpful): ์‚ฌ์šฉ์ž๊ฐ€ ํ•„์š”๋กœ ํ•˜๋Š” ์ง€์‹œ์‚ฌํ•ญ์„ ์ œ๋Œ€๋กœ ๋”ฐ๋ฅด์ง€ ์•Š๊ณ  ์œ ์šฉํ•˜์ง€ ์•Š์€ ์ •๋ณด๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฌธ์ œ.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์–ธ์–ด ๋ชจ๋ธ์ด ์ธํ„ฐ๋„ท ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•œ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ์šฉ์ž์˜ ์š”๊ตฌ๋ฅผ ์ถฉ์กฑ์‹œํ‚ค๋Š” ๋ชฉํ‘œ์™€๋Š” ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์ด ์‚ฌ์šฉ์ž ์˜๋„์™€ ๋ถˆ์ผ์น˜ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

RLHF๋ฅผ ํ†ตํ•œ ์ •๋ ฌ ๋ฌธ์ œ ํ•ด๊ฒฐ

"misalignment" ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Reinforcement Learning from Human Feedback (RLHF) ๊ธฐ๋ฒ•์„ ํ†ตํ•ด GPT-3 ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๋ชจ๋ธ์ด ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์•„๋“ค์—ฌ ์‚ฌ์šฉ์ž ์˜๋„์— ๋”์šฑ ๋ถ€ํ•ฉํ•˜๋„๋ก ์กฐ์ •๋ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ, InstructGPT ๋ชจ๋ธ์—์„œ๋Š” RLHF๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ์กฐ์ •ํ•˜๋Š”๋ฐ, ์ด ๊ณผ์ •์—์„œ ๋ผ๋ฒจ๋ง ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์‚ฌ๋žŒ๋“ค์„ ๊ณ ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ธ๊ฐ„์˜ ์„ ํ˜ธ์— ๋งž๋Š” ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.

RLHF์˜ ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ๊ณผ ๋ผ๋ฒจ๋Ÿฌ ๊ณ ์šฉ

  1. ๋ผ๋ฒจ๋Ÿฌ ์„ ๋ฐœ ๋ฐ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ: ๋ผ๋ฒจ๋Ÿฌ 40๋ช…์„ ๊ณ ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์— ๋ผ๋ฒจ์„ ๋ถ™์ด๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ์‚ฌ์ „ ํ‰๊ฐ€ ๊ณผ์ •์„ ๊ฑฐ์ณ ์„ ๋ฐœ๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์ธ๊ตฌํ†ต๊ณ„ํ•™์  ํŠน์„ฑ์„ ๊ณ ๋ คํ•ด ๋‹ค์–‘ํ•œ ๋‹ต๋ณ€์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์œ ํ•ดํ•˜์ง€ ์•Š์€ ๋‹ต๋ณ€์„ ์ž˜ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ๋ผ๋ฒจ๋Ÿฌ๋“ค์„ ์ค‘์‹ฌ์œผ๋กœ ์„ ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.
  2. ๋ผ๋ฒจ๋Ÿฌ์˜ ์ž‘์—…: ๋ผ๋ฒจ๋Ÿฌ๋“ค์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด์ƒ์ ์ธ ์งˆ๋ฌธ/๋‹ต๋ณ€ ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ: ๋ผ๋ฒจ๋Ÿฌ๋“ค์ด ์›ํ•˜๋Š” ๋ฐฉ์‹์˜ ๋‹ต๋ณ€์„ ๋ชจ๋ธ์— ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ๋ผ๋ฒจ๋Ÿฌ๋“ค์ด ์ด์ƒ์ ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š” ๋‹ต๋ณ€์„ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๋ชจ๋ธ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ์ˆœ์œ„ ๋งค๊ธฐ๊ธฐ: ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ์ถœ๋ ฅ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•  ๋•Œ, ๊ฐ ์ถœ๋ ฅ์— ๋Œ€ํ•ด ์„ ํ˜ธ๋„๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ˆœ์œ„๋ฅผ ๋งค๊ฒจ ๋ชจ๋ธ์ด ์›ํ•˜๋Š” ์ถœ๋ ฅ ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.

InstructGPT์˜ ํ•™์Šต ๊ณผ์ • ์š”์•ฝ

InstructGPT ๋ชจ๋ธ์€ ๋‘ ๋‹จ๊ณ„์˜ ํ›ˆ๋ จ ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค.
  1. Supervised Learning(์ง€๋„ ํ•™์Šต)์„ ํ†ตํ•œ SFT(Supervised Fine-Tuning) ๋ชจ๋ธ ์ƒ์„ฑ: ๋ผ๋ฒจ๋Ÿฌ๋“ค์ด ๋งŒ๋“  ์งˆ๋ฌธ/๋‹ต๋ณ€ ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜์—ฌ GPT-3 ๋ชจ๋ธ์„ ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•ด SFT ๋ชจ๋ธ์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ผ๋ฒจ๋Ÿฌ๋“ค์ด ์ œ๊ณตํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์›ํ•˜๋Š” ๋‹ต๋ณ€์„ ์˜ˆ์ธกํ•˜๋Š” ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
  2. ๋ณด์ƒ ๋ชจ๋ธ(RM) ํ•™์Šต ๋ฐ ๊ฐ•ํ™” ํ•™์Šต ์ง„ํ–‰:
    • ๋ณด์ƒ ๋ชจ๋ธ(RM) ์ƒ์„ฑ: SFT ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์ถœ๋ ฅ์— ๋Œ€ํ•ด ์„ ํ˜ธ๋„ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ, ์„ ํ˜ธ๋„๊ฐ€ ๋†’์€ ์ถœ๋ ฅ์—๋Š” ๋†’์€ ๋ณด์ƒ์„ ๋ฐ˜ํ™˜ํ•˜๋„๋ก ๋ณด์ƒ ๋ชจ๋ธ(RM)์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋ฅผ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • PPO๋ฅผ ํ™œ์šฉํ•œ ๊ฐ•ํ™” ํ•™์Šต ์ง„ํ–‰: SFT ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ, RM์„ ์ด์šฉํ•ด PPO(Proximal Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ๊ฐ•ํ™” ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๋ชจ๋ธ์€ RM์˜ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋˜๋ฉฐ, ์ด๋Š” ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ์ด ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
์•„๋ž˜ ๊ทธ๋ฆผ์— ๋ฐํ•œ ์ž์„ธํ•œ ์„ค๋ช…์€ Methods and Experimental Details ๋ถ€๋ถ„์—์„œ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

Figure 2 : ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์˜ ์„ธ ๊ฐ€์ง€ ๋‹จ๊ณ„ (1) ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฐ˜ ํŒŒ์ธ ํŠœ๋‹ (SFT), (2) ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ (RM) ํ•™์Šต, (3) ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ Proximal Policy Optimization (PPO)์„ ํ†ตํ•œ ๊ฐ•ํ™” ํ•™์Šต์„ ๋ณด์—ฌ์ฃผ๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ์ž…๋‹ˆ๋‹ค. ํŒŒ๋ž€์ƒ‰ ํ™”์‚ดํ‘œ๋Š” ์ด ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. 2๋‹จ๊ณ„์—์„œ A-D ์ƒ์ž๋Š” ๋ผ๋ฒจ๋Ÿฌ์— ์˜ํ•ด ์ˆœ์œ„๊ฐ€ ๋งค๊ฒจ์ง€๋Š” ์šฐ๋ฆฌ ๋ชจ๋ธ์˜ ์ƒ˜ํ”Œ์ž…๋‹ˆ๋‹ค.


Related Work

Related Work ๋ถ€๋ถ„์—์„œ๋Š” 5๊ฐ€์ง€์˜ ๋‚ด์šฉ์— ๋ฐํ•˜์—ฌ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ •๋ ฌ ๋ฐ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํ•™์Šต

๋ชจ๋ธ์„ ์ธ๊ฐ„์˜ ์˜๋„์— ๋งž์ถ”๊ธฐ ์œ„ํ•œ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค, ํŠนํžˆ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ๊ฐ•ํ™” ํ•™์Šต(RLHF) ๊ธฐ๋ฒ•์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ์„ ์ •๋ ฌ์‹œํ‚ค๋Š” ์—ฐ๊ตฌ๊ฐ€ ์ด๋ฃจ์–ด์ ธ ์™”์Šต๋‹ˆ๋‹ค. RLHF๋Š” ์›๋ž˜ ๊ฐ„๋‹จํ•œ ๋กœ๋ด‡์ด๋‚˜ ์•„ํƒ€๋ฆฌ ๊ฒŒ์ž„์—์„œ ์‚ฌ์šฉ๋˜์—ˆ์œผ๋‚˜, ์ตœ๊ทผ์—๋Š” ์–ธ์–ด ๋ชจ๋ธ์„ ์š”์•ฝ ๋“ฑ ํ…์ŠคํŠธ ์ž‘์—…์— ๋งž์ถ”๊ธฐ ์œ„ํ•œ ๋ฏธ์„ธ ์กฐ์ •์— ์ ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค(Ziegler et al., 2019; Stiennon et al., 2020). ์ด ์—ฐ๊ตฌ๋Š” ๋Œ€ํ™”(Jaques et al., 2019), ๋ฒˆ์—ญ(Kreutzer et al., 2018), ์Šคํ† ๋ฆฌ ์ƒ์„ฑ(Zhou and Xu, 2020), ๋ฆฌ๋ทฐ ์ƒ์„ฑ(Cho et al., 2018) ๋“ฑ์—์„œ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ๋ณด์ƒ ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์œ ์‚ฌ ์—ฐ๊ตฌ์—์„œ ์˜ํ–ฅ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Madaan et al. (2022)์€ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด GPT-3์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•˜์˜€๊ณ , Nahian et al. (2021)์€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ™˜๊ฒฝ์—์„œ RL์„ ํ™œ์šฉํ•ด ์—์ด์ „ํŠธ๋ฅผ ์ •๋ ฌํ•˜๋Š” ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” RLHF๋ฅผ ๊ด‘๋ฒ”์œ„ํ•œ ์–ธ์–ด ์ž‘์—…์— ์ ์šฉํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ์„ ์ •๋ ฌํ•˜๋Š” ์ง์ ‘์ ์ธ ์‚ฌ๋ก€๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ ์ •๋ ฌ์˜ ์˜๋ฏธ

์ตœ๊ทผ ๋“ค์–ด ์–ธ์–ด ๋ชจ๋ธ์ด "์ •๋ ฌ"๋œ๋‹ค๋Š” ๊ฒƒ์˜ ์˜๋ฏธ์— ๋Œ€ํ•œ ๊ด€์‹ฌ์ด ๋†’์•„์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Kenton et al. (2021)์€ ๋ชจ๋ธ์˜ ๋ฏธ์ •๋ ฌ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๋“ค์„ ์ •๋ฆฌํ–ˆ์œผ๋ฉฐ, Askell et al. (2021)์€ ์–ธ์–ด ์–ด์‹œ์Šคํ„ดํŠธ๋ฅผ ์ •๋ ฌ ์—ฐ๊ตฌ์˜ ์‹คํ—˜ ๋Œ€์ƒ์œผ๋กœ ์ œ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ์˜ ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ ํ›ˆ๋ จ

์–ธ์–ด ๋ชจ๋ธ์„ ๋‹ค์–‘ํ•œ ๊ณต๊ณต NLP ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์ง€์‹œ์™€ ํ•จ๊ป˜ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋ ค๋Š” ์—ฐ๊ตฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค(Yi et al., 2019; Mishra et al., 2021). ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์€ ํ›ˆ๋ จ ๋ฐ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ, ์ง€์‹œ ํ˜•์‹, ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ์˜ ํฌ๊ธฐ, ์‹คํ—˜์  ์„ธ๋ถ€ ์‚ฌํ•ญ์—์„œ ์ฐจ์ด๊ฐ€ ์žˆ์ง€๋งŒ, ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์— ๋Œ€ํ•ด ๋ชจ๋ธ์„ ์ง€์‹œ์™€ ํ•จ๊ป˜ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋ฉด ์ œ๋กœ์ƒท๊ณผ ํ“จ์ƒท ์„ค์ • ๋ชจ๋‘์—์„œ ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋œ๋‹ค๋Š” ์ผ๊ด€๋œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋˜ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ๋ชจ๋ธ์ด ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ๋”ฐ๋ผ ๊ฒฝ๋กœ๋ฅผ ์ฐพ๋„๋ก ํ›ˆ๋ จํ•˜๋Š” ์—ฐ๊ตฌ(Bahdanau et al., 2018; Abramson et al., 2020)๊ฐ€ ์ง„ํ–‰๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ์˜ ์œ ํ•ด์„ฑ ํ‰๊ฐ€

์–ธ์–ด ๋ชจ๋ธ์˜ ํ–‰๋™์„ ์ˆ˜์ •ํ•˜๋Š” ๋ชฉํ‘œ ์ค‘ ํ•˜๋‚˜๋Š” ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์šฉ๋  ๋•Œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์œ ํ•ด์„ฑ์„ ์™„ํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ํŽธํ–ฅ๋œ ์ถœ๋ ฅ(Dhamala et al., 2021), ๊ฐœ์ธ์ •๋ณด ์œ ์ถœ(Carlini et al., 2021), ์ž˜๋ชป๋œ ์ •๋ณด ์ƒ์„ฑ(Solaiman et al., 2019) ๋“ฑ์˜ ์œ„ํ—˜์„ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠน์ • ๋„๋ฉ”์ธ, ์˜ˆ๋ฅผ ๋“ค์–ด ๋Œ€ํ™” ์‹œ์Šคํ…œ์—์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ์œ„ํ—˜ ์š”์†Œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(Henderson et al., 2018; Dinan et al., 2019b). ๋…์„ฑ(Gehman et al., 2020), ๊ณ ์ •๊ด€๋…(Nadeem et al., 2020), ์‚ฌํšŒ์  ํŽธํ–ฅ(Dhamala et al., 2021)๊ณผ ๊ด€๋ จ๋œ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜๋ ค๋Š” ์—ฐ๊ตฌ๋„ ํ™œ๋ฐœํžˆ ์ง„ํ–‰๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ์˜ ์œ ํ•ด์„ฑ ์™„ํ™”๋ฅผ ์œ„ํ•œ ํ–‰๋™ ์ˆ˜์ •

Solaiman๊ณผ Dennison (2021)์€ ๊ฐ€์น˜ ๊ธฐ๋ฐ˜์˜ ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ QA ์ž‘์—…์—์„œ ์ด ๊ฐ€์น˜๋ฅผ ๋”ฐ๋ฅด๋Š” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. Ngo et al. (2021)์€ ํŠน์ • ํŠธ๋ฆฌ๊ฑฐ ๊ตฌ๋ฌธ์„ ํฌํ•จํ•œ ๋ฌธ์„œ๋ฅผ ํ•„ํ„ฐ๋งํ•˜์—ฌ, ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ๋„ ์œ ํ•ด ํ…์ŠคํŠธ ์ƒ์„ฑ์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค. Xu et al. (2020)์€ ์ฑ—๋ด‡์˜ ์•ˆ์ „์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ํŠน์ • ๋‹จ์–ด ์ฐจ๋‹จ, ์•ˆ์ „ ์ œ์–ด ํ† ํฐ ์‚ฌ์šฉ ๋“ฑ์˜ ๊ธฐ๋ฒ•์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ ํŽธํ–ฅ ์™„ํ™”๋ฅผ ์œ„ํ•œ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ์ •๊ทœํ™”(Liu et al., 2019), ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•, null ๊ณต๊ฐ„ ํˆฌ์˜(Liang et al., 2021) ๋“ฑ์˜ ๊ธฐ๋ฒ•์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, Dathathri et al. (2019)์™€ Krause et al. (2020)์€ ์ž‘์€ ์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ๋” ํฐ ๋ชจ๋ธ์˜ ์ƒ์„ฑ์„ ์กฐ์ •ํ•˜๋Š” ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.


Methods and Experimental Details

High-Level Methodology

Ziegler et al. (2019)์™€ Stiennon et al. (2020)์˜ ๋ฐฉ๋ฒ•๋ก ์ธ Fine-tuning language models from human preferences ๋…ผ๋ฌธ๊ณผ Learning to summarize from human feedback ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•๋ก ์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. Figure2 ์— ์žˆ๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ ๋ฐฉ๋ฒ•๋ก ์„ ํ†ตํ•ด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ(GPT-3)์„ ์‚ฌ์šฉ์ž ์˜๋„์— ๋งž๊ฒŒ ์ •๋ ฌํ•ฉ๋‹ˆ๋‹ค.

  • Step 1: ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์œผ๊ณ  supervised policy๋ฅผ ํ•™์Šต: ๋ ˆ์ด๋ธ”๋Ÿฌ๋Š” ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ ๋ถ„ํฌ์—์„œ ์›ํ•˜๋Š” ๋™์ž‘์˜ ๋ฐ๋ชจ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ง€๋„ ํ•™์Šต์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๋ฐ์ดํ„ฐ์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ GPT-3 ๋ชจ๋ธ์„ fine-tuning ํ•ฉ๋‹ˆ๋‹ค.
  • Step 2: ๋น„๊ต ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์œผ๊ณ  reward model์„ ํ•™์Šต: ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•ด ๋ ˆ์ด๋ธ”๋Ÿฌ๊ฐ€ ์„ ํ˜ธํ•˜๋Š” ์ถœ๋ ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ชจ๋ธ ์ถœ๋ ฅ๋“ค ์‚ฌ์ด์˜ ๋น„๊ต ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ reward model(RM)์„ ํ•™์Šต์‹œ์ผœ ์ธ๊ฐ„์ด ์„ ํ˜ธํ•˜๋Š” ์ถœ๋ ฅ์„ ์˜ˆ์ธก ํ•ฉ๋‹ˆ๋‹ค.
  • Step 3: PPO๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ reward model์— ๋Œ€ํ•œ policy ์ตœ์ ํ™”: RM์˜ ์ถœ๋ ฅ์„ ์Šค์นผ๋ผ ๋ณด์ƒ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด reward๋ฅผ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด supervised policy๋ฅผ fine-tuning ํ•ฉ๋‹ˆ๋‹ค.

2๋‹จ๊ณ„์™€ 3๋‹จ๊ณ„๋Š” ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ˜„์žฌ ์ตœ์ ์˜ ์ •์ฑ…์—์„œ ์ถ”๊ฐ€ ๋น„๊ต ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ณด์ƒ ๋ชจ๋ธ๊ณผ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์„ ์ง€์†์ ์œผ๋กœ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜์—์„œ ๋Œ€๋ถ€๋ถ„์˜ ๋น„๊ต ๋ฐ์ดํ„ฐ๋Š” ์ง€๋„ ํ•™์Šต๋œ ์ •์ฑ…์—์„œ, ์ผ๋ถ€๋Š” PPO ์ •์ฑ…์—์„œ ์ˆ˜์ง‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Dataset

InstructGPT์˜ ํ•™์Šต์„ ์œ„ํ•ด ์ฃผ๋กœ OpenAI API์˜ Playground ์ธํ„ฐํŽ˜์ด์Šค์— ์ œ์ถœ๋œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ณ ๊ฐ๋“ค์€ InstructGPT ๋ชจ๋ธ ์‚ฌ์šฉ ์‹œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์•Œ๋ฆฌ๋Š” ๋ฐ˜๋ณต ์•Œ๋ฆผ์„ ๋ฐ›์•˜์œผ๋ฉฐ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํ”„๋กœ๋•์…˜ ํ™˜๊ฒฝ์—์„œ API๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ๋Š” ํฌํ•จ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ค‘๋ณต์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๊ธด ๊ณตํ†ต ์ ‘๋‘์‚ฌ๋ฅผ ๊ฐ€์ง„ ํ”„๋กฌํ”„ํŠธ๋Š” ์ค‘๋ณต์„ ์ œ๊ฑฐํ•˜๊ณ , ์‚ฌ์šฉ์ž ID๋‹น ์ตœ๋Œ€ 200๊ฐœ์˜ ํ”„๋กฌํ”„ํŠธ๋กœ ์ œํ•œํ–ˆ์Šต๋‹ˆ๋‹ค.

 

๋˜ํ•œ, train, validation, test ์„ธํŠธ๋ฅผ ์‚ฌ์šฉ์ž ID๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ, ๋™์ผ ์‚ฌ์šฉ์ž์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฌ๋Ÿฌ ์„ธํŠธ์— ์ค‘๋ณต๋˜์ง€ ์•Š๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. train set์˜ ๋ชจ๋“  ํ”„๋กฌํ”„ํŠธ๋Š” ๊ฐœ์ธ ์‹๋ณ„ ์ •๋ณด(PII)๋ฅผ ํ•„ํ„ฐ๋งํ•˜์—ฌ ๋ชจ๋ธ์ด ๋ฏผ๊ฐํ•œ ์ •๋ณด ํ•™์Šต์„ ํ”ผํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ดˆ์˜ InstructGPT ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋ ˆ์ด๋ธ”๋Ÿฌ๊ฐ€ ์ง์ ‘ ์ž‘์„ฑํ•œ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ดˆ๊ธฐ ๋ช…๋ นํ˜• ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋ถ€์กฑํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋ฉฐ, ๋ ˆ์ด๋ธ”๋Ÿฌ๋“ค์€ ์„ธ ๊ฐ€์ง€ ํ”„๋กฌํ”„ํŠธ ์œ ํ˜•์„ ์ž‘์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

  1. Plain: ์ž„์˜์˜ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํฌํ•จํ•œ ์ผ๋ฐ˜ ํ”„๋กฌํ”„ํŠธ.
  2. Few-shot: ๋ช…๋ น๊ณผ ์—ฌ๋Ÿฌ ์ฟผ๋ฆฌ/์‘๋‹ต ์Œ์„ ํฌํ•จํ•œ ํ”„๋กฌํ”„ํŠธ.
  3. User-based: OpenAI API์˜ ๋‹ค์–‘ํ•œ ์œ ์ฆˆ ์ผ€์ด์Šค๋ฅผ ๋ฐ˜์˜ํ•œ ํ”„๋กฌํ”„ํŠธ.

์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์„ธ ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  • SFT ๋ฐ์ดํ„ฐ์…‹: ์ง€๋„ ํ•™์Šต(SFT) ๋ชจ๋ธ ํ•™์Šต์„ ์œ„ํ•œ ๋ ˆ์ด๋ธ”๋Ÿฌ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ, ์•ฝ 13,000๊ฐœ์˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํฌํ•จ.
  • RM ๋ฐ์ดํ„ฐ์…‹: ๋ชจ๋ธ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ๋ ˆ์ด๋ธ”๋Ÿฌ์˜ ์„ ํ˜ธ๋„๋ฅผ ๊ธฐ๋กํ•œ ๋ฐ์ดํ„ฐ๋กœ, ๋ณด์ƒ ๋ชจ๋ธ(RM) ํ•™์Šต์— ์‚ฌ์šฉ๋˜๋ฉฐ ์•ฝ 33,000๊ฐœ์˜ ํ”„๋กฌํ”„ํŠธ ํฌํ•จ.
  • PPO ๋ฐ์ดํ„ฐ์…‹: RLHF๋ฅผ ์œ„ํ•œ PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋˜๋ฉฐ, ์•ฝ 31,000๊ฐœ์˜ API ํ”„๋กฌํ”„ํŠธ๋กœ ๊ตฌ์„ฑ๋จ.

Table 1๋Š” API ํ”„๋กฌํ”„ํŠธ์˜ use-case ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋ถ„ํฌ(์™ผ์ชฝ), Table 2๋Š” ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ(์˜ค๋ฅธ์ชฝ)์ž…๋‹ˆ๋‹ค.

Tasks

InstructGPT์˜ ํ•™์Šต์—๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์†Œ์Šค์˜ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  1. ๋ ˆ์ด๋ธ”๋Ÿฌ๊ฐ€ ์ž‘์„ฑํ•œ ํ”„๋กฌํ”„ํŠธ ๋ฐ์ดํ„ฐ์…‹
  2. ์ดˆ๊ธฐ InstructGPT ๋ชจ๋ธ์— API๋ฅผ ํ†ตํ•ด ์ œ์ถœ๋œ ํ”„๋กฌํ”„ํŠธ ๋ฐ์ดํ„ฐ์…‹

์ด๋Ÿฌํ•œ ํ”„๋กฌํ”„ํŠธ๋Š” ๋งค์šฐ ๋‹ค์–‘ํ•˜๋ฉฐ ์ƒ์„ฑ, ์งˆ๋ฌธ ์‘๋‹ต(QA), ๋Œ€ํ™”, ์š”์•ฝ, ์ •๋ณด ์ถ”์ถœ, ๊ทธ ์™ธ ์—ฌ๋Ÿฌ ์ž์—ฐ์–ด ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์…‹์€ 96% ์ด์ƒ์ด ์˜์–ด๋กœ ๋˜์–ด ์žˆ์œผ๋‚˜, ๋‹ค๋ฅธ ์–ธ์–ด๋กœ ์ž‘์„ฑ๋œ ์ง€์‹œ๋ฌธ์ด๋‚˜ ์ฝ”๋”ฉ ์ž‘์—…์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ์‘๋‹ต ๋Šฅ๋ ฅ๋„ ์—ฐ๊ตฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฐ ํ”„๋กฌํ”„ํŠธ์˜ ์ž‘์—…(Task)์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ž์—ฐ์–ด ์ง€์‹œ(ex. “ํ˜„๋ช…ํ•œ ๊ฐœ๊ตฌ๋ฆฌ์— ๋Œ€ํ•œ ์ด์•ผ๊ธฐ ์“ฐ๊ธฐ”)๋ฅผ ํ†ตํ•ด ์ง์ ‘์ ์œผ๋กœ ์ง€์ •๋˜์ง€๋งŒ, ๊ฒฝ์šฐ์— ๋”ฐ๋ผ ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ(Few-shot ์˜ˆ์‹œ)๋‚˜ ๋‚ด์žฌ์  ์—ฐ์†์„ฑ(Implicit Continuation)์„ ํ†ตํ•ด ๊ฐ„์ ‘์ ์œผ๋กœ ์ง€์ •๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐœ๊ตฌ๋ฆฌ ์ด์•ผ๊ธฐ์— ๋Œ€ํ•œ ์˜ˆ์‹œ ๋‘ ๊ฐœ๋ฅผ ์ œ๊ณตํ•ด ์ƒˆ ์ด์•ผ๊ธฐ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ํ•˜๊ฑฐ๋‚˜, ์ด์•ผ๊ธฐ์˜ ์‹œ์ž‘ ๋ถ€๋ถ„๋งŒ ์ฃผ์–ด ๋ชจ๋ธ์ด ์ด๋ฅผ ์ด์–ด๋‚˜๊ฐ€๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ ˆ์ด๋ธ”๋Ÿฌ๋“ค์€ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž‘์„ฑํ•œ ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ์ตœ์„ ์„ ๋‹คํ•ด ์ถ”๋ก ํ•˜๋„๋ก ์š”์ฒญ๋ฐ›์•˜์œผ๋ฉฐ, ๋ถˆ๋ถ„๋ช…ํ•œ ์ž‘์—…์„ ํฌํ•จํ•œ ์ž…๋ ฅ์€ ๊ฑด๋„ˆ๋›ฐ๋„๋ก ์ง€์‹œ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‘๋‹ต์˜ ์ง„์‹ค์„ฑ, ํŽธํ–ฅ์„ฑ, ์œ ํ•ด์„ฑ(์˜ˆ: ํŽธํ–ฅ๋œ ์–ธ์–ด, ๋…์„ฑ ์–ธ์–ด)์— ๋Œ€ํ•œ ๋‚ด์žฌ์  ์˜๋„๋„ ๊ณ ๋ คํ•˜๋„๋ก ์ง€์นจ(Appendix B)๊ณผ ์ตœ์„ ์˜ ํŒ๋‹จ์— ๋”ฐ๋ผ ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Human Data Colection

InstructGPT์˜ ๋ฐ๋ชจ ๋ฐ ๋น„๊ต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ฃผ์š” ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด Upwork์™€ ScaleAI๋ฅผ ํ†ตํ•ด ์•ฝ 40๋ช…์˜ ๋ผ๋ฒจ๋Ÿฌ ํŒ€์ด ๊ณ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์ „ ์—ฐ๊ตฌ์™€ ๋‹ฌ๋ฆฌ, ์ด ์—ฐ๊ตฌ์˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์•„์šฐ๋ฅด๋ฉฐ ๋•Œ๋•Œ๋กœ ๋…ผ๋ž€์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋Š” ๋ฏผ๊ฐํ•œ ์ฃผ์ œ๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋‹ค์–‘ํ•œ ์ธ๊ตฌํ†ต๊ณ„ํ•™์  ๊ทธ๋ฃน์˜ ์„ ํ˜ธ๋„์— ๋ฏผ๊ฐํ•˜๊ณ  ์ž ์žฌ์ ์œผ๋กœ ์œ ํ•ดํ•œ ์ถœ๋ ฅ์„ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ๋Šฅ์ˆ™ํ•œ ๋ผ๋ฒจ๋Ÿฌ๋“ค์„ ์„ ๋ฐœํ•˜๊ณ ์ž ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์„ค๊ณ„๋œ ์Šคํฌ๋ฆฌ๋‹ ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ๋†’์€ ์„ฑ๊ณผ๋ฅผ ๋ณด์ธ ๋ผ๋ฒจ๋Ÿฌ๋“ค์ด ์ตœ์ข…์ ์œผ๋กœ ์„ ํƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

 

ํ›ˆ๋ จ๊ณผ ํ‰๊ฐ€ ์ค‘์—๋Š” ๋ชจ๋ธ ์ •๋ ฌ ๊ธฐ์ค€์ด ์ถฉ๋Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ ์œ ํ•ดํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š” ์‘๋‹ต์„ ์š”์ฒญํ•˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ๋Š” ์‚ฌ์šฉ์ž ๋„์›€์„ ์šฐ์„ ์‹œํ–ˆ์œผ๋‚˜, ์ตœ์ข… ํ‰๊ฐ€ ๋‹จ๊ณ„์—์„œ๋Š” ์ง„์‹ค์„ฑ๊ณผ ๋ฌดํ•ด์„ฑ์„ ์ตœ์šฐ์„ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋„๋ก ๋ผ๋ฒจ๋Ÿฌ๋“ค์—๊ฒŒ ์š”์ฒญํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ”„๋กœ์ ํŠธ ๋™์•ˆ ๋ผ๋ฒจ๋Ÿฌ์™€์˜ ํ˜‘์—…์€ Stiennon et al. (2020) ์—ฐ๊ตฌ์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ด๋ฃจ์–ด์กŒ์œผ๋ฉฐ, ๋ผ๋ฒจ๋Ÿฌ๋“ค์„ ์œ„ํ•œ ์˜จ๋ณด๋”ฉ ๊ณผ์ •์ด ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ๋Š” ๋ผ๋ฒจ๋Ÿฌ๋“ค์—๊ฒŒ ๊ตฌ์ฒด์ ์ธ ์ง€์นจ์„ ์ œ๊ณตํ•˜๊ณ , ๋Œ€ํ™”๋ฐฉ์„ ํ†ตํ•ด ์งˆ๋ฌธ์— ์‘๋‹ตํ•˜๋ฉฐ, ๋ผ๋ฒจ๋Ÿฌ๋“ค์ด ๊ฐ ์ž‘์—…์— ๋Œ€ํ•œ ์ดํ•ด๋„๋ฅผ ๋†’์ด๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

 

๋˜ํ•œ, ๋ชจ๋ธ์ด ๋‹ค๋ฅธ ๋ผ๋ฒจ๋Ÿฌ์˜ ์„ ํ˜ธ๋„์— ์–ผ๋งˆ๋‚˜ ์ž˜ ์ผ๋ฐ˜ํ™”๋˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ๋ณ„๋„์˜ ๋ผ๋ฒจ๋Ÿฌ ๊ทธ๋ฃน์„ ๊ณ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์—๋Š” ์ฐธ์—ฌํ•˜์ง€ ์•Š์•˜์œผ๋ฉฐ, ์Šคํฌ๋ฆฌ๋‹ ํ…Œ์ŠคํŠธ๋„ ๊ฑฐ์น˜์ง€ ์•Š์€ ๋ผ๋ฒจ๋Ÿฌ๋“ค๋กœ, ๋™์ผํ•œ ๊ณต๊ธ‰์—…์ฒด์—์„œ ์„ ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ผ์น˜์œจ ์ธก๋ฉด์—์„œ๋Š”, ํ›ˆ๋ จ ๋ผ๋ฒจ๋Ÿฌ ๊ฐ„์˜ ์ผ์น˜์œจ์ด 72.6 ± 1.5%, ๋ณ„๋„ ๋ผ๋ฒจ๋Ÿฌ์˜ ๊ฒฝ์šฐ 77.3 ± 1.3%๋กœ ๋†’์€ ์ˆ˜์ค€์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” Stiennon et al. (2020) ์—ฐ๊ตฌ์˜ ์—ฐ๊ตฌ์ž ๊ฐ„ ์ผ์น˜์œจ์ธ 73 ± 4%์™€ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.


Models

InstructGPT ๋ชจ๋ธ์€ ์‚ฌ์ „ ํ•™์Šต๋œ GPT-3 ๋ชจ๋ธ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์„ธ ๊ฐ€์ง€ ํ•™์Šต ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • Supervised Fine-Tuning (SFT)
    • ๋ฐฉ๋ฒ•: ๋ ˆ์ด๋ธ”๋Ÿฌ๊ฐ€ ์ž‘์„ฑํ•œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด GPT-3 ๋ชจ๋ธ์„ ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์„ค์ •: 16 ์—ํฌํฌ ๋™์•ˆ ํ•™์Šตํ•˜๋ฉฐ, ์ฝ”์‚ฌ์ธ ํ•™์Šต๋ฅ  ๊ฐ์‡ (cosine learning rate decay)์™€ 0.2์˜ ๋“œ๋กญ์•„์›ƒ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ: ๋น„๋ก 1 ์—ํฌํฌ ํ›„ validation loss์—์„œ ๊ณผ์ ํ•ฉ์ด ๋ฐœ์ƒํ–ˆ์ง€๋งŒ, ๋” ๋งŽ์€ ์—ํฌํฌ ๋™์•ˆ ํ•™์Šต์ด ๋ณด์ƒ ๋ชจ๋ธ(RM) ์ ์ˆ˜์™€ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ํ‰๊ฐ€๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  • Reward Modeling (RM)
    • ๋ฐฉ๋ฒ•: SFT ๋ชจ๋ธ์—์„œ ์ตœ์ข… unembedding ๋ ˆ์ด์–ด๋ฅผ ์ œ๊ฑฐํ•˜๊ณ , ํ”„๋กฌํ”„ํŠธ์™€ ์‘๋‹ต์„ ๋ฐ›์•„ ์Šค์นผ๋ผ ๋ณด์ƒ ๊ฐ’์„ ์ถœ๋ ฅํ•˜๋„๋ก ๋ชจ๋ธ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ, 6B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ ˆ๊ฐํ•ฉ๋‹ˆ๋‹ค.
    • ๋น„๊ต ๋ฐ์ดํ„ฐ: ๋™์ผํ•œ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ ์ถœ๋ ฅ์„ ๋น„๊ตํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ cross-entropy ์†์‹ค์„ ํ†ตํ•ด RM์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋ ˆ์ด๋ธ”๋Ÿฌ(K)์—๊ฒŒ๋Š” 4~9๊ฐœ์˜ ์‘๋‹ต์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํ‘œ์‹œ๋˜๋Š” ๊ฐ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด (K/2)๊ฐœ์˜ ๋น„๊ต๊ฐ€ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋น„๊ต๋Š” ๊ฐ ๋ ˆ์ด๋ธ” ์ง€์ • ์ž‘์—… ๋‚ด์—์„œ ๋งค์šฐ ์ƒ๊ด€ ๊ด€๊ณ„๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ ๋น„๊ต๋ฅผ ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋‹จ์ˆœํžˆ ์„ž์œผ๋ฉด ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ ๋ฒˆ ํ†ต๊ณผํ•˜๋ฉด RM์ด overfit ๋ฉ๋‹ˆ๋‹ค.
    • ๋Œ€์‹  ๊ฐ ํ”„๋กฌํ”„ํŠธ์—์„œ ๋ชจ๋“  (K/2)๊ฐœ์˜ ๋น„๊ต๋ฅผ ํ•˜๋‚˜์˜ batch๋กœ์„œ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” RM์˜ ๋‹จ์ผ forward pass๋งŒ ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ›จ์”ฌ ๋” ๊ณ„์‚ฐ ํšจ์œจ์ ์ด๋ฉฐ ๋” ์ด์ƒ overfit๋˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ํ›จ์”ฌ ํ–ฅ์ƒ๋œ validation ์ •ํ™•๋„์™€ log loss๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ์†์‹ค ํ•จ์ˆ˜: RM์€ ํŠน์ • ์‘๋‹ต์„ ์„ ํ˜ธํ•˜๋Š” ๋กœ๊ทธ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ณด์ƒ ์ฐจ์ด๋ฅผ ์‚ฌ์šฉํ•ด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ rθ(x,y)๋Š” ํ”„๋กฌํ”„ํŠธ x์™€ ์‘๋‹ต y์— ๋Œ€ํ•œ RM์˜ ์Šค์นผ๋ผ ์ถœ๋ ฅ์ด๊ณ  yw๋Š” yw์™€ yl์Œ ์ค‘์— ๋” ์„ ํ˜ธ๋˜๋Š” ์‘๋‹ต์ด๋‹ค. D๋Š” ์ธ๊ฐ„ ๋น„๊ต์˜ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, RM loss๋Š” reward์˜ shift์— ๋ถˆ๋ณ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ ˆ์ด๋ธ”๋Ÿฌ ์‹œ์—ฐ์ด RL์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์ „์— ํ‰๊ท  ์ ์ˆ˜๊ฐ€ 0์ด ๋˜๋„๋ก bias๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ reward model์„ ์ •๊ทœํ™”ํ•ฉ๋‹ˆ๋‹ค.

  • Reinforcement Learning (RL)
    • ๋ฐฉ๋ฒ•: SFT ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ Proximal Policy Optimization (PPO) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ํ™˜๊ฒฝ์—์„œ ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ™˜๊ฒฝ์€ ๊ณ ๊ฐ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” "bandit" ํ™˜๊ฒฝ์œผ๋กœ, RM์ด ๊ฒฐ์ •ํ•˜๋Š” ๋ณด์ƒ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • KL Penalty: RM์˜ ๊ณผ๋„ํ•œ ์ตœ์ ํ™”๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด SFT ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ๊ธฐ์ค€์œผ๋กœ ํ† ํฐ๋‹น KL ํŒจ๋„ํ‹ฐ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • PPO-ptx: ๊ณต๊ฐœ NLP ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ์‚ฌ์ „ ํ•™์Šต์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ PPO ๊ธฐ์šธ๊ธฐ์— ํ˜ผํ•ฉํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • ์—ฌ๊ธฐ์„œ πRLฯ• ๋Š” ํ•™์Šต๋œ RL policy, πSFT๋Š” ์ง€๋„ ํ•™์Šต๋œ ๋ชจ๋ธ, Dpretrain์€ ์‚ฌ์ „ ํ•™์Šต ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค. KL reward ๊ณ„์ˆ˜ β์™€ pretraining loss ๊ณ„์ˆ˜ γ ๋Š” KL penalty์™€ ์‚ฌ์ „ ํ•™์Šต ๊ธฐ์šธ๊ธฐ์˜ ๊ฐ•๋„๋ฅผ ๊ฐ๊ฐ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค. “PPO” model์˜ ๊ฒฝ์šฐ γ=0 ์œผ๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‹ฌ๋ฆฌ ๋ช…์‹œ๋˜์ง€ ์•Š๋Š” ํ•œ ๋ณธ ๋…ผ๋ฌธ์—์„œ InstructGPT๋Š” “PPO-ptx” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ์ด ๋ชจ๋ธ์—์„œ๋Š” KL ํŒจ๋„ํ‹ฐ ๊ณ„์ˆ˜(β)์™€ ์‚ฌ์ „ ํ•™์Šต ๊ธฐ์šธ๊ธฐ ๊ณ„์ˆ˜(γ)๋ฅผ ํ†ตํ•ด ๋ณด์ƒ๊ณผ ์‚ฌ์ „ ํ•™์Šต ๊ฐ•๋„๋ฅผ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค. PPO-ptx๊ฐ€ ๋ณธ ๋…ผ๋ฌธ์—์„œ์˜ InstructGPT๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

Evaluation

InstructGPT ๋ชจ๋ธ์˜ "alignment"๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ๋ชจ๋ธ์ด ๋„์›€์ด ๋˜๋Š”(helpful), ์ •์งํ•œ(honest), ๋ฌดํ•ดํ•œ(harmless) ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋ชจ๋ธ์˜ ์ •๋ ฌ ์ƒํƒœ๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.

  • Helpful: ๋ชจ๋ธ์€ ์ง€์‹œ๋ฅผ ๋”ฐ๋ฅด๊ณ  few-shot ํ”„๋กฌํ”„ํŠธ ๋˜๋Š” "Q: {question} A:"์™€ ๊ฐ™์€ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํŒจํ„ด์„ ํ†ตํ•ด ์‚ฌ์šฉ์ž ์˜๋„๋ฅผ ์ถ”๋ก ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜๋„๊ฐ€ ๋ถˆ๋ช…ํ™•ํ•œ ํ”„๋กฌํ”„ํŠธ์˜ ๊ฒฝ์šฐ ๋ผ๋ฒจ๋Ÿฌ์˜ ํŒ๋‹จ์„ ์‹ ๋ขฐํ•˜๋ฉฐ, ๋ผ๋ฒจ๋Ÿฌ ์„ ํ˜ธ๋„ ํ‰๊ฐ€๊ฐ€ ์ฃผ์š” ํ‰๊ฐ€ ๊ธฐ์ค€์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ผ๋ฒจ๋Ÿฌ๊ฐ€ ์‚ฌ์šฉ์ž๊ฐ€ ์ž‘์„ฑํ•œ ํ”„๋กฌํ”„ํŠธ์˜ ์‹ค์ œ ์˜๋„๋ฅผ ์ •ํ™•ํžˆ ์ดํ•ดํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ๋„ ๊ฐ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  • Honest: ๋ชจ๋ธ์˜ "์ •์ง์„ฑ"์„ ์ง์ ‘์ ์œผ๋กœ ์ธก์ •ํ•˜๊ธฐ๋Š” ์–ด๋ ค์šฐ๋ฏ€๋กœ, ์ง„์‹ค์„ฑ(Truthfulness)์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค:
    • (1) Hallucination: closed-domain ์ž‘์—…์—์„œ ๋ชจ๋ธ์ด ์ •๋ณด๋ฅผ ๊พธ๋ฉฐ๋‚ด๋Š” ๊ฒฝํ–ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • (2) TruthfulQA ๋ฐ์ดํ„ฐ์…‹: ์‚ฌ์‹ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด TruthfulQA ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • Harmless: ๋ชจ๋ธ์˜ ํ•ด๋กœ์›€ ์—ฌ๋ถ€๋Š” ์‹ค์ œ ์‚ฌ์šฉ ํ™˜๊ฒฝ์—์„œ ์ถœ๋ ฅ์ด ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋Š”์ง€์— ๋”ฐ๋ผ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์ด์ „ ํ”„๋กœ์ ํŠธ์—์„œ๋Š” ๋ผ๋ฒจ๋Ÿฌ์—๊ฒŒ '์ž ์žฌ์  ์œ ํ•ด์„ฑ'์„ ํ‰๊ฐ€ํ•˜๋„๋ก ์š”์ฒญํ–ˆ์œผ๋‚˜, ์˜ˆ์ƒ ์‚ฌ์šฉ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์ถ”์ธก์ด ๊ณผ๋„ํ•˜๊ฒŒ ํ•„์š”ํ•˜์—ฌ, ๋Œ€์‹  ๊ตฌ์ฒด์ ์ธ proxy ๊ธฐ์ค€์„ ์‚ฌ์šฉํ•ด ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ผ๋ฒจ๋Ÿฌ๊ฐ€ ์‚ฌ์šฉ์ž ์–ด์‹œ์Šคํ„ดํŠธ๋กœ์„œ ๋ถ€์ ์ ˆํ•œ ๋‚ด์šฉ์ธ์ง€, ๋ณดํ˜ธ ๊ณ„์ธต์„ ํ„ํ•˜ํ•˜๋Š”์ง€, ์„ฑ์ ์ด๊ฑฐ๋‚˜ ํญ๋ ฅ์ ์ธ ๋‚ด์šฉ์„ ํฌํ•จํ•˜๋Š”์ง€ ๋“ฑ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, RealToxicityPrompts์™€ CrowS-Pairs ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์˜ ํŽธํ–ฅ๊ณผ ๋…์„ฑ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.

Quantitative ํ‰๊ฐ€ ์ง€ํ‘œ

ํ‰๊ฐ€๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์˜์—ญ์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. API ๋ถ„ํฌ์— ๋Œ€ํ•œ ํ‰๊ฐ€:
    • ํ•™์Šต ๋ถ„ํฌ์™€ ๋™์ผํ•œ ์ถœ์ฒ˜์—์„œ ๊ฐ€์ ธ์˜จ ๋ณด๋ฅ˜๋œ ํ”„๋กฌํ”„ํŠธ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ผ๋ฒจ๋Ÿฌ ์„ ํ˜ธ๋„ ํ‰๊ฐ€๋ฅผ ์ฃผ์š” ์ง€ํ‘œ๋กœ ์‚ผ์Šต๋‹ˆ๋‹ค.
    • API ํ‰๊ฐ€ ์‹œ ํ•™์Šต์— ํฌํ•จ๋˜์ง€ ์•Š์€ ๊ณ ๊ฐ์˜ ํ”„๋กฌํ”„ํŠธ๋งŒ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. InstructGPT ๋ชจ๋ธ์€ ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ ์Šคํƒ€์ผ๋กœ ์„ค๊ณ„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— GPT-3 ๊ธฐ์ค€ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•  ๋•Œ ๋ถˆ๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด, GPT-3 ๋ชจ๋ธ์— ๋งž์ถฐ ์„ค๊ณ„๋œ ํ”„๋กฌํ”„ํŠธ์™€๋„ ๋น„๊ต ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด ๊ธฐ์ค€ ๋ชจ๋ธ(175B SFT) ๋Œ€๋น„ ์„ ํ˜ธ๋˜๋Š” ๋นˆ๋„์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ์‘๋‹ต์˜ ์ „๋ฐ˜์  ํ’ˆ์งˆ์„ 1-7 Likert ์ฒ™๋„๋กœ ํ‰๊ฐ€ํ•˜์—ฌ ์ถ”๊ฐ€ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค.
  2.  ๊ณต๊ณต NLP ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํ‰๊ฐ€:
    • ์•ˆ์ „์„ฑ ํ‰๊ฐ€: ์ง„์‹ค์„ฑ, ๋…์„ฑ, ํŽธํ–ฅ์„ฑ์„ ์ธก์ •ํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • ์ „ํ†ต์  NLP ์ž‘์—…์˜ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ ํ‰๊ฐ€: ์งˆ๋ฌธ ์‘๋‹ต, ๋…ํ•ด, ์š”์•ฝ ๋“ฑ์˜ ์ž‘์—…์—์„œ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ RealToxicityPrompts ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋…์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์ธ๊ฐ„ ํ‰๊ฐ€๋„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

Table 3: Labeler-collected metadata on the API distribution


Results

InstructGPT์™€ GPT-3 ์ถœ๋ ฅ ๋น„๊ต

Figure 3: 175B SFT ๋ชจ๋ธ์— ๋Œ€ํ•œ ์Šน๋ฅ ๋กœ ์ธก์ •ํ•œ Model์˜ ์„ ํ˜ธ๋„ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์™ผ์ชฝ: API์— ์ œ์ถœ๋œ GPT ๋ชจ๋ธ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ; ์˜ค๋ฅธ์ชฝ: API์— ์ œ์ถœ๋œ InstructGPT ๋ชจ๋ธ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ; ์œ„์ชฝ: ํ™€๋“œ์•„์›ƒ ๋ผ๋ฒจ๋Ÿฌ์˜ ๊ฒฐ๊ณผ; ์•„๋ž˜์ชฝ: ํ›ˆ๋ จ ๋ผ๋ฒจ๋Ÿฌ์˜ ๊ฒฐ๊ณผ.

GPT-3 ๋ชจ๋ธ์— ์ œ์ถœ๋œ ํ”„๋กฌํ”„ํŠธ ํ‰๊ฐ€(์™ผ์ชฝ)์—์„œ๋Š” GPT (prompted)๋ฅผ ์ƒ๋žตํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ํ•ด๋‹น ํ”„๋กฌํ”„ํŠธ๊ฐ€ GPT-3์— ์ตœ์ ํ™”๋˜์–ด ์ž‘์„ฑ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. InstructGPT ๋ชจ๋ธ์— ์ œ์ถœ๋œ ํ”„๋กฌํ”„ํŠธ(์˜ค๋ฅธ์ชฝ)์™€๋Š” ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

 

InstructGPT ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์—์„œ GPT-3๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ๋†’์€ ์„ ํ˜ธ๋„๋ฅผ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, 175B InstructGPT๋Š” GPT-3 ์ถœ๋ ฅ๋ณด๋‹ค 85 ± 3% ๋” ์„ ํ˜ธ๋˜์—ˆ๊ณ , few-shot ์„ค์ •์˜ GPT-3๋ณด๋‹ค๋„ 71 ± 4% ๋” ์„ ํ˜ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” InstructGPT๊ฐ€ ๊ณ ๊ฐ ์–ด์‹œ์Šคํ„ดํŠธ๋กœ์„œ์˜ ์ ์ ˆ์„ฑ, ์ง€์‹œ ์‚ฌํ•ญ ์ค€์ˆ˜, closed-domain ์ž‘์—…์—์„œ์˜ ์‚ฌ์‹ค ์™œ๊ณก(hallucination) ๊ฐ์†Œ ์ธก๋ฉด์—์„œ GPT-3๋ณด๋‹ค ๋” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

 

PPO-ptx ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ

Figure 4: API ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ๋ฉ”ํƒ€ ๋ฐ์ดํ„ฐ์™€ Likert ์ ์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ณต๊ฐœ๋œ NLP ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•œ ๋ชจ๋ธ์ด InstructGPT๋ณด๋‹ค ๋‚ฎ์€ Likert ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜๋‹ค๋Š” ์ ์—์„œ ์ด ๋ฐ์ดํ„ฐ์…‹์€ ์œ ์ €์˜ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ์ ์ ˆํ•œ ์‘๋‹ต์„ ์ œ๊ณตํ•œ๋‹ค๋Š” ์ธก๋ฉด์—์„œ๋Š” ๋œ align ๋˜์—ˆ๋‹ค๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

PPO-ptx ๋ชจ๋ธ์€ ๋ผ๋ฒจ๋Ÿฌ์˜ ์„ ํ˜ธ๋„ ์ธก๋ฉด์—์„œ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ด์ง€ ์•Š์•˜์œผ๋‚˜, ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ ํฌ๊ธฐ์—์„œ ์•ฝ๊ฐ„์˜ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋‹ค๋ฅธ ๋ผ๋ฒจ๋Ÿฌ๋“ค์—๊ฒŒ๋Š” ์ผ๋ฐ˜์ ์ธ ๋ผ๋ฒจ๋Ÿฌ์™€ ๋น„์Šทํ•œ ์„ ํ˜ธ๋„๊ฐ€ ๋‚˜ํƒ€๋‚˜ InstructGPT๊ฐ€ ํ›ˆ๋ จ๋œ ๋ผ๋ฒจ๋Ÿฌ์— ๊ณผ์ ํ•ฉ๋˜์ง€ ์•Š์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

 

Held-out ๋ผ๋ฒจ๋Ÿฌ ์„ ํ˜ธ๋„

InstructGPT ๋ชจ๋ธ์€ ํ›ˆ๋ จ์— ์ฐธ์—ฌํ•˜์ง€ ์•Š์€ held-out ๋ผ๋ฒจ๋Ÿฌ๋“ค๋กœ๋ถ€ํ„ฐ๋„ GPT-3 ๋Œ€๋น„ ๋†’์€ ์„ ํ˜ธ๋„๋ฅผ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” InstructGPT๊ฐ€ ํŠน์ • ๋ผ๋ฒจ๋Ÿฌ์˜ ์„ ํ˜ธ๋„์— ๊ณผ์ ํ•ฉ๋˜์ง€ ์•Š์œผ๋ฉฐ, ๋” ๋„“์€ ์‚ฌ์šฉ์ž ์„ ํ˜ธ๋„๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Reward Model์˜ ์ผ๋ฐ˜ํ™” ์‹คํ—˜

๋ผ๋ฒจ๋Ÿฌ๋ฅผ 5๊ฐœ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„์–ด ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•œ ๊ฒฐ๊ณผ, Reward Model์€ held-out ๊ทธ๋ฃน์˜ ์„ ํ˜ธ๋„๋ฅผ 69.6 ± 0.9% ์ •ํ™•๋„๋กœ ์˜ˆ์ธกํ•˜์—ฌ, ํ›ˆ๋ จ ์„ธํŠธ์—์„œ์˜ ์ •ํ™•๋„์ธ 72.4 ± 0.4%์™€ ๋น„๊ตํ•ด ์•ฝ๊ฐ„ ๊ฐ์†Œํ•˜์˜€์œผ๋‚˜ ์—ฌ์ „ํžˆ ๋†’์€ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ณต๊ฐœ NLP ๋ฐ์ดํ„ฐ์…‹์˜ ํ•œ๊ณ„

๊ทธ๋ฆผ 5 : InstructGPT ํ”„๋กฌํ”„ํŠธ ๋ถ„ํฌ์—์„œ FLAN๊ณผ T0 ๋ชจ๋ธ์„ 1-7 Likert ์ฒ™๋„๋กœ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์šฐ๋ฆฌ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. FLAN๊ณผ T0๋Š” ๊ธฐ๋ณธ GPT-3๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•˜๋ฉฐ, ‘instruction-following’ ๋ชจ๋“œ๋กœ ์„ค์ •๋œ few-shot GPT-3 ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

nstructGPT๋Š” FLAN๊ณผ T0 ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šต๋œ GPT-3๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚ฌ์œผ๋ฉฐ, ์ด๋Š” API ๊ณ ๊ฐ์˜ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๊ณต๊ฐœ NLP ๋ฐ์ดํ„ฐ์…‹์— ๋ฐ˜์˜๋˜์ง€ ์•Š๋Š” ๋‹ค์–‘ํ•˜๊ณ  ๊ฐœ๋ฐฉ์ ์ธ ์ž‘์—…(์˜ˆ: ์ฐฝ์˜์  ์ƒ์„ฑ, ๋ธŒ๋ ˆ์ธ์Šคํ† ๋ฐ)์„ ๋งŽ์ด ํฌํ•จํ•˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. InstructGPT๊ฐ€ T0 ๋ฐ FLAN ๋ชจ๋ธ๋ณด๋‹ค ๊ณ ๊ฐ ์š”์ฒญ์— ๋” ์ ์ ˆํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•œ๋‹ค๋Š” ์ ์—์„œ, API ํ”„๋กฌํ”„ํŠธ์™€ ์ž˜ ์ •๋ ฌ๋œ ๋ชจ๋ธ์ž„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.


Results on Public NLP Dataset

InstructGPT ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ Truthfulness, Toxicity, ๋ฐ Bias ์ธก๋ฉด์—์„œ GPT-3์™€ ๋น„๊ตํ•˜์—ฌ ๊ณต๊ณต NLP ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Figure 6 : TruthfulQA ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ํšŒ์ƒ‰ ๋ง‰๋Œ€๋Š” ์ง„์‹ค์„ฑ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ƒ‰๊น” ์žˆ๋Š” ๋ง‰๋Œ€๋Š” ์ง„์‹ค์„ฑ๊ณผ ์ •๋ณด์„ฑ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

Truthfulness

  • TruthfulQA ๋ฐ์ดํ„ฐ์…‹์—์„œ InstructGPT(PPO ๋ชจ๋ธ)๋Š” GPT-3๋ณด๋‹ค ์ง„์‹ค๋˜๊ณ  ์ •๋ณด์„ฑ ์žˆ๋Š” ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์žˆ์–ด ์†Œํญ ๊ฐœ์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค(Figure 6 ์ฐธ์กฐ).
  • ํŠน๋ณ„ํžˆ ์ง€์‹œํ•˜์ง€ ์•Š์•„๋„ InstructGPT๋Š” ๋” ์ง„์‹คํ•œ ์‘๋‹ต์„ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋ฉฐ, "I have no comment"์™€ ๊ฐ™์€ ์ง€์นจ์„ ํฌํ•จํ•œ ํ”„๋กฌํ”„ํŠธ์—์„œ๋Š” ์ž˜๋ชป๋œ ๋‹ต์„ ์ž์‹  ์žˆ๊ฒŒ ์ œ๊ณตํ•˜๊ธฐ๋ณด๋‹ค๋Š” ์ง„์‹คํ•˜๋ฉด์„œ ์ •๋ณด์„ฑ์ด ์—†๋Š” ์‘๋‹ต์„ ์ œ๊ณตํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, InstructGPT๋Š” closed-domain ์ž‘์—…์—์„œ "hallucination"์„ ์ค„์ด๋ฉฐ, ๊ฑฐ์ง“ ์ •๋ณด๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋น„์œจ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค(Figure 4 ์ฐธ์กฐ).

Toxicity

Figure 7 : RealToxicityPrompts์—์„œ ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ์ž๋™ ํ‰๊ฐ€(Perspective API ์ ์ˆ˜)๋ฅผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด 1,729๊ฐœ์˜ ํ”„๋กฌํ”„ํŠธ๊ฐ€ "respectful" ์ง€์‹œ๋ฌธ์ด ํฌํ•จ๋œ ๊ฒฝ์šฐ์™€ ํฌํ•จ๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๋ฅผ ํฌํ•จํ•ด ์„ธ ๊ฐ€์ง€ 175B ๋ชจ๋ธ์— ๋Œ€ํ•ด ๋ผ๋ฒจ๋ง๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ ํ‘œ์‹œ๋œ ์ž๋™ ํ‰๊ฐ€๋Š” ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ ์ง‘ํ•ฉ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ„์‚ฐ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ „์ฒด ํ‰๊ฐ€ ์ง‘ํ•ฉ๊ณผ ์•ฝ๊ฐ„ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

  • RealToxicityPrompts ๋ฐ์ดํ„ฐ์…‹์—์„œ InstructGPT๋Š” "respectful" ์ง€์‹œ๊ฐ€ ํฌํ•จ๋œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด GPT-3๋ณด๋‹ค ๋œ ๋…์„ฑ์ ์ธ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜์˜€์œผ๋‚˜, ์ง€์‹œ๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ์—๋Š” ๋‘ ๋ชจ๋ธ์ด ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ๋…์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค(Figure 7 ์ฐธ์กฐ).
  • ๋ฐ˜๋ฉด, InstructGPT์— ๊ณ ์˜์ ์œผ๋กœ ๋…์„ฑ ์ถœ๋ ฅ์„ ์š”์ฒญํ•˜๋Š” ๊ฒฝ์šฐ, GPT-3๋ณด๋‹ค ํ›จ์”ฌ ๋…์„ฑ์ ์ธ ์‘๋‹ต์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ธ๊ฐ„ ํ‰๊ฐ€์—์„œ๋„ InstructGPT๋Š” "respectful" ์ง€์‹œ ํ•˜์—์„œ GPT-3๋ณด๋‹ค ๋‚ฎ์€ ๋…์„ฑ ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜์œผ๋ฉฐ, SFT ๋ชจ๋ธ์€ ๋…์„ฑ์ด ๊ฐ€์žฅ ๋‚ฎ์•˜์ง€๋งŒ ์ถœ๋ ฅ์ด ์งง๊ฑฐ๋‚˜ ๋‹จ์ˆœํ•˜์—ฌ ์—ฐ์†์„ฑ์ด ๋–จ์–ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

Bias

  • Winogender์™€ CrowS-Pairs ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ด ํŽธํ–ฅ์„ฑ์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, InstructGPT๋Š” GPT-3์™€ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ํŽธํ–ฅ์„ ๋ณด์˜€์œผ๋ฉฐ, "respectful" ์ง€์‹œ๊ฐ€ ์žˆ์„ ๋•Œ ์˜คํžˆ๋ ค ํŽธํ–ฅ์„ฑ์ด ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • InstructGPT๋Š” ํŠน์ • ํŽธํ–ฅ ํŒจํ„ด์„ ๋”ฐ๋ฅด๊ธฐ๋ณด๋‹ค๋Š” ์ง€์‹œ์— ๋”์šฑ ํ™•์‹ ์„ ๊ฐ€์ง€๊ณ  ์‘๋‹ตํ•˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์—ฌ์คฌ์œผ๋ฉฐ, ํŽธํ–ฅ์˜ ์–‘์ƒ์€ ์ผ๊ด€๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

Alignment Tax

  • PPO ๋ชจ๋ธ์„ API ๋ฐ์ดํ„ฐ์…‹์— ๋งž์ถฐ fine-tuningํ•  ๋•Œ, ์ผ๋ถ€ ๊ณต๊ณต NLP ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜("alignment tax")๊ฐ€ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์ „ ํ•™์Šต ์—…๋ฐ์ดํŠธ(pretraining mix)๋ฅผ PPO fine-tuning์— ํ˜ผํ•ฉํ•œ PPO-ptx ๋ชจ๋ธ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค(Figure 29 ์ฐธ์กฐ).
  • PPO-ptx ๋ชจ๋ธ์€ HellaSwag์—์„œ GPT-3๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋‚˜, DROP, SQuADv2, ๋ฒˆ์—ญ ์ž‘์—…์—์„œ๋Š” ์—ฌ์ „ํžˆ GPT-3๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค.
  • ์‚ฌ์ „ ํ•™์Šต ์—…๋ฐ์ดํŠธ๋ฅผ ํ˜ผํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์€ KL ๊ณ„์ˆ˜๋ฅผ ๋‹จ์ˆœํžˆ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•๋ณด๋‹ค ์„ฑ๋Šฅ ํšŒ๋ณต์— ํšจ๊ณผ์ ์ด์—ˆ์œผ๋ฉฐ, ํŠน์ • ๊ณ„์ˆ˜ ์„ค์ •์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด SQuADv2์™€ DROP ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

Qualitative Results

๋‹ค์Œ์€ InstructGPT 175B๋ฅผ GPT-3 175B์™€ ๋น„๊ตํ•œ ์ผ๋ฐ˜ํ™”์˜ ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค.

InstructGPT๋Š” ๋•Œ๋•Œ๋กœ ์˜์–ด๋กœ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ์–ธ์–ด๋กœ ๋œ ๋ช…๋ น์„ ๋”ฐ๋ฅผ ์ˆ˜ ์žˆ๋‹ค. GPT-3๋Š” ์˜์–ด์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๋” ์‹ ์ค‘ํ•œ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. InstructGPT๋Š” GPT-3๋ณด๋‹ค ์•ˆ์ •์ ์œผ๋กœ ์ฝ”๋“œ์— ๋Œ€ํ•œ ์งˆ๋ฌธ์„ ์š”์•ฝํ•˜๊ณ  ๋‹ต๋ณ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ์€ InstructGPT 175B๋ฅผ GPT-3 175B์™€ ๋น„๊ตํ•œ ๊ฐ„๋‹จํ•œ ์‹ค์ˆ˜์˜ ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ๋Š” ํŠน์ • ๋™์ž‘์„ ๋ณด์ด๊ธฐ ์œ„ํ•ด cherry-pickingํ•˜์˜€์ง€๋งŒ ์ถœ๋ ฅ์€ cherry-pickingํ•˜์ง€ ์•Š์•˜๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ InstructGPT๋Š” ์ž˜๋ชป๋œ ์ „์ œ๋ฅผ ๊ฐ€์ •ํ•˜๊ณ  ๊ทธ๋Œ€๋กœ ๋”ฐ๋ผ๊ฐ€๋Š” ๋ช…๋ น์œผ๋กœ ์ธํ•ด ํ˜ผ๋™๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. InstructGPT๋Š” ๊ฐ„๋‹จํ•œ ์งˆ๋ฌธ์— ์ง์ ‘ ๋‹ตํ•˜๊ธฐ๋ณด๋‹ค ์ง€๋‚˜์น˜๊ฒŒ hedgeํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.


Discussion

Implications for Alignment Research

์ด ์—ฐ๊ตฌ๋Š” AI ์‹œ์Šคํ…œ์„ ์ธ๊ฐ„์˜ ์˜๋„์— ๋งž์ถ”๋Š” "alignment" ์—ฐ๊ตฌ์˜ ์ผํ™˜์œผ๋กœ, ํ˜„์žฌ์˜ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘๋ฉฐ, ํ–ฅํ›„ AI ์‹œ์Šคํ…œ์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. RLHF๋ฅผ ์ด์šฉํ•œ ๋ชจ๋ธ alignment๋Š” ์„ฑ๋Šฅ ๋Œ€๋น„ ๋น„์šฉ์ด ์ ๊ฒŒ ๋“ค๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๊ธฐ๋ณด๋‹ค ๋” ํšจ์œจ์ ์ธ ๊ฐœ์„ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, InstructGPT๋Š” ๋น„๊ฐ์‹œ ํ•™์Šต ํ™˜๊ฒฝ์—์„œ๋„ ์ผ๋ถ€ ์ง€์นจ์„ ์ž˜ ๋”ฐ๋ฅด๋Š” ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์˜€์œผ๋ฉฐ, alignment์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ์ €ํ•˜("alignment tax")๊ฐ€ ํฌ์ง€ ์•Š์•„์„œ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์œ ์šฉํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

 

Who Are We Aligning To?

InstructGPT ๋ชจ๋ธ์˜ ํ–‰๋™์€ ๋ ˆ์ด๋ธ”๋Ÿฌ์˜ ์„ ํ˜ธ๋„์™€ ์—ฐ๊ตฌ์ž๋“ค์˜ ์„ค๊ณ„์— ๊ธฐ๋ฐ˜์„ ๋‘ก๋‹ˆ๋‹ค. ์ฃผ๋กœ ๋ฏธ๊ตญ๊ณผ ๋™๋‚จ์•„์‹œ์•„์˜ ์˜์–ด ์‚ฌ์šฉ์ž๋กœ ๊ตฌ์„ฑ๋œ ๋ ˆ์ด๋ธ”๋Ÿฌ๋“ค์ด ํ”„๋กฌํ”„ํŠธ์— ๋ฐ˜์‘ํ•˜๊ณ  ์žˆ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ์ง‘๋‹จ์ด ๋ชจ๋“  ์–ธ์–ด ์‚ฌ์šฉ์ž๋‚˜ ๋ชจ๋ธ์— ์˜ํ•ด ์˜ํ–ฅ์„ ๋ฐ›๋Š” ๋ชจ๋“  ์‚ฌ๋žŒ์„ ๋Œ€๋ณ€ํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, OpenAI API ๊ณ ๊ฐ๋“ค์˜ ์š”์ฒญ์„ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์‚ผ๊ณ  ์žˆ์–ด, ๊ณ ๊ฐ์ด ์›ํ•˜๊ฑฐ๋‚˜ ๊ทธ๋“ค์˜ ์ตœ์ข… ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ชจ๋ธ์ด ์ •๋ ฌ๋  ๊ฐ€๋Šฅ์„ฑ์ด ํฝ๋‹ˆ๋‹ค. ๊ณต์ •ํ•˜๊ณ  ํˆฌ๋ช…ํ•œ alignment ๊ณผ์ •์„ ์„ค๊ณ„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹ค์–‘ํ•œ ์ดํ•ด๊ด€๊ณ„์ž์˜ ์ฐธ์—ฌ์™€ ๋ณต์žกํ•œ ์„ ํƒ์ด ํ•„์š”ํ•˜๋ฉฐ, ํŠน์ • ์‚ฌ์šฉ์ž ๊ทธ๋ฃน์˜ ์„ ํ˜ธ๋„์— ๋งž์ถ˜ ๋ชจ๋ธ ๋ฐฐํฌ์™€ ์‚ฌ์šฉ์ด ๊ณ ๋ ค๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

Limitations

InstructGPT๋Š” ์—ฌ์ „ํžˆ ๋…์„ฑ ๋˜๋Š” ํŽธํ–ฅ๋œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์‚ฌ์šฉ์ž ์š”์ฒญ์„ ๋”ฐ๋ฅด๋‹ค ํ˜„์‹ค์—์„œ ์œ ํ•ดํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ ˆ์ด๋ธ”๋ง ์ž‘์—…์€ ์ฃผ๋กœ ์˜์–ด ์‚ฌ์šฉ์ž์— ์˜ํ•ด ์ด๋ฃจ์–ด์กŒ๊ณ , ๋Œ€๋ถ€๋ถ„์˜ ๋น„๊ต๊ฐ€ ๋น„์šฉ ๋ฌธ์ œ๋กœ ๋‹จ์ผ ๋ผ๋ฒจ๋Ÿฌ์— ์˜ํ•ด ์ˆ˜ํ–‰๋˜๋ฏ€๋กœ, ๋‹ค์–‘ํ•œ ๊ด€์ ์„ ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŽธํ–ฅ์ด๋‚˜ ๋…์„ฑ์ด ํŠน์ • ๊ทธ๋ฃน์— ๋ฏธ์น  ์˜ํ–ฅ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ ˆ์ด๋ธ”๋Ÿฌ ์„ ํ˜ธ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋“ฑ์˜ ๊ฐœ์„ ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

 

Open Questions

ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ๋Š” ๋…์„ฑ, ํŽธํ–ฅ, ์œ ํ•ดํ•œ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ๋ชจ๋ธ ๊ฒฝํ–ฅ์„ฑ์„ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์ตœ์•…์˜ ์‚ฌ๋ก€๋ฅผ ๋ฐœ๊ฒฌํ•ด ๋ฐ์ดํ„ฐ์…‹์— ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜, WebGPT์™€ ๊ฐ™์ด ์ง„์‹ค์„ฑ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ์•ˆ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‚ฌ์šฉ์ž๊ฐ€ ์œ ํ•ดํ•œ ์‘๋‹ต์„ ์š”์ฒญํ•ด๋„ ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๋„๋ก ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•˜๋ฉฐ, RLHF ์™ธ์—๋„ ๋‹ค์–‘ํ•œ ์ œ์–ด ๊ฐ€๋Šฅํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. "alignment tax" ์™„ํ™”์™€ ์•ˆ์ „ํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์„ ์œ„ํ•œ ํ”„๋ฆฌํŠธ๋ ˆ์ด๋‹ ๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง ๋ฐฉ๋ฒ•๋„ ๊ฐœ์„ ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

 

Broader Impacts

์ด ์—ฐ๊ตฌ๋Š” ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธ์ •์ ์ธ ์˜ํ–ฅ์„ ๋†’์ด๋ ค๋Š” ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ, alignment๊ฐ€ ๊ฐœ์„ ๋œ ๋ชจ๋ธ์€ ์ž˜๋ชป๋œ ์ •๋ณด๋‚˜ ์œ ํ•ดํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์•…์šฉ๋  ๊ฐ€๋Šฅ์„ฑ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์„ ๊ณ ์œ„ํ—˜ ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉํ•  ๋•Œ์—๋Š” ์ฃผ์˜๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, API๋ฅผ ํ†ตํ•œ ์ ‘๊ทผ ์ œ์–ด์™€ ์˜ค์šฉ ๋ชจ๋‹ˆํ„ฐ๋ง์ด ํ•„์š”ํ•˜์ง€๋งŒ, ์ด๋Š” ํˆฌ๋ช…์„ฑ ๊ฐ์†Œ์™€ ์ค‘์•™์ง‘์ค‘ํ™” ๋ฌธ์ œ๋ฅผ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ alignment ๋Œ€์ƒ์ด ๋ˆ„๊ตฌ์ธ์ง€์— ๋”ฐ๋ผ ๋ชจ๋ธ์˜ ์ˆœ์˜ํ–ฅ์ด ํฌ๊ฒŒ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.