์คํฐ๋ ์ค๋น๋ฅผ ํ๋ค๊ฐ ์ ๋ฆฌํ ๋ด์ฉ์ ํ๋ฒ Review๋ฅผ ํด๋ณด๊ฒ ์ต๋๋ค.
Training language models to follow instructions with human feedback
Abstract
์ธ์ด ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ๋ง์ผ๋ก๋ ์ฌ์ฉ์ ์๋์ ๋ ์ ๋ถํฉํ๋๋ก ๋ง๋๋ ๊ฒ์ด ์๋๋๋ค. ์๋ฅผ ๋ค์ด, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ง์คํ์ง ์๊ฑฐ๋, ์ ํดํ๊ฑฐ๋, ์ฌ์ฉ์์๊ฒ ๋์์ด ๋์ง ์๋ ์ถ๋ ฅ์ ์์ฑํ ์ ์์ต๋๋ค. ์ฆ, ์ด๋ฌํ ๋ชจ๋ธ์ ์ฌ์ฉ์์ ์๋์ ๋ง์ถฐ์ ธ ์์ง ์์ต๋๋ค. ์ฌ๊ธฐ์๋ ์ธ๊ฐ์ ํผ๋๋ฐฑ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๋ค์ํ ์์ ์์ ์ฌ์ฉ์ ์๋์ ์ผ์นํ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
OpenAI API๋ฅผ ํตํด ์์ง๋ ๋ ์ด๋ธ๋ฌ๊ฐ ์์ฑํ ํ๋กฌํํธ์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ์ํ๋ ๋์์ ์์ฐํ๋ ๋ฐ์ดํฐ์ ์ ์์งํ๊ณ , ์ด๋ฅผ ์ฌ์ฉํด GPT-3๋ฅผ ์ง๋ ํ์ต์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ต๋๋ค. ์ดํ ๋ชจ๋ธ ์ถ๋ ฅ์ ์์๋ฅผ ๋งค๊ธด ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ธ๊ฐ์ ํผ๋๋ฐฑ์ ํ์ฉํ ๊ฐํ ํ์ต์ ํตํด ์ด ์ง๋ ํ์ต ๋ชจ๋ธ์ ์ถ๊ฐ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ต๋๋ค.
์ด๋ก์จ ์์ฑ๋ ๋ชจ๋ธ์ InstructGPT๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. API ํ๋กฌํํธ ๋ถํฌ์ ๋ํ ์ธ๊ฐ ํ๊ฐ์์, 1.3B ํ๋ผ๋ฏธํฐ InstructGPT ๋ชจ๋ธ์ ์ถ๋ ฅ์ 175B ํ๋ผ๋ฏธํฐ์ GPT-3๋ณด๋ค ์ ํธ๋์์ต๋๋ค. InstructGPT ๋ชจ๋ธ์ ์ง์ค์ฑ๊ณผ ๋ ์ฑ ๊ฐ์ ๋ฉด์์ ํฅ์์ ๋ณด์์ผ๋ฉฐ, ๊ณต๊ณต NLP ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ ๊ฐ์๋ ์ต์ํ๋์์ต๋๋ค.
Introduction
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(Large Language Models, LMs)์ด ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ฆ๊ฐ์ํค๋ฉด์ ์ฑ๋ฅ์ด ํฅ์๋๋ค๊ณ ๋ฐํ๊ณ ์์ต๋๋ค(Brown et al., 2020). ํ์ง๋ง, ์ด ์ฑ๋ฅ ์ฆ๊ฐ๋ ์ฃผ๋ก ๊ณต๊ณต NLP ๋ฐ์ดํฐ์ ์์์ ๊ฐ๊ด์ ์ฑ๋ฅ์ ๋ถ๊ณผํ๋ฉฐ, ๋ชจ๋ธ์ด ์ค์ ์ธ๊ฐ์ ์๋๋ฅผ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ด๋ฅผ "misalignment"๋ผ๊ณ ํํํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ์ํฉ์ ํฌํจํ๋ค๊ณ ์ค๋ช ํฉ๋๋ค.
- ์ฌ์ค์ด ์๋ ์ ๋ณด๋ฅผ ์ฌ์ค์ฒ๋ผ ์์ฑ (Untruthful): ๋ชจ๋ธ์ด ์ ํํ์ง ์์ ์ ๋ณด๋ฅผ ์ฌ์ค์ฒ๋ผ ์ ๋ฌํ๋ ๋ฌธ์ .
- ์ ํดํ ์ ๋ณด ์์ฑ (Toxic): ํธํฅ์ ์ด๊ฑฐ๋ ์ ํดํ ๋ด์ฉ์ ์์ฑํ์ฌ ์ฌ์ฉ์์ ์์ ๊ณผ ์ค๋ฆฌ์ ๊ธฐ์ค์ ์ํ์ด ๋ ์ ์๋ ๋ฌธ์ .
- ์ฌ์ฉ์์๊ฒ ๋์๋์ง ์๋ ์ ๋ณด ์์ฑ (Not helpful): ์ฌ์ฉ์๊ฐ ํ์๋ก ํ๋ ์ง์์ฌํญ์ ์ ๋๋ก ๋ฐ๋ฅด์ง ์๊ณ ์ ์ฉํ์ง ์์ ์ ๋ณด๋ฅผ ์์ฑํ๋ ๋ฌธ์ .
์ด๋ฌํ ๋ฌธ์ ๋ ๋๋ถ๋ถ์ ์ธ์ด ๋ชจ๋ธ์ด ์ธํฐ๋ท ํ ์คํธ ๋ฐ์ดํฐ์์ ๋ค์ ํ ํฐ์ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ๋ จ๋์๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ค๊ณ ํฉ๋๋ค. ์ด๋ ์ฌ์ฉ์์ ์๊ตฌ๋ฅผ ์ถฉ์กฑ์ํค๋ ๋ชฉํ์๋ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ์ฌ์ฉ์ ์๋์ ๋ถ์ผ์นํ๊ฒ ๋ฉ๋๋ค.
RLHF๋ฅผ ํตํ ์ ๋ ฌ ๋ฌธ์ ํด๊ฒฐ
"misalignment" ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Reinforcement Learning from Human Feedback (RLHF) ๊ธฐ๋ฒ์ ํตํด GPT-3 ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค. ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ด ์ธ๊ฐ์ ํผ๋๋ฐฑ์ ๋ฐ์๋ค์ฌ ์ฌ์ฉ์ ์๋์ ๋์ฑ ๋ถํฉํ๋๋ก ์กฐ์ ๋ฉ๋๋ค.
ํนํ, InstructGPT ๋ชจ๋ธ์์๋ RLHF๋ฅผ ํตํด ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์กฐ์ ํ๋๋ฐ, ์ด ๊ณผ์ ์์ ๋ผ๋ฒจ๋ง ์์ ์ ์ํํ๋ ์ฌ๋๋ค์ ๊ณ ์ฉํ์ฌ ๋ฐ์ดํฐ์ ์ ์์งํ๊ณ , ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ธ๊ฐ์ ์ ํธ์ ๋ง๋ ์ถ๋ ฅ์ ์์ฑํ ์ ์๋๋ก ํ๋ จํ์ต๋๋ค.
RLHF์ ๋ฐ์ดํฐ์ ์์ฑ๊ณผ ๋ผ๋ฒจ๋ฌ ๊ณ ์ฉ
- ๋ผ๋ฒจ๋ฌ ์ ๋ฐ ๋ฐ ๋ฐ์ดํฐ ์์ฑ: ๋ผ๋ฒจ๋ฌ 40๋ช ์ ๊ณ ์ฉํ์ฌ ๋ฐ์ดํฐ์ ๋ผ๋ฒจ์ ๋ถ์ด๋ ์์ ์ ์ํํ์ต๋๋ค. ์ด๋ค์ ์ฌ์ ํ๊ฐ ๊ณผ์ ์ ๊ฑฐ์ณ ์ ๋ฐ๋์์ผ๋ฉฐ, ๋ค์ํ ์ธ๊ตฌํต๊ณํ์ ํน์ฑ์ ๊ณ ๋ คํด ๋ค์ํ ๋ต๋ณ์ ํ๊ฐํ ์ ์๋๋ก ํ์ต๋๋ค. ๋ํ, ์ ํดํ์ง ์์ ๋ต๋ณ์ ์ ๊ตฌ๋ณํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ผ๋ฒจ๋ฌ๋ค์ ์ค์ฌ์ผ๋ก ์ ๋ฐํ์ต๋๋ค.
- ๋ผ๋ฒจ๋ฌ์ ์์
: ๋ผ๋ฒจ๋ฌ๋ค์ ๋ ๊ฐ์ง ์ฃผ์ ์์
์ ์ํํ์ต๋๋ค.
- ์ด์์ ์ธ ์ง๋ฌธ/๋ต๋ณ ๋ฐ์ดํฐ์ ์์ฑ: ๋ผ๋ฒจ๋ฌ๋ค์ด ์ํ๋ ๋ฐฉ์์ ๋ต๋ณ์ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด, ๋ผ๋ฒจ๋ฌ๋ค์ด ์ด์์ ์ด๋ผ๊ณ ์๊ฐํ๋ ๋ต๋ณ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ถํ์ต๋๋ค.
- ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ํ ์์ ๋งค๊ธฐ๊ธฐ: ๋ชจ๋ธ์ด ์ฌ๋ฌ ์ถ๋ ฅ ๋ฌธ์ฅ์ ์์ฑํ ๋, ๊ฐ ์ถ๋ ฅ์ ๋ํด ์ ํธ๋๋ฅผ ๋ฐํ์ผ๋ก ์์๋ฅผ ๋งค๊ฒจ ๋ชจ๋ธ์ด ์ํ๋ ์ถ๋ ฅ ๋ฐฉํฅ์ผ๋ก ํ์ตํ ์ ์๋๋ก ํ์ต๋๋ค.
InstructGPT์ ํ์ต ๊ณผ์ ์์ฝ
InstructGPT ๋ชจ๋ธ์ ๋ ๋จ๊ณ์ ํ๋ จ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
- Supervised Learning(์ง๋ ํ์ต)์ ํตํ SFT(Supervised Fine-Tuning) ๋ชจ๋ธ ์์ฑ: ๋ผ๋ฒจ๋ฌ๋ค์ด ๋ง๋ ์ง๋ฌธ/๋ต๋ณ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ GPT-3 ๋ชจ๋ธ์ ์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํด SFT ๋ชจ๋ธ์ ์์ฑํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๋ผ๋ฒจ๋ฌ๋ค์ด ์ ๊ณตํ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ํ๋ ๋ต๋ณ์ ์์ธกํ๋ ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค.
- ๋ณด์ ๋ชจ๋ธ(RM) ํ์ต ๋ฐ ๊ฐํ ํ์ต ์งํ:
- ๋ณด์ ๋ชจ๋ธ(RM) ์์ฑ: SFT ๋ชจ๋ธ์ด ์์ฑํ ์ถ๋ ฅ์ ๋ํด ์ ํธ๋ ํ๊ฐ๋ฅผ ์ํํ์ฌ, ์ ํธ๋๊ฐ ๋์ ์ถ๋ ฅ์๋ ๋์ ๋ณด์์ ๋ฐํํ๋๋ก ๋ณด์ ๋ชจ๋ธ(RM)์ ํ์ตํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ์ธ๊ฐ์ ์ ํธ๋ฅผ ๋ฐ์ํ ์ ์๋๋ก ๋ฐฉํฅ์ ์ ์ํ๋ ์ญํ ์ ํฉ๋๋ค.
- PPO๋ฅผ ํ์ฉํ ๊ฐํ ํ์ต ์งํ: SFT ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก, RM์ ์ด์ฉํด PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๊ฐํ ํ์ต์ ์งํํ์ต๋๋ค. ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ RM์ ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๋ฉฐ, ์ด๋ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ์ด ์ธ๊ฐ์ ์ ํธ๋ฅผ ๋ฐ์ํ๋ ์ถ๋ ฅ์ ์์ฑํ๊ฒ ํฉ๋๋ค.
์๋ ๊ทธ๋ฆผ์ ๋ฐํ ์์ธํ ์ค๋ช ์ Methods and Experimental Details ๋ถ๋ถ์์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
Related Work
Related Work ๋ถ๋ถ์์๋ 5๊ฐ์ง์ ๋ด์ฉ์ ๋ฐํ์ฌ ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
์ ๋ ฌ ๋ฐ ์ธ๊ฐ ํผ๋๋ฐฑ ํ์ต
๋ชจ๋ธ์ ์ธ๊ฐ์ ์๋์ ๋ง์ถ๊ธฐ ์ํ ๊ธฐ์กด ์ฐ๊ตฌ๋ค, ํนํ ์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํ ํ์ต(RLHF) ๊ธฐ๋ฒ์ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ ฌ์ํค๋ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. RLHF๋ ์๋ ๊ฐ๋จํ ๋ก๋ด์ด๋ ์ํ๋ฆฌ ๊ฒ์์์ ์ฌ์ฉ๋์์ผ๋, ์ต๊ทผ์๋ ์ธ์ด ๋ชจ๋ธ์ ์์ฝ ๋ฑ ํ ์คํธ ์์ ์ ๋ง์ถ๊ธฐ ์ํ ๋ฏธ์ธ ์กฐ์ ์ ์ ์ฉ๋๊ณ ์์ต๋๋ค(Ziegler et al., 2019; Stiennon et al., 2020). ์ด ์ฐ๊ตฌ๋ ๋ํ(Jaques et al., 2019), ๋ฒ์ญ(Kreutzer et al., 2018), ์คํ ๋ฆฌ ์์ฑ(Zhou and Xu, 2020), ๋ฆฌ๋ทฐ ์์ฑ(Cho et al., 2018) ๋ฑ์์ ์ธ๊ฐ ํผ๋๋ฐฑ์ ๋ณด์ ์ ํธ๋ก ์ฌ์ฉํ๋ ์ ์ฌ ์ฐ๊ตฌ์์ ์ํฅ์ ๋ฐ์์ต๋๋ค. ๋ํ Madaan et al. (2022)์ ์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํด GPT-3์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๋ฐ ๊ธฐ์ฌํ์๊ณ , Nahian et al. (2021)์ ํ ์คํธ ๊ธฐ๋ฐ ํ๊ฒฝ์์ RL์ ํ์ฉํด ์์ด์ ํธ๋ฅผ ์ ๋ ฌํ๋ ์ฐ๊ตฌ๋ฅผ ์งํํ์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ RLHF๋ฅผ ๊ด๋ฒ์ํ ์ธ์ด ์์ ์ ์ ์ฉํ์ฌ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ ฌํ๋ ์ง์ ์ ์ธ ์ฌ๋ก๋ก ๋ณผ ์ ์์ต๋๋ค.
์ธ์ด ๋ชจ๋ธ ์ ๋ ฌ์ ์๋ฏธ
์ต๊ทผ ๋ค์ด ์ธ์ด ๋ชจ๋ธ์ด "์ ๋ ฌ"๋๋ค๋ ๊ฒ์ ์๋ฏธ์ ๋ํ ๊ด์ฌ์ด ๋์์ง๊ณ ์์ต๋๋ค. Kenton et al. (2021)์ ๋ชจ๋ธ์ ๋ฏธ์ ๋ ฌ๋ก ์ธํด ๋ฐ์ํ๋ ๋ฌธ์ ๋ค์ ์ ๋ฆฌํ์ผ๋ฉฐ, Askell et al. (2021)์ ์ธ์ด ์ด์์คํดํธ๋ฅผ ์ ๋ ฌ ์ฐ๊ตฌ์ ์คํ ๋์์ผ๋ก ์ ์ํ์์ต๋๋ค.
์ธ์ด ๋ชจ๋ธ์ ์ง์ ๋ฐ๋ฅด๊ธฐ ํ๋ จ
์ธ์ด ๋ชจ๋ธ์ ๋ค์ํ ๊ณต๊ณต NLP ๋ฐ์ดํฐ์ ์ ๋ํด ์ง์์ ํจ๊ป ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๋ค์ํ NLP ์์ ์์์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ค๋ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค(Yi et al., 2019; Mishra et al., 2021). ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ํ๋ จ ๋ฐ ํ๊ฐ ๋ฐ์ดํฐ, ์ง์ ํ์, ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ํฌ๊ธฐ, ์คํ์ ์ธ๋ถ ์ฌํญ์์ ์ฐจ์ด๊ฐ ์์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ๋ค์ํ NLP ์์ ์ ๋ํด ๋ชจ๋ธ์ ์ง์์ ํจ๊ป ๋ฏธ์ธ ์กฐ์ ํ๋ฉด ์ ๋ก์ท๊ณผ ํจ์ท ์ค์ ๋ชจ๋์์ ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ค๋ ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๋ชจ๋ธ์ด ์์ฐ์ด ์ง์๋ฅผ ๋ฐ๋ผ ๊ฒฝ๋ก๋ฅผ ์ฐพ๋๋ก ํ๋ จํ๋ ์ฐ๊ตฌ(Bahdanau et al., 2018; Abramson et al., 2020)๊ฐ ์งํ๋๊ณ ์์ต๋๋ค.
์ธ์ด ๋ชจ๋ธ์ ์ ํด์ฑ ํ๊ฐ
์ธ์ด ๋ชจ๋ธ์ ํ๋์ ์์ ํ๋ ๋ชฉํ ์ค ํ๋๋ ์ค์ ํ๊ฒฝ์์ ์ฌ์ฉ๋ ๋ ๋ฐ์ํ ์ ์๋ ์ ํด์ฑ์ ์ํํ๋ ๊ฒ์ ๋๋ค. ๋ชจ๋ธ์ ํธํฅ๋ ์ถ๋ ฅ(Dhamala et al., 2021), ๊ฐ์ธ์ ๋ณด ์ ์ถ(Carlini et al., 2021), ์๋ชป๋ ์ ๋ณด ์์ฑ(Solaiman et al., 2019) ๋ฑ์ ์ํ์ ์ด๋ํ ์ ์์ผ๋ฉฐ, ํน์ ๋๋ฉ์ธ, ์๋ฅผ ๋ค์ด ๋ํ ์์คํ ์์๋ ์ถ๊ฐ์ ์ธ ์ํ ์์๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค(Henderson et al., 2018; Dinan et al., 2019b). ๋ ์ฑ(Gehman et al., 2020), ๊ณ ์ ๊ด๋ (Nadeem et al., 2020), ์ฌํ์ ํธํฅ(Dhamala et al., 2021)๊ณผ ๊ด๋ จ๋ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๋ ค๋ ์ฐ๊ตฌ๋ ํ๋ฐํ ์งํ๋๊ณ ์์ต๋๋ค.
์ธ์ด ๋ชจ๋ธ์ ์ ํด์ฑ ์ํ๋ฅผ ์ํ ํ๋ ์์
Solaiman๊ณผ Dennison (2021)์ ๊ฐ์น ๊ธฐ๋ฐ์ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ์ฌ QA ์์ ์์ ์ด ๊ฐ์น๋ฅผ ๋ฐ๋ฅด๋ ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค. Ngo et al. (2021)์ ํน์ ํธ๋ฆฌ๊ฑฐ ๊ตฌ๋ฌธ์ ํฌํจํ ๋ฌธ์๋ฅผ ํํฐ๋งํ์ฌ, ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํํ๋ฉด์๋ ์ ํด ํ ์คํธ ์์ฑ์ ์ค์์ต๋๋ค. Xu et al. (2020)์ ์ฑ๋ด์ ์์ ์ฑ์ ๋์ด๊ธฐ ์ํด ํน์ ๋จ์ด ์ฐจ๋จ, ์์ ์ ์ด ํ ํฐ ์ฌ์ฉ ๋ฑ์ ๊ธฐ๋ฒ์ ์ ์ฉํ์ต๋๋ค. ์ถ๊ฐ์ ์ผ๋ก ํธํฅ ์ํ๋ฅผ ์ํ ๋จ์ด ์๋ฒ ๋ฉ ์ ๊ทํ(Liu et al., 2019), ๋ฐ์ดํฐ ์ฆ๊ฐ, null ๊ณต๊ฐ ํฌ์(Liang et al., 2021) ๋ฑ์ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ, Dathathri et al. (2019)์ Krause et al. (2020)์ ์์ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํด ๋ ํฐ ๋ชจ๋ธ์ ์์ฑ์ ์กฐ์ ํ๋ ์ฐ๊ตฌ๋ฅผ ์งํํ์ต๋๋ค.
Methods and Experimental Details
High-Level Methodology
Ziegler et al. (2019)์ Stiennon et al. (2020)์ ๋ฐฉ๋ฒ๋ก ์ธ Fine-tuning language models from human preferences ๋ ผ๋ฌธ๊ณผ Learning to summarize from human feedback ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ๋ก ์ ๋ฐ๋ฆ ๋๋ค. Figure2 ์ ์๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ๋ฐฉ๋ฒ๋ก ์ ํตํด ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ(GPT-3)์ ์ฌ์ฉ์ ์๋์ ๋ง๊ฒ ์ ๋ ฌํฉ๋๋ค.
- Step 1: ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ supervised policy๋ฅผ ํ์ต: ๋ ์ด๋ธ๋ฌ๋ ์ ๋ ฅ ํ๋กฌํํธ ๋ถํฌ์์ ์ํ๋ ๋์์ ๋ฐ๋ชจ๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋ฐ ๋ค์ ์ง๋ ํ์ต์ ์ฌ์ฉํ์ฌ ์ด ๋ฐ์ดํฐ์์ ์ฌ์ ํ์ต๋ GPT-3 ๋ชจ๋ธ์ fine-tuning ํฉ๋๋ค.
- Step 2: ๋น๊ต ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ reward model์ ํ์ต: ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด ๋ ์ด๋ธ๋ฌ๊ฐ ์ ํธํ๋ ์ถ๋ ฅ์ ๋ํ๋ด๋ ๋ชจ๋ธ ์ถ๋ ฅ๋ค ์ฌ์ด์ ๋น๊ต ๋ฐ์ดํฐ์ ์ ์์งํ๋ค. ๊ทธ๋ฐ ๋ค์ reward model(RM)์ ํ์ต์์ผ ์ธ๊ฐ์ด ์ ํธํ๋ ์ถ๋ ฅ์ ์์ธก ํฉ๋๋ค.
- Step 3: PPO๋ฅผ ์ฌ์ฉํ์ฌ reward model์ ๋ํ policy ์ต์ ํ: RM์ ์ถ๋ ฅ์ ์ค์นผ๋ผ ๋ณด์์ผ๋ก ์ฌ์ฉํ๋ค. PPO ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ด reward๋ฅผ ์ต์ ํํ๊ธฐ ์ํด supervised policy๋ฅผ fine-tuning ํฉ๋๋ค.
2๋จ๊ณ์ 3๋จ๊ณ๋ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ ์ ์์ผ๋ฉฐ, ํ์ฌ ์ต์ ์ ์ ์ฑ ์์ ์ถ๊ฐ ๋น๊ต ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ์๋ก์ด ๋ณด์ ๋ชจ๋ธ๊ณผ ์ ์ฑ ์ ํ์ตํ๋ ๊ณผ์ ์ ์ง์์ ์ผ๋ก ์งํํฉ๋๋ค. ์คํ์์ ๋๋ถ๋ถ์ ๋น๊ต ๋ฐ์ดํฐ๋ ์ง๋ ํ์ต๋ ์ ์ฑ ์์, ์ผ๋ถ๋ PPO ์ ์ฑ ์์ ์์ง๋์์ต๋๋ค.
Dataset
InstructGPT์ ํ์ต์ ์ํด ์ฃผ๋ก OpenAI API์ Playground ์ธํฐํ์ด์ค์ ์ ์ถ๋ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ๊ณ ๊ฐ๋ค์ InstructGPT ๋ชจ๋ธ ์ฌ์ฉ ์ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋ ์ ์์์ ์๋ฆฌ๋ ๋ฐ๋ณต ์๋ฆผ์ ๋ฐ์์ผ๋ฉฐ, ์ด ๋ ผ๋ฌธ์์๋ ํ๋ก๋์ ํ๊ฒฝ์์ API๋ฅผ ์ฌ์ฉํ๋ ๊ณ ๊ฐ ๋ฐ์ดํฐ๋ ํฌํจ๋์ง ์์์ต๋๋ค. ๋ฐ์ดํฐ ์ค๋ณต์ ๋ฐฉ์งํ๊ธฐ ์ํด ๊ธด ๊ณตํต ์ ๋์ฌ๋ฅผ ๊ฐ์ง ํ๋กฌํํธ๋ ์ค๋ณต์ ์ ๊ฑฐํ๊ณ , ์ฌ์ฉ์ ID๋น ์ต๋ 200๊ฐ์ ํ๋กฌํํธ๋ก ์ ํํ์ต๋๋ค.
๋ํ, train, validation, test ์ธํธ๋ฅผ ์ฌ์ฉ์ ID๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ถ๋ฆฌํ์ฌ, ๋์ผ ์ฌ์ฉ์์ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ ์ธํธ์ ์ค๋ณต๋์ง ์๋๋ก ํ์ต๋๋ค. train set์ ๋ชจ๋ ํ๋กฌํํธ๋ ๊ฐ์ธ ์๋ณ ์ ๋ณด(PII)๋ฅผ ํํฐ๋งํ์ฌ ๋ชจ๋ธ์ด ๋ฏผ๊ฐํ ์ ๋ณด ํ์ต์ ํผํ๋๋ก ํ์ต๋๋ค. ์ต์ด์ InstructGPT ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ๋ ์ด๋ธ๋ฌ๊ฐ ์ง์ ์์ฑํ ํ๋กฌํํธ๊ฐ ํ์ํ์ต๋๋ค. ์ด๋ ์ด๊ธฐ ๋ช ๋ นํ ํ๋กฌํํธ๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ฉฐ, ๋ ์ด๋ธ๋ฌ๋ค์ ์ธ ๊ฐ์ง ํ๋กฌํํธ ์ ํ์ ์์ฑํ์ต๋๋ค.
- Plain: ์์์ ๋ค์ํ ์์ ์ ํฌํจํ ์ผ๋ฐ ํ๋กฌํํธ.
- Few-shot: ๋ช ๋ น๊ณผ ์ฌ๋ฌ ์ฟผ๋ฆฌ/์๋ต ์์ ํฌํจํ ํ๋กฌํํธ.
- User-based: OpenAI API์ ๋ค์ํ ์ ์ฆ ์ผ์ด์ค๋ฅผ ๋ฐ์ํ ํ๋กฌํํธ.
์ด๋ฅผ ๋ฐํ์ผ๋ก ์ธ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ์์ต๋๋ค:
- SFT ๋ฐ์ดํฐ์ : ์ง๋ ํ์ต(SFT) ๋ชจ๋ธ ํ์ต์ ์ํ ๋ ์ด๋ธ๋ฌ์ ์์ฐ ๋ฐ์ดํฐ๋ก, ์ฝ 13,000๊ฐ์ ํ๋กฌํํธ๋ฅผ ํฌํจ.
- RM ๋ฐ์ดํฐ์ : ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ํ ๋ ์ด๋ธ๋ฌ์ ์ ํธ๋๋ฅผ ๊ธฐ๋กํ ๋ฐ์ดํฐ๋ก, ๋ณด์ ๋ชจ๋ธ(RM) ํ์ต์ ์ฌ์ฉ๋๋ฉฐ ์ฝ 33,000๊ฐ์ ํ๋กฌํํธ ํฌํจ.
- PPO ๋ฐ์ดํฐ์ : RLHF๋ฅผ ์ํ PPO ์๊ณ ๋ฆฌ์ฆ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ฉฐ, ์ฝ 31,000๊ฐ์ API ํ๋กฌํํธ๋ก ๊ตฌ์ฑ๋จ.
Tasks
InstructGPT์ ํ์ต์๋ ๋ ๊ฐ์ง ์ฃผ์ ์์ค์ ํ๋กฌํํธ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ๋ ์ด๋ธ๋ฌ๊ฐ ์์ฑํ ํ๋กฌํํธ ๋ฐ์ดํฐ์
- ์ด๊ธฐ InstructGPT ๋ชจ๋ธ์ API๋ฅผ ํตํด ์ ์ถ๋ ํ๋กฌํํธ ๋ฐ์ดํฐ์
์ด๋ฌํ ํ๋กฌํํธ๋ ๋งค์ฐ ๋ค์ํ๋ฉฐ ์์ฑ, ์ง๋ฌธ ์๋ต(QA), ๋ํ, ์์ฝ, ์ ๋ณด ์ถ์ถ, ๊ทธ ์ธ ์ฌ๋ฌ ์์ฐ์ด ์์ ์ ํฌํจํฉ๋๋ค. ๋ฐ์ดํฐ์ ์ 96% ์ด์์ด ์์ด๋ก ๋์ด ์์ผ๋, ๋ค๋ฅธ ์ธ์ด๋ก ์์ฑ๋ ์ง์๋ฌธ์ด๋ ์ฝ๋ฉ ์์ ์ ๋ํ ๋ชจ๋ธ์ ์๋ต ๋ฅ๋ ฅ๋ ์ฐ๊ตฌ๋์์ต๋๋ค.
๊ฐ ํ๋กฌํํธ์ ์์ (Task)์ ์ผ๋ฐ์ ์ผ๋ก ์์ฐ์ด ์ง์(ex. “ํ๋ช ํ ๊ฐ๊ตฌ๋ฆฌ์ ๋ํ ์ด์ผ๊ธฐ ์ฐ๊ธฐ”)๋ฅผ ํตํด ์ง์ ์ ์ผ๋ก ์ง์ ๋์ง๋ง, ๊ฒฝ์ฐ์ ๋ฐ๋ผ ๋ช ๊ฐ์ง ์์(Few-shot ์์)๋ ๋ด์ฌ์ ์ฐ์์ฑ(Implicit Continuation)์ ํตํด ๊ฐ์ ์ ์ผ๋ก ์ง์ ๋ ์๋ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ๊ฐ๊ตฌ๋ฆฌ ์ด์ผ๊ธฐ์ ๋ํ ์์ ๋ ๊ฐ๋ฅผ ์ ๊ณตํด ์ ์ด์ผ๊ธฐ๋ฅผ ์์ฑํ๋๋ก ํ๊ฑฐ๋, ์ด์ผ๊ธฐ์ ์์ ๋ถ๋ถ๋ง ์ฃผ์ด ๋ชจ๋ธ์ด ์ด๋ฅผ ์ด์ด๋๊ฐ๋๋ก ์ ๋ํ ์ ์์ต๋๋ค. ๋ ์ด๋ธ๋ฌ๋ค์ ํ๋กฌํํธ๋ฅผ ์์ฑํ ์ฌ์ฉ์์ ์๋๋ฅผ ์ต์ ์ ๋คํด ์ถ๋ก ํ๋๋ก ์์ฒญ๋ฐ์์ผ๋ฉฐ, ๋ถ๋ถ๋ช ํ ์์ ์ ํฌํจํ ์ ๋ ฅ์ ๊ฑด๋๋ฐ๋๋ก ์ง์๋ฐ์์ต๋๋ค. ๋ํ, ์๋ต์ ์ง์ค์ฑ, ํธํฅ์ฑ, ์ ํด์ฑ(์: ํธํฅ๋ ์ธ์ด, ๋ ์ฑ ์ธ์ด)์ ๋ํ ๋ด์ฌ์ ์๋๋ ๊ณ ๋ คํ๋๋ก ์ง์นจ(Appendix B)๊ณผ ์ต์ ์ ํ๋จ์ ๋ฐ๋ผ ํ๋ จ๋์์ต๋๋ค.
Human Data Colection
InstructGPT์ ๋ฐ๋ชจ ๋ฐ ๋น๊ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ์ฃผ์ ํ๊ฐ๋ฅผ ์ํํ๊ธฐ ์ํด Upwork์ ScaleAI๋ฅผ ํตํด ์ฝ 40๋ช ์ ๋ผ๋ฒจ๋ฌ ํ์ด ๊ณ ์ฉ๋์์ต๋๋ค. ์ด์ ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ, ์ด ์ฐ๊ตฌ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ ๋ค์ํ ์์ ์ ์์ฐ๋ฅด๋ฉฐ ๋๋๋ก ๋ ผ๋์ ์ฌ์ง๊ฐ ์๋ ๋ฏผ๊ฐํ ์ฃผ์ ๋ฅผ ํฌํจํ ์ ์์ต๋๋ค. ์ ์๋ค์ ๋ค์ํ ์ธ๊ตฌํต๊ณํ์ ๊ทธ๋ฃน์ ์ ํธ๋์ ๋ฏผ๊ฐํ๊ณ ์ ์ฌ์ ์ผ๋ก ์ ํดํ ์ถ๋ ฅ์ ์๋ณํ๋ ๋ฐ ๋ฅ์ํ ๋ผ๋ฒจ๋ฌ๋ค์ ์ ๋ฐํ๊ณ ์ ํ์์ต๋๋ค. ์ด๋ฅผ ์ํด ์ค๊ณ๋ ์คํฌ๋ฆฌ๋ ํ ์คํธ๋ฅผ ํตํด ๋์ ์ฑ๊ณผ๋ฅผ ๋ณด์ธ ๋ผ๋ฒจ๋ฌ๋ค์ด ์ต์ข ์ ์ผ๋ก ์ ํ๋์์ต๋๋ค.
ํ๋ จ๊ณผ ํ๊ฐ ์ค์๋ ๋ชจ๋ธ ์ ๋ ฌ ๊ธฐ์ค์ด ์ถฉ๋ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ ์ ํดํ ๊ฐ๋ฅ์ฑ์ด ์๋ ์๋ต์ ์์ฒญํ๋ ๊ฒฝ์ฐ์ ๋๋ค. ํ๋ จ ๋จ๊ณ์์๋ ์ฌ์ฉ์ ๋์์ ์ฐ์ ์ํ์ผ๋, ์ต์ข ํ๊ฐ ๋จ๊ณ์์๋ ์ง์ค์ฑ๊ณผ ๋ฌดํด์ฑ์ ์ต์ฐ์ ์ผ๋ก ํ๊ฐํ๋๋ก ๋ผ๋ฒจ๋ฌ๋ค์๊ฒ ์์ฒญํ์ต๋๋ค.
ํ๋ก์ ํธ ๋์ ๋ผ๋ฒจ๋ฌ์์ ํ์ ์ Stiennon et al. (2020) ์ฐ๊ตฌ์ ์ ์ฌํ๊ฒ ์ด๋ฃจ์ด์ก์ผ๋ฉฐ, ๋ผ๋ฒจ๋ฌ๋ค์ ์ํ ์จ๋ณด๋ฉ ๊ณผ์ ์ด ํฌํจ๋์์ต๋๋ค. ์ด ๊ณผ์ ์์๋ ๋ผ๋ฒจ๋ฌ๋ค์๊ฒ ๊ตฌ์ฒด์ ์ธ ์ง์นจ์ ์ ๊ณตํ๊ณ , ๋ํ๋ฐฉ์ ํตํด ์ง๋ฌธ์ ์๋ตํ๋ฉฐ, ๋ผ๋ฒจ๋ฌ๋ค์ด ๊ฐ ์์ ์ ๋ํ ์ดํด๋๋ฅผ ๋์ด๋๋ก ๋์ต๋๋ค.
๋ํ, ๋ชจ๋ธ์ด ๋ค๋ฅธ ๋ผ๋ฒจ๋ฌ์ ์ ํธ๋์ ์ผ๋ง๋ ์ ์ผ๋ฐํ๋๋์ง ํ์ธํ๊ธฐ ์ํด ๋ณ๋์ ๋ผ๋ฒจ๋ฌ ๊ทธ๋ฃน์ ๊ณ ์ฉํ์์ต๋๋ค. ์ด๋ค์ ํ๋ จ ๋ฐ์ดํฐ ์์ฑ์๋ ์ฐธ์ฌํ์ง ์์์ผ๋ฉฐ, ์คํฌ๋ฆฌ๋ ํ ์คํธ๋ ๊ฑฐ์น์ง ์์ ๋ผ๋ฒจ๋ฌ๋ค๋ก, ๋์ผํ ๊ณต๊ธ์ ์ฒด์์ ์ ๋ฐ๋์์ต๋๋ค.
์ผ์น์จ ์ธก๋ฉด์์๋, ํ๋ จ ๋ผ๋ฒจ๋ฌ ๊ฐ์ ์ผ์น์จ์ด 72.6 ± 1.5%, ๋ณ๋ ๋ผ๋ฒจ๋ฌ์ ๊ฒฝ์ฐ 77.3 ± 1.3%๋ก ๋์ ์์ค์ ๋ณด์์ต๋๋ค. ์ด๋ Stiennon et al. (2020) ์ฐ๊ตฌ์ ์ฐ๊ตฌ์ ๊ฐ ์ผ์น์จ์ธ 73 ± 4%์ ์ ์ฌํ ์์ค์ ๋๋ค.
Models
InstructGPT ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ GPT-3 ๋ชจ๋ธ์์ ์์ํ์ฌ ์ธ ๊ฐ์ง ํ์ต ๊ธฐ๋ฒ์ ํตํด ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
- Supervised Fine-Tuning (SFT)
- ๋ฐฉ๋ฒ: ๋ ์ด๋ธ๋ฌ๊ฐ ์์ฑํ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด GPT-3 ๋ชจ๋ธ์ ์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค.
- ์ค์ : 16 ์ํฌํฌ ๋์ ํ์ตํ๋ฉฐ, ์ฝ์ฌ์ธ ํ์ต๋ฅ ๊ฐ์ (cosine learning rate decay)์ 0.2์ ๋๋กญ์์์ ์ฌ์ฉํฉ๋๋ค.
- ๊ฒฐ๊ณผ: ๋น๋ก 1 ์ํฌํฌ ํ validation loss์์ ๊ณผ์ ํฉ์ด ๋ฐ์ํ์ง๋ง, ๋ ๋ง์ ์ํฌํฌ ๋์ ํ์ต์ด ๋ณด์ ๋ชจ๋ธ(RM) ์ ์์ ์ธ๊ฐ ์ ํธ๋ ํ๊ฐ๋ฅผ ํฅ์์์ผฐ์ต๋๋ค.
- Reward Modeling (RM)
- ๋ฐฉ๋ฒ: SFT ๋ชจ๋ธ์์ ์ต์ข unembedding ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๊ณ , ํ๋กฌํํธ์ ์๋ต์ ๋ฐ์ ์ค์นผ๋ผ ๋ณด์ ๊ฐ์ ์ถ๋ ฅํ๋๋ก ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค. ์ด๋, 6B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ๋ง ์ฌ์ฉํ์ฌ ๊ณ์ฐ ๋น์ฉ์ ์ ๊ฐํฉ๋๋ค.
- ๋น๊ต ๋ฐ์ดํฐ: ๋์ผํ ์ ๋ ฅ์ ๋ํ ๋ ๊ฐ์ง ๋ชจ๋ธ ์ถ๋ ฅ์ ๋น๊ตํ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ cross-entropy ์์ค์ ํตํด RM์ ํ์ตํฉ๋๋ค. ๋ ์ด๋ธ๋ฌ(K)์๊ฒ๋ 4~9๊ฐ์ ์๋ต์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํ์๋๋ ๊ฐ ํ๋กฌํํธ์ ๋ํด (K/2)๊ฐ์ ๋น๊ต๊ฐ ์์ฑ๋ฉ๋๋ค. ๋น๊ต๋ ๊ฐ ๋ ์ด๋ธ ์ง์ ์์ ๋ด์์ ๋งค์ฐ ์๊ด ๊ด๊ณ๊ฐ ์์ผ๋ฏ๋ก ๋น๊ต๋ฅผ ํ๋์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋จ์ํ ์์ผ๋ฉด ๋ฐ์ดํฐ์ ์ ํ ๋ฒ ํต๊ณผํ๋ฉด RM์ด overfit ๋ฉ๋๋ค.
- ๋์ ๊ฐ ํ๋กฌํํธ์์ ๋ชจ๋ (K/2)๊ฐ์ ๋น๊ต๋ฅผ ํ๋์ batch๋ก์ ํ์ตํฉ๋๋ค. ์ด๋ RM์ ๋จ์ผ forward pass๋ง ํ์ํ๊ธฐ ๋๋ฌธ์ ํจ์ฌ ๋ ๊ณ์ฐ ํจ์จ์ ์ด๋ฉฐ ๋ ์ด์ overfit๋์ง ์๊ธฐ ๋๋ฌธ์ ํจ์ฌ ํฅ์๋ validation ์ ํ๋์ log loss๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
- ์์ค ํจ์: RM์ ํน์ ์๋ต์ ์ ํธํ๋ ๋ก๊ทธ ํ๋ฅ ์ ๋ํ๋ด๋ ๋ณด์ ์ฐจ์ด๋ฅผ ์ฌ์ฉํด ์์ค์ ์ต์ํํ๋๋ก ํ์ต๋ฉ๋๋ค.
์ฌ๊ธฐ์ rθ(x,y)๋ ํ๋กฌํํธ x์ ์๋ต y์ ๋ํ RM์ ์ค์นผ๋ผ ์ถ๋ ฅ์ด๊ณ yw๋ yw์ yl์ ์ค์ ๋ ์ ํธ๋๋ ์๋ต์ด๋ค. D๋ ์ธ๊ฐ ๋น๊ต์ ๋ฐ์ดํฐ์ ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก, RM loss๋ reward์ shift์ ๋ถ๋ณํ๊ธฐ ๋๋ฌธ์ ๋ ์ด๋ธ๋ฌ ์์ฐ์ด RL์ ์ํํ๊ธฐ ์ ์ ํ๊ท ์ ์๊ฐ 0์ด ๋๋๋ก bias๋ฅผ ์ฌ์ฉํ์ฌ reward model์ ์ ๊ทํํฉ๋๋ค.
- Reinforcement Learning (RL)
- ๋ฐฉ๋ฒ: SFT ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก Proximal Policy Optimization (PPO) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ํ๊ฒฝ์์ ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. ์ด ํ๊ฒฝ์ ๊ณ ๊ฐ ํ๋กฌํํธ์ ๋ํ ์๋ต์ ์์ฑํ๋ "bandit" ํ๊ฒฝ์ผ๋ก, RM์ด ๊ฒฐ์ ํ๋ ๋ณด์์ ์์ฑํฉ๋๋ค.
- KL Penalty: RM์ ๊ณผ๋ํ ์ต์ ํ๋ฅผ ๋ง๊ธฐ ์ํด SFT ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๊ธฐ์ค์ผ๋ก ํ ํฐ๋น KL ํจ๋ํฐ๋ฅผ ์ถ๊ฐํฉ๋๋ค.
- PPO-ptx: ๊ณต๊ฐ NLP ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ ์ ํ๋ฅผ ์ค์ด๊ธฐ ์ํด ์ฌ์ ํ์ต์ ๊ธฐ์ธ๊ธฐ๋ฅผ PPO ๊ธฐ์ธ๊ธฐ์ ํผํฉํ ๋ชจ๋ธ์ ๋๋ค.
- ์ฌ๊ธฐ์ πRLฯ ๋ ํ์ต๋ RL policy, πSFT๋ ์ง๋ ํ์ต๋ ๋ชจ๋ธ, Dpretrain์ ์ฌ์ ํ์ต ๋ถํฌ์ ๋๋ค. KL reward ๊ณ์ β์ pretraining loss ๊ณ์ γ ๋ KL penalty์ ์ฌ์ ํ์ต ๊ธฐ์ธ๊ธฐ์ ๊ฐ๋๋ฅผ ๊ฐ๊ฐ ์กฐ์ ํฉ๋๋ค. “PPO” model์ ๊ฒฝ์ฐ γ=0 ์ผ๋ก ์ค์ ํฉ๋๋ค. ๋ฌ๋ฆฌ ๋ช ์๋์ง ์๋ ํ ๋ณธ ๋ ผ๋ฌธ์์ InstructGPT๋ “PPO-ptx” ๋ชจ๋ธ์ ๋๋ค.
- ์ด ๋ชจ๋ธ์์๋ KL ํจ๋ํฐ ๊ณ์(β)์ ์ฌ์ ํ์ต ๊ธฐ์ธ๊ธฐ ๊ณ์(γ)๋ฅผ ํตํด ๋ณด์๊ณผ ์ฌ์ ํ์ต ๊ฐ๋๋ฅผ ์กฐ์ ํฉ๋๋ค. PPO-ptx๊ฐ ๋ณธ ๋ ผ๋ฌธ์์์ InstructGPT๋ฅผ ์๋ฏธํฉ๋๋ค.
Evaluation
InstructGPT ๋ชจ๋ธ์ "alignment"๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ ์๋ค์ ๋ชจ๋ธ์ด ๋์์ด ๋๋(helpful), ์ ์งํ(honest), ๋ฌดํดํ(harmless) ์ถ๋ ฅ์ ์์ฑํ๋์ง ์ฌ๋ถ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ชจ๋ธ์ ์ ๋ ฌ ์ํ๋ฅผ ์ธก์ ํฉ๋๋ค.
- Helpful: ๋ชจ๋ธ์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ few-shot ํ๋กฌํํธ ๋๋ "Q: {question} A:"์ ๊ฐ์ ํด์ ๊ฐ๋ฅํ ํจํด์ ํตํด ์ฌ์ฉ์ ์๋๋ฅผ ์ถ๋ก ํด์ผ ํฉ๋๋ค. ์๋๊ฐ ๋ถ๋ช ํํ ํ๋กฌํํธ์ ๊ฒฝ์ฐ ๋ผ๋ฒจ๋ฌ์ ํ๋จ์ ์ ๋ขฐํ๋ฉฐ, ๋ผ๋ฒจ๋ฌ ์ ํธ๋ ํ๊ฐ๊ฐ ์ฃผ์ ํ๊ฐ ๊ธฐ์ค์ ๋๋ค. ๊ทธ๋ฌ๋ ๋ผ๋ฒจ๋ฌ๊ฐ ์ฌ์ฉ์๊ฐ ์์ฑํ ํ๋กฌํํธ์ ์ค์ ์๋๋ฅผ ์ ํํ ์ดํดํ์ง ๋ชปํ ์ ์๋ค๋ ์ ๋ ๊ฐ์ํฉ๋๋ค.
- Honest: ๋ชจ๋ธ์ "์ ์ง์ฑ"์ ์ง์ ์ ์ผ๋ก ์ธก์ ํ๊ธฐ๋ ์ด๋ ค์ฐ๋ฏ๋ก, ์ง์ค์ฑ(Truthfulness)์ ํ๊ฐํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ ๊ฐ์ง ์งํ๋ฅผ ์ฌ์ฉํฉ๋๋ค:
- (1) Hallucination: closed-domain ์์ ์์ ๋ชจ๋ธ์ด ์ ๋ณด๋ฅผ ๊พธ๋ฉฐ๋ด๋ ๊ฒฝํฅ์ ํ๊ฐํฉ๋๋ค.
- (2) TruthfulQA ๋ฐ์ดํฐ์ : ์ฌ์ค์ ๊ธฐ๋ฐ์ผ๋ก ํ ์๋ต์ ์์ฑํ๋์ง ํ์ธํ๊ธฐ ์ํด TruthfulQA ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํฉ๋๋ค.
- Harmless: ๋ชจ๋ธ์ ํด๋ก์ ์ฌ๋ถ๋ ์ค์ ์ฌ์ฉ ํ๊ฒฝ์์ ์ถ๋ ฅ์ด ์ด๋ป๊ฒ ์ฌ์ฉ๋๋์ง์ ๋ฐ๋ผ ๋ค๋ฆ ๋๋ค. ์ด์ ํ๋ก์ ํธ์์๋ ๋ผ๋ฒจ๋ฌ์๊ฒ '์ ์ฌ์ ์ ํด์ฑ'์ ํ๊ฐํ๋๋ก ์์ฒญํ์ผ๋, ์์ ์ฌ์ฉ ๋ฐฉ์์ ๋ํ ์ถ์ธก์ด ๊ณผ๋ํ๊ฒ ํ์ํ์ฌ, ๋์ ๊ตฌ์ฒด์ ์ธ proxy ๊ธฐ์ค์ ์ฌ์ฉํด ํ๊ฐํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ผ๋ฒจ๋ฌ๊ฐ ์ฌ์ฉ์ ์ด์์คํดํธ๋ก์ ๋ถ์ ์ ํ ๋ด์ฉ์ธ์ง, ๋ณดํธ ๊ณ์ธต์ ํํํ๋์ง, ์ฑ์ ์ด๊ฑฐ๋ ํญ๋ ฅ์ ์ธ ๋ด์ฉ์ ํฌํจํ๋์ง ๋ฑ์ ํ๊ฐํฉ๋๋ค. ๋ํ, RealToxicityPrompts์ CrowS-Pairs ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด ๋ชจ๋ธ์ ํธํฅ๊ณผ ๋ ์ฑ์ ์ธก์ ํฉ๋๋ค.
Quantitative ํ๊ฐ ์งํ
ํ๊ฐ๋ ๋ ๊ฐ์ง ์ฃผ์ ์์ญ์ผ๋ก ๋๋ ์ ์์ต๋๋ค:
- API ๋ถํฌ์ ๋ํ ํ๊ฐ:
- ํ์ต ๋ถํฌ์ ๋์ผํ ์ถ์ฒ์์ ๊ฐ์ ธ์จ ๋ณด๋ฅ๋ ํ๋กฌํํธ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ผ๋ฒจ๋ฌ ์ ํธ๋ ํ๊ฐ๋ฅผ ์ฃผ์ ์งํ๋ก ์ผ์ต๋๋ค.
- API ํ๊ฐ ์ ํ์ต์ ํฌํจ๋์ง ์์ ๊ณ ๊ฐ์ ํ๋กฌํํธ๋ง ์ ํํฉ๋๋ค. InstructGPT ๋ชจ๋ธ์ ์ง์ ๋ฐ๋ฅด๊ธฐ ์คํ์ผ๋ก ์ค๊ณ๋์๊ธฐ ๋๋ฌธ์ GPT-3 ๊ธฐ์ค ๋ชจ๋ธ๊ณผ ๋น๊ตํ ๋ ๋ถ๋ฆฌํ ์ ์์ด, GPT-3 ๋ชจ๋ธ์ ๋ง์ถฐ ์ค๊ณ๋ ํ๋กฌํํธ์๋ ๋น๊ต ํ๊ฐํฉ๋๋ค.
- ๊ฐ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ๊ธฐ์ค ๋ชจ๋ธ(175B SFT) ๋๋น ์ ํธ๋๋ ๋น๋์๋ฅผ ๊ณ์ฐํ๊ณ , ์๋ต์ ์ ๋ฐ์ ํ์ง์ 1-7 Likert ์ฒ๋๋ก ํ๊ฐํ์ฌ ์ถ๊ฐ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค.
- ๊ณต๊ณต NLP ๋ฐ์ดํฐ์
์ ๋ํ ํ๊ฐ:
- ์์ ์ฑ ํ๊ฐ: ์ง์ค์ฑ, ๋ ์ฑ, ํธํฅ์ฑ์ ์ธก์ ํ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด ๋ชจ๋ธ์ ์์ ์ฑ์ ํ๊ฐํฉ๋๋ค.
- ์ ํต์ NLP ์์ ์ ์ ๋ก์ท ์ฑ๋ฅ ํ๊ฐ: ์ง๋ฌธ ์๋ต, ๋ ํด, ์์ฝ ๋ฑ์ ์์ ์์ ์ ๋ก์ท ์ฑ๋ฅ์ ์ธก์ ํฉ๋๋ค. ํนํ RealToxicityPrompts ๋ฐ์ดํฐ์ ์์ ๋ ์ฑ ํ๊ฐ๋ฅผ ์ํ ์ธ๊ฐ ํ๊ฐ๋ ์ํํฉ๋๋ค.
Results
InstructGPT์ GPT-3 ์ถ๋ ฅ ๋น๊ต
GPT-3 ๋ชจ๋ธ์ ์ ์ถ๋ ํ๋กฌํํธ ํ๊ฐ(์ผ์ชฝ)์์๋ GPT (prompted)๋ฅผ ์๋ตํ์ผ๋ฉฐ, ์ด๋ ํด๋น ํ๋กฌํํธ๊ฐ GPT-3์ ์ต์ ํ๋์ด ์์ฑ๋์๊ธฐ ๋๋ฌธ์ ๋๋ค. InstructGPT ๋ชจ๋ธ์ ์ ์ถ๋ ํ๋กฌํํธ(์ค๋ฅธ์ชฝ)์๋ ๋ค๋ฆ ๋๋ค.
InstructGPT ๋ชจ๋ธ์ ๋ค์ํ ํฌ๊ธฐ์์ GPT-3๋ณด๋ค ์ผ๊ด๋๊ฒ ๋์ ์ ํธ๋๋ฅผ ๋ฐ์์ต๋๋ค. ํนํ, 175B InstructGPT๋ GPT-3 ์ถ๋ ฅ๋ณด๋ค 85 ± 3% ๋ ์ ํธ๋์๊ณ , few-shot ์ค์ ์ GPT-3๋ณด๋ค๋ 71 ± 4% ๋ ์ ํธ๋์์ต๋๋ค. ์ด๋ InstructGPT๊ฐ ๊ณ ๊ฐ ์ด์์คํดํธ๋ก์์ ์ ์ ์ฑ, ์ง์ ์ฌํญ ์ค์, closed-domain ์์ ์์์ ์ฌ์ค ์๊ณก(hallucination) ๊ฐ์ ์ธก๋ฉด์์ GPT-3๋ณด๋ค ๋ ์ ๋ขฐํ ์ ์์์ ์์ฌํฉ๋๋ค.
PPO-ptx ๋ชจ๋ธ์ ์ฑ๋ฅ
PPO-ptx ๋ชจ๋ธ์ ๋ผ๋ฒจ๋ฌ์ ์ ํธ๋ ์ธก๋ฉด์์ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ด์ง ์์์ผ๋, ๋๊ท๋ชจ ๋ชจ๋ธ ํฌ๊ธฐ์์ ์ฝ๊ฐ์ ์ฑ๋ฅ ์ ํ๊ฐ ๊ด์ฐฐ๋์์ต๋๋ค. ๋ํ, ๋ค๋ฅธ ๋ผ๋ฒจ๋ฌ๋ค์๊ฒ๋ ์ผ๋ฐ์ ์ธ ๋ผ๋ฒจ๋ฌ์ ๋น์ทํ ์ ํธ๋๊ฐ ๋ํ๋ InstructGPT๊ฐ ํ๋ จ๋ ๋ผ๋ฒจ๋ฌ์ ๊ณผ์ ํฉ๋์ง ์์์ ํ์ธํ์ต๋๋ค.
Held-out ๋ผ๋ฒจ๋ฌ ์ ํธ๋
InstructGPT ๋ชจ๋ธ์ ํ๋ จ์ ์ฐธ์ฌํ์ง ์์ held-out ๋ผ๋ฒจ๋ฌ๋ค๋ก๋ถํฐ๋ GPT-3 ๋๋น ๋์ ์ ํธ๋๋ฅผ ๋ฐ์์ต๋๋ค. ์ด๋ InstructGPT๊ฐ ํน์ ๋ผ๋ฒจ๋ฌ์ ์ ํธ๋์ ๊ณผ์ ํฉ๋์ง ์์ผ๋ฉฐ, ๋ ๋์ ์ฌ์ฉ์ ์ ํธ๋๋ฅผ ๋ฐ์ํ๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ถ๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค.
Reward Model์ ์ผ๋ฐํ ์คํ
๋ผ๋ฒจ๋ฌ๋ฅผ 5๊ฐ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด ๊ต์ฐจ ๊ฒ์ฆ์ ์ํํ ๊ฒฐ๊ณผ, Reward Model์ held-out ๊ทธ๋ฃน์ ์ ํธ๋๋ฅผ 69.6 ± 0.9% ์ ํ๋๋ก ์์ธกํ์ฌ, ํ๋ จ ์ธํธ์์์ ์ ํ๋์ธ 72.4 ± 0.4%์ ๋น๊ตํด ์ฝ๊ฐ ๊ฐ์ํ์์ผ๋ ์ฌ์ ํ ๋์ ์์ธก ์ ํ๋๋ฅผ ์ ์งํ์ต๋๋ค.
๊ณต๊ฐ NLP ๋ฐ์ดํฐ์ ์ ํ๊ณ
nstructGPT๋ FLAN๊ณผ T0 ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋ GPT-3๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋ฌ์ผ๋ฉฐ, ์ด๋ API ๊ณ ๊ฐ์ ํ๋กฌํํธ๊ฐ ๊ณต๊ฐ NLP ๋ฐ์ดํฐ์ ์ ๋ฐ์๋์ง ์๋ ๋ค์ํ๊ณ ๊ฐ๋ฐฉ์ ์ธ ์์ (์: ์ฐฝ์์ ์์ฑ, ๋ธ๋ ์ธ์คํ ๋ฐ)์ ๋ง์ด ํฌํจํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. InstructGPT๊ฐ T0 ๋ฐ FLAN ๋ชจ๋ธ๋ณด๋ค ๊ณ ๊ฐ ์์ฒญ์ ๋ ์ ์ ํ ์๋ต์ ์์ฑํ๋ค๋ ์ ์์, API ํ๋กฌํํธ์ ์ ์ ๋ ฌ๋ ๋ชจ๋ธ์์ ๋ํ๋ ๋๋ค.
Results on Public NLP Dataset
InstructGPT ๋ชจ๋ธ์ ์ฑ๋ฅ์ Truthfulness, Toxicity, ๋ฐ Bias ์ธก๋ฉด์์ GPT-3์ ๋น๊ตํ์ฌ ๊ณต๊ณต NLP ๋ฐ์ดํฐ์ ์์ ํ๊ฐํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Truthfulness
- TruthfulQA ๋ฐ์ดํฐ์ ์์ InstructGPT(PPO ๋ชจ๋ธ)๋ GPT-3๋ณด๋ค ์ง์ค๋๊ณ ์ ๋ณด์ฑ ์๋ ์๋ต์ ์์ฑํ๋ ๋ฐ ์์ด ์ํญ ๊ฐ์ ์ ๋ณด์์ต๋๋ค(Figure 6 ์ฐธ์กฐ).
- ํน๋ณํ ์ง์ํ์ง ์์๋ InstructGPT๋ ๋ ์ง์คํ ์๋ต์ ๊ธฐ๋ณธ์ ์ผ๋ก ์์ฑํ๋ฉฐ, "I have no comment"์ ๊ฐ์ ์ง์นจ์ ํฌํจํ ํ๋กฌํํธ์์๋ ์๋ชป๋ ๋ต์ ์์ ์๊ฒ ์ ๊ณตํ๊ธฐ๋ณด๋ค๋ ์ง์คํ๋ฉด์ ์ ๋ณด์ฑ์ด ์๋ ์๋ต์ ์ ๊ณตํ๋ ๊ฒฝํฅ์ด ์์ต๋๋ค.
- ๋ํ, InstructGPT๋ closed-domain ์์ ์์ "hallucination"์ ์ค์ด๋ฉฐ, ๊ฑฐ์ง ์ ๋ณด๋ฅผ ๋ง๋ค์ด๋ด๋ ๋น์จ์ด ๋ฎ์ต๋๋ค(Figure 4 ์ฐธ์กฐ).
Toxicity
- RealToxicityPrompts ๋ฐ์ดํฐ์ ์์ InstructGPT๋ "respectful" ์ง์๊ฐ ํฌํจ๋ ํ๋กฌํํธ์ ๋ํด GPT-3๋ณด๋ค ๋ ๋ ์ฑ์ ์ธ ์๋ต์ ์์ฑํ์์ผ๋, ์ง์๊ฐ ์๋ ๊ฒฝ์ฐ์๋ ๋ ๋ชจ๋ธ์ด ๋น์ทํ ์์ค์ ๋ ์ฑ์ ๋ณด์์ต๋๋ค(Figure 7 ์ฐธ์กฐ).
- ๋ฐ๋ฉด, InstructGPT์ ๊ณ ์์ ์ผ๋ก ๋ ์ฑ ์ถ๋ ฅ์ ์์ฒญํ๋ ๊ฒฝ์ฐ, GPT-3๋ณด๋ค ํจ์ฌ ๋ ์ฑ์ ์ธ ์๋ต์ ์์ฑํ์ต๋๋ค.
- ์ธ๊ฐ ํ๊ฐ์์๋ InstructGPT๋ "respectful" ์ง์ ํ์์ GPT-3๋ณด๋ค ๋ฎ์ ๋ ์ฑ ์ ์๋ฅผ ๋ฐ์์ผ๋ฉฐ, SFT ๋ชจ๋ธ์ ๋ ์ฑ์ด ๊ฐ์ฅ ๋ฎ์์ง๋ง ์ถ๋ ฅ์ด ์งง๊ฑฐ๋ ๋จ์ํ์ฌ ์ฐ์์ฑ์ด ๋จ์ด์ง๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค.
Bias
- Winogender์ CrowS-Pairs ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด ํธํฅ์ฑ์ ํ๊ฐํ ๊ฒฐ๊ณผ, InstructGPT๋ GPT-3์ ๋น์ทํ ์์ค์ ํธํฅ์ ๋ณด์์ผ๋ฉฐ, "respectful" ์ง์๊ฐ ์์ ๋ ์คํ๋ ค ํธํฅ์ฑ์ด ์ฆ๊ฐํ์ต๋๋ค.
- InstructGPT๋ ํน์ ํธํฅ ํจํด์ ๋ฐ๋ฅด๊ธฐ๋ณด๋ค๋ ์ง์์ ๋์ฑ ํ์ ์ ๊ฐ์ง๊ณ ์๋ตํ๋ ๊ฒฝํฅ์ ๋ณด์ฌ์คฌ์ผ๋ฉฐ, ํธํฅ์ ์์์ ์ผ๊ด๋์ง ์์์ต๋๋ค.
Alignment Tax
- PPO ๋ชจ๋ธ์ API ๋ฐ์ดํฐ์ ์ ๋ง์ถฐ fine-tuningํ ๋, ์ผ๋ถ ๊ณต๊ณต NLP ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ ์ ํ("alignment tax")๊ฐ ๋ฐ์ํ์ต๋๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ์ฌ์ ํ์ต ์ ๋ฐ์ดํธ(pretraining mix)๋ฅผ PPO fine-tuning์ ํผํฉํ PPO-ptx ๋ชจ๋ธ์ ์ฌ์ฉํ์ต๋๋ค(Figure 29 ์ฐธ์กฐ).
- PPO-ptx ๋ชจ๋ธ์ HellaSwag์์ GPT-3๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋, DROP, SQuADv2, ๋ฒ์ญ ์์ ์์๋ ์ฌ์ ํ GPT-3๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์์ต๋๋ค.
- ์ฌ์ ํ์ต ์ ๋ฐ์ดํธ๋ฅผ ํผํฉํ๋ ๋ฐฉ๋ฒ์ KL ๊ณ์๋ฅผ ๋จ์ํ ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ ํ๋ณต์ ํจ๊ณผ์ ์ด์์ผ๋ฉฐ, ํน์ ๊ณ์ ์ค์ ์์ ์ฑ๋ฅ ์ ํ ์์ด SQuADv2์ DROP ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ ์ ํ๋ฅผ ์ํํ ์ ์์์ต๋๋ค.
Qualitative Results
๋ค์์ InstructGPT 175B๋ฅผ GPT-3 175B์ ๋น๊ตํ ์ผ๋ฐํ์ ์์์ ๋๋ค.
InstructGPT๋ ๋๋๋ก ์์ด๋ก ์ถ๋ ฅ์ ์์ฑํ์ง๋ง ๋ค๋ฅธ ์ธ์ด๋ก ๋ ๋ช ๋ น์ ๋ฐ๋ฅผ ์ ์๋ค. GPT-3๋ ์์ด์ ์ ์ฌํ๊ฒ ๋ ์ ์คํ ํ๋กฌํํธ๊ฐ ํ์ํฉ๋๋ค. InstructGPT๋ GPT-3๋ณด๋ค ์์ ์ ์ผ๋ก ์ฝ๋์ ๋ํ ์ง๋ฌธ์ ์์ฝํ๊ณ ๋ต๋ณํ ์ ์์ต๋๋ค.
๋ค์์ InstructGPT 175B๋ฅผ GPT-3 175B์ ๋น๊ตํ ๊ฐ๋จํ ์ค์์ ์์์ ๋๋ค. ํ๋กฌํํธ๋ ํน์ ๋์์ ๋ณด์ด๊ธฐ ์ํด cherry-pickingํ์์ง๋ง ์ถ๋ ฅ์ cherry-pickingํ์ง ์์๋ค๊ณ ํฉ๋๋ค.
๋ํ InstructGPT๋ ์๋ชป๋ ์ ์ ๋ฅผ ๊ฐ์ ํ๊ณ ๊ทธ๋๋ก ๋ฐ๋ผ๊ฐ๋ ๋ช ๋ น์ผ๋ก ์ธํด ํผ๋๋ ์ ์์ต๋๋ค. InstructGPT๋ ๊ฐ๋จํ ์ง๋ฌธ์ ์ง์ ๋ตํ๊ธฐ๋ณด๋ค ์ง๋์น๊ฒ hedgeํ ์ ์๋ค๊ณ ํฉ๋๋ค.
Discussion
Implications for Alignment Research
์ด ์ฐ๊ตฌ๋ AI ์์คํ ์ ์ธ๊ฐ์ ์๋์ ๋ง์ถ๋ "alignment" ์ฐ๊ตฌ์ ์ผํ์ผ๋ก, ํ์ฌ์ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ ํ๋ ๋ฐ ์ค์ ์ ๋๋ฉฐ, ํฅํ AI ์์คํ ์๋ ์ ์ฉํ ์ ์๋ ์ผ๋ฐ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ ํ๊ตฌํ๊ณ ์ ํฉ๋๋ค. RLHF๋ฅผ ์ด์ฉํ ๋ชจ๋ธ alignment๋ ์ฑ๋ฅ ๋๋น ๋น์ฉ์ด ์ ๊ฒ ๋ค๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ๋ณด๋ค ๋ ํจ์จ์ ์ธ ๊ฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ํ, InstructGPT๋ ๋น๊ฐ์ ํ์ต ํ๊ฒฝ์์๋ ์ผ๋ถ ์ง์นจ์ ์ ๋ฐ๋ฅด๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ผ๋ฉฐ, alignment์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ ํ("alignment tax")๊ฐ ํฌ์ง ์์์ ์ค์ ํ๊ฒฝ์์ ์ ์ฉํ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ฆ๋์์ต๋๋ค.
Who Are We Aligning To?
InstructGPT ๋ชจ๋ธ์ ํ๋์ ๋ ์ด๋ธ๋ฌ์ ์ ํธ๋์ ์ฐ๊ตฌ์๋ค์ ์ค๊ณ์ ๊ธฐ๋ฐ์ ๋ก๋๋ค. ์ฃผ๋ก ๋ฏธ๊ตญ๊ณผ ๋๋จ์์์์ ์์ด ์ฌ์ฉ์๋ก ๊ตฌ์ฑ๋ ๋ ์ด๋ธ๋ฌ๋ค์ด ํ๋กฌํํธ์ ๋ฐ์ํ๊ณ ์์ง๋ง, ์ด๋ฌํ ์ง๋จ์ด ๋ชจ๋ ์ธ์ด ์ฌ์ฉ์๋ ๋ชจ๋ธ์ ์ํด ์ํฅ์ ๋ฐ๋ ๋ชจ๋ ์ฌ๋์ ๋๋ณํ์ง๋ ์์ต๋๋ค. ๋ํ, OpenAI API ๊ณ ๊ฐ๋ค์ ์์ฒญ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ผ๊ณ ์์ด, ๊ณ ๊ฐ์ด ์ํ๊ฑฐ๋ ๊ทธ๋ค์ ์ต์ข ์ฌ์ฉ์๊ฐ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ด ์ ๋ ฌ๋ ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค. ๊ณต์ ํ๊ณ ํฌ๋ช ํ alignment ๊ณผ์ ์ ์ค๊ณํ๊ธฐ ์ํด์๋ ๋ค์ํ ์ดํด๊ด๊ณ์์ ์ฐธ์ฌ์ ๋ณต์กํ ์ ํ์ด ํ์ํ๋ฉฐ, ํน์ ์ฌ์ฉ์ ๊ทธ๋ฃน์ ์ ํธ๋์ ๋ง์ถ ๋ชจ๋ธ ๋ฐฐํฌ์ ์ฌ์ฉ์ด ๊ณ ๋ ค๋์ด์ผ ํฉ๋๋ค.
Limitations
InstructGPT๋ ์ฌ์ ํ ๋ ์ฑ ๋๋ ํธํฅ๋ ์ถ๋ ฅ์ ์์ฑํ๊ฑฐ๋ ์ฌ์ฉ์ ์์ฒญ์ ๋ฐ๋ฅด๋ค ํ์ค์์ ์ ํดํ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์ต๋๋ค. ๋ํ, ๋ ์ด๋ธ๋ง ์์ ์ ์ฃผ๋ก ์์ด ์ฌ์ฉ์์ ์ํด ์ด๋ฃจ์ด์ก๊ณ , ๋๋ถ๋ถ์ ๋น๊ต๊ฐ ๋น์ฉ ๋ฌธ์ ๋ก ๋จ์ผ ๋ผ๋ฒจ๋ฌ์ ์ํด ์ํ๋๋ฏ๋ก, ๋ค์ํ ๊ด์ ์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ ์ ์์ต๋๋ค. ํธํฅ์ด๋ ๋ ์ฑ์ด ํน์ ๊ทธ๋ฃน์ ๋ฏธ์น ์ํฅ์ ๊ณ ๋ คํ์ฌ ๋ ์ด๋ธ๋ฌ ์ ํธ๋ฅผ ์กฐ์ ํ๋ ๋ฑ์ ๊ฐ์ ์ด ํ์ํฉ๋๋ค.
Open Questions
ํฅํ ์ฐ๊ตฌ๋ก๋ ๋ ์ฑ, ํธํฅ, ์ ํดํ ์ถ๋ ฅ์ ๋ํ ๋ชจ๋ธ ๊ฒฝํฅ์ฑ์ ์ค์ด๋ ๋ฐฉ๋ฒ์ด ํ์ํฉ๋๋ค. ํนํ, ์ต์ ์ ์ฌ๋ก๋ฅผ ๋ฐ๊ฒฌํด ๋ฐ์ดํฐ์ ์ ์ถ๊ฐํ๊ฑฐ๋, WebGPT์ ๊ฐ์ด ์ง์ค์ฑ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๊ฒฐํฉํ๋ ๋ฐฉ์์ด ์์ต๋๋ค. ๋ํ, ์ฌ์ฉ์๊ฐ ์ ํดํ ์๋ต์ ์์ฒญํด๋ ์ด๋ฅผ ๋ฐฉ์งํ๋๋ก ํ๋ ์ฐ๊ตฌ๊ฐ ์ค์ํ๋ฉฐ, RLHF ์ธ์๋ ๋ค์ํ ์ ์ด ๊ฐ๋ฅํ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ตฌํ ์ ์์ต๋๋ค. "alignment tax" ์ํ์ ์์ ํ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ํ ํ๋ฆฌํธ๋ ์ด๋ ๋ฐ์ดํฐ ํํฐ๋ง ๋ฐฉ๋ฒ๋ ๊ฐ์ ์ด ํ์ํฉ๋๋ค.
Broader Impacts
์ด ์ฐ๊ตฌ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ธ์ ์ ์ธ ์ํฅ์ ๋์ด๋ ค๋ ๋ชฉํ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, alignment๊ฐ ๊ฐ์ ๋ ๋ชจ๋ธ์ ์๋ชป๋ ์ ๋ณด๋ ์ ํดํ ์ฝํ ์ธ ๋ฅผ ์์ฑํ๋ ๋ฐ ์ ์ฉ๋ ๊ฐ๋ฅ์ฑ๋ ์์ต๋๋ค. ๋ํ ์ธ์ด ๋ชจ๋ธ์ ๊ณ ์ํ ๋ถ์ผ์์ ์ฌ์ฉํ ๋์๋ ์ฃผ์๊ฐ ํ์ํ๋ฉฐ, API๋ฅผ ํตํ ์ ๊ทผ ์ ์ด์ ์ค์ฉ ๋ชจ๋ํฐ๋ง์ด ํ์ํ์ง๋ง, ์ด๋ ํฌ๋ช ์ฑ ๊ฐ์์ ์ค์์ง์คํ ๋ฌธ์ ๋ฅผ ์ด๋ํ ์ ์์ต๋๋ค. ๋ชจ๋ธ์ alignment ๋์์ด ๋๊ตฌ์ธ์ง์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์์ํฅ์ด ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
'๐ฃ๏ธ Large Language Model (LLM)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[LLM] Improving Language Understanding by Generative Pre-Training (GPT-1 ๋ ผ๋ฌธ Review) (0) | 2024.10.25 |
---|---|
[LLM] Retrieve Augmented Generation (RAG) (0) | 2024.09.15 |
[LLM] Prompt Engineering (ํ๋กฌํฌํธ ์์ง๋์ด๋ง) (0) | 2024.09.14 |
[LLM] What is Large Language Model (LLM)? (0) | 2024.09.11 |