ChatGPTini menggunakan Reinforcement Learning from Human Feedback (RLHF), menggunakan metode yang sama seperti InstructGPT