LLM(十五):反思RLHF,如何更加高效训练有偏好的LLM