8.2.4 奖励模型训练