RL特训出「押题大师」?破解模型微调中的多样性

RL特训出「押题大师」?破解模型微调中的多样性