"Hinton"搜索结果 1 条

如何看待Geoffrey Hinton对RLHF的看法?

声明:欢迎转载,转载请注明出处以及链接,码字不易,欢迎小伙伴们点赞和分享。 一、前言我们从instruct gpt论文中了解到chatgpt的训练方式,除了基底模型的预训练之外还有sft(监督学习微调)和rlhf(基于人工反馈的强化学习)过程。现在大多的开源模型绝大多数都只经过了sft过程,缺少rlhf过程,导致模型的输出可能存在输出有毒有害的内容和有明显偏见的内容。所以rlhf过程是很关键的一步,也是很麻烦的一步,涉及到的模型很多…