Hinton

"Hinton"搜索结果 1 条

$\iota=\iota_{ppo}+\iota_{value}+\iota_{ptx}$

如何看待Geoffrey Hinton对RLHF的看法？

声明：欢迎转载，转载请注明出处以及链接，码字不易，欢迎小伙伴们点赞和分享。一、前言我们从instruct gpt论文中了解到chatgpt的训练方式，除了基底模型的预训练之外还有sft（监督学习微调）和rlhf（基于人工反馈的强化学习）过程。现在大多的开源模型绝大多数都只经过了sft过程，缺少rlhf过程，导致模型的输出可能存在输出有毒有害的内容和有明显偏见的内容。所以rlhf过程是很关键的一步，也是很麻烦的一步，涉及到的模型很多…

首页
末页