轮暴训击败!等让「分饰三角」自评自进化

  • 轮暴训,击败!等让「分饰三角」自评自进化

    轮暴训,击败!等让「分饰三角」自评自进化

    新智元报道编辑:编辑部【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段。后者不仅依赖昂贵的人工标注数据,而且很可能让人类水平限制LLM的进一步发展。今年1月,Meta和NYU的团队就提出了语言模型的自我奖励机制,使用LLM-as-a-Judge的提示机制,让模型在训练期间进行自我反馈。论文发现,即使不依靠人类标注者,LLM也能通过评价自己的...

1