Anthropic公开Claude 3,像人类一样特殊性格训练方法

ze1年前默认435

【/h/]免责声明:本文来自微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。

【/h/]6月9日,著名AI大模型平台Anthropic在官网公布了其最新大模型Claude3的个性化个性训练方法。

【/h/]Anthropic认为,输出内容的安全性和合法性对于大模型的场景落地至关重要,但一味地为了超安全对齐而压制它们会使输出内容单调,从而使大模型失去个性,无法凸显“智能”效果。

【/h/]因此,Anthropic在训练Claude3时使用了一种特殊的个性化训练方法(体质AI:来自AI反馈的危害性)。在保持安全性的前提下,它还可以输出一些有趣的创新内容,这也是这款车型实现超强性能的关键之一。

【/h/]论文地址:https://arxiv.org/abs/2212.08073

【/h/]根据Anthropic发表的论文,主要是通过constitution AI技术帮助大模型进行自我监控和优化改进,主要分为监督学习和强化学习。

【/h/]首先,让大模型生成对潜在有害提示的响应。这些最初的回应通常包含有害或不适当的内容,例如如何有效地偷窃。大模型需要根据宪法人工智能中的原则批评其响应。

【/h/]宪法人工智能制定了一套规则或原则,并定义了大规模模型行为的边界。也就是说,AI的输出行为不能越过这条红线。

【/h/]然后,通过Critique Request模块,要求大模型识别其先前响应中可能存在的问题,例如是否包含有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。这个过程迫使大模型反思自己的行为,并确定需要改进的地方。

【/h/]识别问题后,如何改进大型模型响应的过程由修订请求模块指导。大模特被要求根据批评的内容重写其回应,以消除所有有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。

【/h/]这个过程可以反复迭代,每次修订都可以引入新的原则,以增加应对措施的多样性和深度。

【/h/]需要注意的是,在批评和修改大型模型时,可能会遇到观点混乱的问题。例如,当应该生成修订时,可能会生成批评。为了解决这个问题,Anthropic将使用几个示例来指导大型模型的反射行为。

【/h/]在强化学习阶段,Anthropic从监督学习阶段的微调模型中采样,并生成对一系列提示的响应。然后,使用反馈模型来评估这些响应,并决定哪个响应更符合宪法人工智能原则中的无害标准。

【/h/]反馈模型将收到一个提示和一对由大模型生成的响应。根据体质人工智能中的一个原则,反馈模型需要在两个响应中选择一个更符合无害要求的响应。这个选择过程被构造为一个多项选择问题,反馈模型需要给出其选择的答案。

【/h/]例如,如果宪法人工智能的原则是“选择一个危害较小的答案”,则反馈模型需要从两个答案中选择一个包含危害较小、不道德、种族主义、性别歧视、有毒、危险或非法内容的答案。

【/h/]然后,Anthropic将使用生成的偏好标签来训练偏好模型。该模型可以为任何给定的样本分配一个分数,以评估其是否符合宪法AI原则。训练完成后,这种偏好模型被用作强化学习中的奖励信号,以指导AI助手通过强化学习进一步优化其行为。

【/h/]在强化学习过程中,大模型会根据偏好模型的反馈调整其内容输出策略,以生成更符合无害原则的响应。

【/h/]这个过程也是迭代的。大模型将不断地生成响应、接收反馈并根据反馈改进自身,直到其行为达到输出原则的稳定状态。

相关文章

刘强东回应“凑76个鸡蛋上大学” 人大四年影响深远!

刘强东回应“凑76个鸡蛋上大学” 人大四年影响深远!

刘强东回应“凑76个鸡蛋上大学”   【刘强东回应“凑76个鸡蛋上大学”】近日,一则关于刘强东的视频在网络上引发广泛关注。视频中,刘强东深情回应了“凑76个鸡蛋上大学”这一话题,引发网友热议,大家纷纷...

军工专家成间谍,被判15年!最新披露

他是一位知识渊博的军事专家?还是诡计多端的秘密间谍?他是如何从一个国防军工领域的青年才俊,变成一个镶嵌在我核心“钉子”上的境外间谍情报机构的?今天,我们深入剖析国家安全机关破获的张默阁间谍案,揭露境外...

8小时售罄395套房源,深圳再现“日光盘”

钛媒体 App 9 月 30 日消息,深圳市宝安区住房和建设局消息,2024 年 9 月 29 日晚上 22 点 30 分,从宝安区瑞璟湾居安居型商品房项目选房现场传来好消息:395 套房源售罄,从...

市民多领养老保险待遇去世后被催还 到底什么情况?

市民多领养老保险待遇去世后被催还 到底什么情况?

获得更多养老保险福利的公民被敦促在死后返回。 【市民去世后被催还养老保险待遇】近日,深圳社保局发布服务公告,其中提到某参保人领取40多万元养老保险待遇,催还参保人遗属多领的养老保险物品。 根据公告内容...

美团+快手,7亿老铁们的本地生活价值几何

美团+快手,7亿老铁们的本地生活价值几何

声明:本文来自微信微信官方账号“电商在线”(ID:dianshangmj)。作者:程如梦,授权站长之家转载发表。【/h/]本地生活不缺新故事。【/h/]2021年12月,Aauto Quicker在生...

小红书“风险地点”举报功能上线,远离“野景点”!

【/h/]1月29日,小红书宣布推出“风险定位”举报专线。用户可点击上方备注进入“举报”入口,选择“风险地点”专线和平台核实后将快速处置。【/h/]用户发布的笔记在具体操作过程中,如果存在可能威胁自己...