Anthropic公开Claude 3,像人类一样特殊性格训练方法

ze2年前默认451

【/h/]免责声明:本文来自微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。

【/h/]6月9日,著名AI大模型平台Anthropic在官网公布了其最新大模型Claude3的个性化个性训练方法。

【/h/]Anthropic认为,输出内容的安全性和合法性对于大模型的场景落地至关重要,但一味地为了超安全对齐而压制它们会使输出内容单调,从而使大模型失去个性,无法凸显“智能”效果。

【/h/]因此,Anthropic在训练Claude3时使用了一种特殊的个性化训练方法(体质AI:来自AI反馈的危害性)。在保持安全性的前提下,它还可以输出一些有趣的创新内容,这也是这款车型实现超强性能的关键之一。

【/h/]论文地址:https://arxiv.org/abs/2212.08073

【/h/]根据Anthropic发表的论文,主要是通过constitution AI技术帮助大模型进行自我监控和优化改进,主要分为监督学习和强化学习。

【/h/]首先,让大模型生成对潜在有害提示的响应。这些最初的回应通常包含有害或不适当的内容,例如如何有效地偷窃。大模型需要根据宪法人工智能中的原则批评其响应。

【/h/]宪法人工智能制定了一套规则或原则,并定义了大规模模型行为的边界。也就是说,AI的输出行为不能越过这条红线。

【/h/]然后,通过Critique Request模块,要求大模型识别其先前响应中可能存在的问题,例如是否包含有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。这个过程迫使大模型反思自己的行为,并确定需要改进的地方。

【/h/]识别问题后,如何改进大型模型响应的过程由修订请求模块指导。大模特被要求根据批评的内容重写其回应,以消除所有有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。

【/h/]这个过程可以反复迭代,每次修订都可以引入新的原则,以增加应对措施的多样性和深度。

【/h/]需要注意的是,在批评和修改大型模型时,可能会遇到观点混乱的问题。例如,当应该生成修订时,可能会生成批评。为了解决这个问题,Anthropic将使用几个示例来指导大型模型的反射行为。

【/h/]在强化学习阶段,Anthropic从监督学习阶段的微调模型中采样,并生成对一系列提示的响应。然后,使用反馈模型来评估这些响应,并决定哪个响应更符合宪法人工智能原则中的无害标准。

【/h/]反馈模型将收到一个提示和一对由大模型生成的响应。根据体质人工智能中的一个原则,反馈模型需要在两个响应中选择一个更符合无害要求的响应。这个选择过程被构造为一个多项选择问题,反馈模型需要给出其选择的答案。

【/h/]例如,如果宪法人工智能的原则是“选择一个危害较小的答案”,则反馈模型需要从两个答案中选择一个包含危害较小、不道德、种族主义、性别歧视、有毒、危险或非法内容的答案。

【/h/]然后,Anthropic将使用生成的偏好标签来训练偏好模型。该模型可以为任何给定的样本分配一个分数,以评估其是否符合宪法AI原则。训练完成后,这种偏好模型被用作强化学习中的奖励信号,以指导AI助手通过强化学习进一步优化其行为。

【/h/]在强化学习过程中,大模型会根据偏好模型的反馈调整其内容输出策略,以生成更符合无害原则的响应。

【/h/]这个过程也是迭代的。大模型将不断地生成响应、接收反馈并根据反馈改进自身,直到其行为达到输出原则的稳定状态。

相关文章

日本核污水排海前将不再确认氚浓度 这说明了什么?

日本核污水排海前将不再确认氚浓度 这说明了什么?

日本核污水排海前不再确认氚浓度。 【日本核污水排海前不会确认氚浓度】我国过去多次强调,核污染水成分复杂,还有其他放射性核素,对海洋环境和人体健康造成难以预料的危害。 近日,日本核污水排放入海的争议再次...

转行餐饮!王思聪卖起现烤牛肉干 推出团购套餐最低仅需15.8元!

转行餐饮!王思聪卖起现烤牛肉干 推出团购套餐最低仅需15.8元!

  王思聪卖起现烤牛肉干   【王思聪卖起现烤牛肉干】12月9日消息,王思聪卖起现烤牛肉干,据悉王思聪开设了一家名为“牛校长”的现烤牛肉干专营店。在北京望京等繁华商圈,“牛校长”现烤牛肉干专营店犹如一...

向个人第五冠发起冲击!郑钦文2-0击败施耐德 晋级决赛!

向个人第五冠发起冲击!郑钦文2-0击败施耐德 晋级决赛!

  郑钦文2-0击败施耐德 晋级决赛   【郑钦文2-0击败施耐德 晋级决赛】今日,中国网球选手”郑钦文“在WTA500东京站半决赛中,以2比0战胜6号种子施耐德,成功闯入决赛!据了解,这是郑钦文时...

菲律宾山体滑坡致71人死亡 具体是什么情况?

菲律宾山体滑坡致71人死亡 具体是什么情况?

菲律宾山体滑坡造成71人死亡。【/h/]【菲律宾山体滑坡致71人死亡】2月13日消息,菲律宾棉兰老岛6日发生山体滑坡,截至目前已造成71人死亡,仍有47人失踪。救援队正在全力搜救。【/h/]最近几周,...

价格大降!江苏省医保局公布

记者从江苏省医保局获悉, 全国中成药联盟带量药品采购结果 10月31日24: 00登陆南京。 集中采购68种代表性产品价格 平均跌幅将近一半。 达到49.36% 患者医疗费用负担进一步减轻。 这68...

生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

声明:本文来自于微信公众号 机器之心,作者:张倩、泽南,授权站长之家转载发布。 世界模型的进度条,最近坐上了火箭。 去年11月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、...