Anthropic公开Claude 3,像人类一样特殊性格训练方法

ze11个月前默认433

【/h/]免责声明:本文来自微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。

【/h/]6月9日,著名AI大模型平台Anthropic在官网公布了其最新大模型Claude3的个性化个性训练方法。

【/h/]Anthropic认为,输出内容的安全性和合法性对于大模型的场景落地至关重要,但一味地为了超安全对齐而压制它们会使输出内容单调,从而使大模型失去个性,无法凸显“智能”效果。

【/h/]因此,Anthropic在训练Claude3时使用了一种特殊的个性化训练方法(体质AI:来自AI反馈的危害性)。在保持安全性的前提下,它还可以输出一些有趣的创新内容,这也是这款车型实现超强性能的关键之一。

【/h/]论文地址:https://arxiv.org/abs/2212.08073

【/h/]根据Anthropic发表的论文,主要是通过constitution AI技术帮助大模型进行自我监控和优化改进,主要分为监督学习和强化学习。

【/h/]首先,让大模型生成对潜在有害提示的响应。这些最初的回应通常包含有害或不适当的内容,例如如何有效地偷窃。大模型需要根据宪法人工智能中的原则批评其响应。

【/h/]宪法人工智能制定了一套规则或原则,并定义了大规模模型行为的边界。也就是说,AI的输出行为不能越过这条红线。

【/h/]然后,通过Critique Request模块,要求大模型识别其先前响应中可能存在的问题,例如是否包含有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。这个过程迫使大模型反思自己的行为,并确定需要改进的地方。

【/h/]识别问题后,如何改进大型模型响应的过程由修订请求模块指导。大模特被要求根据批评的内容重写其回应,以消除所有有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。

【/h/]这个过程可以反复迭代,每次修订都可以引入新的原则,以增加应对措施的多样性和深度。

【/h/]需要注意的是,在批评和修改大型模型时,可能会遇到观点混乱的问题。例如,当应该生成修订时,可能会生成批评。为了解决这个问题,Anthropic将使用几个示例来指导大型模型的反射行为。

【/h/]在强化学习阶段,Anthropic从监督学习阶段的微调模型中采样,并生成对一系列提示的响应。然后,使用反馈模型来评估这些响应,并决定哪个响应更符合宪法人工智能原则中的无害标准。

【/h/]反馈模型将收到一个提示和一对由大模型生成的响应。根据体质人工智能中的一个原则,反馈模型需要在两个响应中选择一个更符合无害要求的响应。这个选择过程被构造为一个多项选择问题,反馈模型需要给出其选择的答案。

【/h/]例如,如果宪法人工智能的原则是“选择一个危害较小的答案”,则反馈模型需要从两个答案中选择一个包含危害较小、不道德、种族主义、性别歧视、有毒、危险或非法内容的答案。

【/h/]然后,Anthropic将使用生成的偏好标签来训练偏好模型。该模型可以为任何给定的样本分配一个分数,以评估其是否符合宪法AI原则。训练完成后,这种偏好模型被用作强化学习中的奖励信号,以指导AI助手通过强化学习进一步优化其行为。

【/h/]在强化学习过程中,大模型会根据偏好模型的反馈调整其内容输出策略,以生成更符合无害原则的响应。

【/h/]这个过程也是迭代的。大模型将不断地生成响应、接收反馈并根据反馈改进自身,直到其行为达到输出原则的稳定状态。

相关文章

Meta开源最新模型——Llama Guard-7b

Meta开源最新模型——Llama Guard-7b

声明:本文来自微信微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。 全球社交和科技巨头Meta在官网开辟了一个全新的模式——LLAMAGuard...

41度高温下交警女儿暴躁宠爹 又暖心又好笑!!

41度高温下交警女儿暴躁宠爹 又暖心又好笑!!

41度,交警女儿暴力撒娇。【/h/]【交警女儿脾气暴躁,41度溺爱父亲】41度,当她看到父亲在执勤中努力工作时,女儿给父亲涂上了防晒霜。】最近,在云南玉溪元江县,执勤交警的女儿杨完成了中考。当她看到父...

世乒赛观众席一生要强的中国女人 气势不能丢!!

世乒赛观众席一生要强的中国女人 气势不能丢!!

世界乒乓球锦标赛观众中的中国女将。【/h/]【世乒赛观众席上强势的日本女将】釜山世乒赛观众席上,中日球迷展开热舞PK,日本女球迷势头太猛!【/h/]24日,中国和日本球迷在釜山世乒赛的观众席上跳起了P...

五一提前出发的“聪明人”太多 提前两小时没赶上海高铁 改签成绿皮火车!

五一提前出发的“聪明人”太多 提前两小时没赶上海高铁 改签成绿皮火车!

五一提前离职的“聪明人”太多了。【/h/]【#五一提前放假的“聪明人”太多了#】五一假期是中国的一个长假,许多人会选择这个时间去旅行或探亲。由于五一假期交通繁忙,交通压力大,许多人会选择提前离开,以避...

“叔叔对不起,我只有50元,能不能分期付款?”

最近 家住杭州城西的徐女士。 发了一条朋友圈【/h/】引来一片赞声。 10月26日早。 老公下楼开车的时候, 发现车上有划痕。 & quot;当时,我丈夫想 划痕不是很严重, 别管了。" 没想到...

震惊!!京东:给所有骑手的对象安排工作 实现“双职工”待遇 大幅提高家庭收入!!

震惊!!京东:给所有骑手的对象安排工作 实现“双职工”待遇 大幅提高家庭收入!!

京东:给所有骑手的对象安排工作   【京东:给所有骑手的对象安排工作】近日,京东发布的一则消息引发了广泛关注,京东宣布将为所有骑手的对象安排工作,这一举措在行业内引起了热烈反响,也展现了京东对骑手群体...