Meta开源最新模型——Llama Guard-7b

ze1年前默认530

声明:本文来自微信微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。

全球社交和科技巨头Meta在官网开辟了一个全新的模式——LLAMAGuard。

据悉,Llama Guard是基于Llama2-7b的输入输出保护模型,可以对人机对话过程中的问题和回复进行分类,判断是否存在风险。它可以与Llama2和其他型号一起使用,大大提高其安全性。

LLAMAGARD也是Meta推出的“紫色美洲驼”安全评估项目中输入输出保障环节的重要一环,也是首个区分用户和AI在输入输出保护方面风险的模型。

美洲驼卫队地址:https://huggingface.co/meta-llama/LlamaGuard-7b

purplelama地址:https://github.com/facebookresearch/PurpleLlama

论文地址:https://ai . meta . com/research/publications/llama-guard-LLM-based-input-output-guard-for-human-ai-conversations/

llamaguard简介

研究人员设计了一个安全风险分类系统,其中包括法律和政策风险。该分类系统包括六种可能的安全风险:暴力和仇恨、色情内容、非法武器、犯罪计划等。

此外,对每个风险类别中容易出现的错误进行了详细说明。

使用Anthropic提供的人机对话数据集标记数据。阅卷内容包括对话问题和回答中的风险类别以及是否存在安全隐患。最终收集了近14000个带标签的对话样本。

然后以Llama2-7b为基本模型,采用强制学习框架进行训练。这个框架将分类任务表达为一个接一个的指令任务。

使LLAMAGARD根据输入指令和数据学习进行多类分类。研究人员分别为用户的问题和机器的回答编写指令,以区分它们的语义结构。

还采用了数据增强的方法,增强后的模型只考虑给定输入中的分类信息。

测试数据

首先在内部测试集上验证,Llama Guard在整体和个别类别上均优于其他内容监控工具。

然后,研究人员利用零样本和少数例子学习的方法,将LLAMAGARD迁移到其他公开测试集进行验证。

测试结果表明,在ToxicChat数据集上,Llama Guar的平均准确率高于所有基线方法。在OpenAI评测数据集上,零样本情况下,Llama Guard相当于OpenAI内容监管API。

此外,Llama Guard使用指令调优来适应不同的AI分类或策略。用户可以通过零样本或小样本的方式传递指令,以适应不同的应用场景。

相关文章

没人敢做大主播了!

没人敢做大主播了!

声明:本文来自于微信公众号 十里村,作者:十里村,授权站长之家转载发布。 各位村民好,我是村长 我相信在当下,已经很少有人愿意当大主播了。 当然了,我觉得平台未来的策略,也不一定是在大主播上。 01...

为什么清明前后甘蔗可能有毒性?一文了解→

【/h/]& quot;新年吃甘蔗一年四季都甜”甘蔗是许多人喜欢吃的一种水果,因为它的味道甘甜多汁,营养丰富,但也有“清明甘蔗比蛇更毒”的说法。为什么清明前后好吃的甘蔗可能有毒?【/h/]不要吃发霉的...

“想喝秋天里的第一杯奶茶”?警方抓获20人!

秋天的第一杯奶茶 购物后打车回家... 这些“女朋友”撒娇时提出的小要求。 但是让全国几百个男人 落入“桃色陷阱” 早在今年9月,梁先生就报告说: 我被骗了近千元。 而嫌疑人前阵子就是他。 我和他是...

水泥封尸案嫌疑人邻居发声 具体是什么情况?

水泥封尸案嫌疑人邻居发声 具体是什么情况?

水泥密封案嫌疑人的邻居发声。【/h/]【水泥封箱案嫌疑人邻居发声】因水果生意产生矛盾,富阳的董某某将朋友费某某杀害后装入混有水泥的箱子中扔进河里。村民和邻居都说董既礼貌又聪明。他诈骗了18万余元,并威...

上厕所竟要计时?企业管理不能越界!

入厕时间不能超过 3 分钟 一旦超时计时器就会警报 …… 近日 # 公司防止员工摸鱼厕所装计时器 # 冲上热搜 不少网友在社交媒体 晒出公司不合理的 " 如厕制度 " 引发讨论 不少公司设立 "...

假的!别传了!

入冬以来,我国呼吸道疾病呈上升趋势,一些不实信息传播误导公众。患者一旦轻信,可能会延误治疗时机,导致病情加重。 中国互联网联合辟谣平台特此澄清一系列关于呼吸系统疾病的谣言,帮助大家了解呼吸系统疾病的...