Meta开源最新模型——Llama Guard-7b

ze2年前默认540

声明:本文来自微信微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。

全球社交和科技巨头Meta在官网开辟了一个全新的模式——LLAMAGuard。

据悉,Llama Guard是基于Llama2-7b的输入输出保护模型,可以对人机对话过程中的问题和回复进行分类,判断是否存在风险。它可以与Llama2和其他型号一起使用,大大提高其安全性。

LLAMAGARD也是Meta推出的“紫色美洲驼”安全评估项目中输入输出保障环节的重要一环,也是首个区分用户和AI在输入输出保护方面风险的模型。

美洲驼卫队地址:https://huggingface.co/meta-llama/LlamaGuard-7b

purplelama地址:https://github.com/facebookresearch/PurpleLlama

论文地址:https://ai . meta . com/research/publications/llama-guard-LLM-based-input-output-guard-for-human-ai-conversations/

llamaguard简介

研究人员设计了一个安全风险分类系统,其中包括法律和政策风险。该分类系统包括六种可能的安全风险:暴力和仇恨、色情内容、非法武器、犯罪计划等。

此外,对每个风险类别中容易出现的错误进行了详细说明。

使用Anthropic提供的人机对话数据集标记数据。阅卷内容包括对话问题和回答中的风险类别以及是否存在安全隐患。最终收集了近14000个带标签的对话样本。

然后以Llama2-7b为基本模型,采用强制学习框架进行训练。这个框架将分类任务表达为一个接一个的指令任务。

使LLAMAGARD根据输入指令和数据学习进行多类分类。研究人员分别为用户的问题和机器的回答编写指令,以区分它们的语义结构。

还采用了数据增强的方法,增强后的模型只考虑给定输入中的分类信息。

测试数据

首先在内部测试集上验证,Llama Guard在整体和个别类别上均优于其他内容监控工具。

然后,研究人员利用零样本和少数例子学习的方法,将LLAMAGARD迁移到其他公开测试集进行验证。

测试结果表明,在ToxicChat数据集上,Llama Guar的平均准确率高于所有基线方法。在OpenAI评测数据集上,零样本情况下,Llama Guard相当于OpenAI内容监管API。

此外,Llama Guard使用指令调优来适应不同的AI分类或策略。用户可以通过零样本或小样本的方式传递指令,以适应不同的应用场景。

相关文章

“小孩骑行被碾压身亡”路段已封锁,官方称案件仍在办理

近期,河北一名男孩在跟随父亲骑行时摔倒被对向驶来的轿车碾压身亡一事,持续引发广大网友的关注。此前据媒体报道,小车司机和小孩家属双方间没有达成协商,交警未出具责任认定书,目前此案已经移送至检察机关。扬...

73号东北豹遇害半年后,领地“继承者”来了

【/h/]去年年底,新闻报道了一起极为罕见的东北虎猎杀东北豹事件,引发了观众的关注和热议。【/h/]事件发生几个月后,东北虎豹国家公园的监测中心最近报告说,一只新的东北豹来到这里,并在被杀死的73号东...

暗讽拉满!雨果夺冠海报:拆长城了 打破国乒三大赛冠军垄断,配文“中国的长城看起来没那么大”!!

暗讽拉满!雨果夺冠海报:拆长城了 打破国乒三大赛冠军垄断,配文“中国的长城看起来没那么大”!!

  雨果夺冠海报:拆长城了   【雨果夺冠海报:拆长城了】4月20日晚,2025年澳门国际乒联世界杯在澳门落下帷幕。男单决赛中,巴西名将雨果·卡尔德拉诺以4比1战胜林诗栋,为南美首次夺得乒乓球世界三大...

安徽男孩骨折大哭听到不能写作业秒笑 妈妈:听到不用写作业莫名其妙就笑了!!

安徽男孩骨折大哭听到不能写作业秒笑 妈妈:听到不用写作业莫名其妙就笑了!!

  男孩骨折大哭听到不能写作业秒笑   【男孩骨折大哭听到不能写作业秒笑】10月3日,安徽阜阳。孩子妈妈徐女士说:到医院还在哭,不怎么配合医生,听到医生说“这事儿挺严重,一个月不能做作业!”他莫名其妙...

广发银行乌鲁木齐分行原党委书记、行长陈峻晖被开除党籍和公职

【/h/]财联社5月22日讯据国家监委驻中国纪检监察组、辽宁省监察委员会消息,日前,国家监委驻中国纪检监察组、辽宁省抚顺市监察委员会对广发银行乌鲁木齐分行原书记、行长陈俊辉严重违纪违法问题进行了纪律审...

呼吁停火!印军被曝在实控线附近升起白旗 印军哨所遭巴方火炮精准打击 哨所建筑损毁严重!

呼吁停火!印军被曝在实控线附近升起白旗 印军哨所遭巴方火炮精准打击 哨所建筑损毁严重!

印军被曝在实控线附近升起白旗   【印军被曝在实控线附近升起白旗】5月7日,巴基斯坦媒体披露,在克什米尔实际控制线(LoC)乔拉地区,印军一处边防哨所在遭受巴方炮击后主动升起白旗,呼吁停火。该事件引发...