Meta开源最新模型——Llama Guard-7b

ze2年前默认543

声明:本文来自微信微信官方账号AIGC开放社区(ID:AIGCOPEN),由AIGC开放社区撰写,授权站长之家转载发布。

全球社交和科技巨头Meta在官网开辟了一个全新的模式——LLAMAGuard。

据悉,Llama Guard是基于Llama2-7b的输入输出保护模型,可以对人机对话过程中的问题和回复进行分类,判断是否存在风险。它可以与Llama2和其他型号一起使用,大大提高其安全性。

LLAMAGARD也是Meta推出的“紫色美洲驼”安全评估项目中输入输出保障环节的重要一环,也是首个区分用户和AI在输入输出保护方面风险的模型。

美洲驼卫队地址:https://huggingface.co/meta-llama/LlamaGuard-7b

purplelama地址:https://github.com/facebookresearch/PurpleLlama

论文地址:https://ai . meta . com/research/publications/llama-guard-LLM-based-input-output-guard-for-human-ai-conversations/

llamaguard简介

研究人员设计了一个安全风险分类系统,其中包括法律和政策风险。该分类系统包括六种可能的安全风险:暴力和仇恨、色情内容、非法武器、犯罪计划等。

此外,对每个风险类别中容易出现的错误进行了详细说明。

使用Anthropic提供的人机对话数据集标记数据。阅卷内容包括对话问题和回答中的风险类别以及是否存在安全隐患。最终收集了近14000个带标签的对话样本。

然后以Llama2-7b为基本模型,采用强制学习框架进行训练。这个框架将分类任务表达为一个接一个的指令任务。

使LLAMAGARD根据输入指令和数据学习进行多类分类。研究人员分别为用户的问题和机器的回答编写指令,以区分它们的语义结构。

还采用了数据增强的方法,增强后的模型只考虑给定输入中的分类信息。

测试数据

首先在内部测试集上验证,Llama Guard在整体和个别类别上均优于其他内容监控工具。

然后,研究人员利用零样本和少数例子学习的方法,将LLAMAGARD迁移到其他公开测试集进行验证。

测试结果表明,在ToxicChat数据集上,Llama Guar的平均准确率高于所有基线方法。在OpenAI评测数据集上,零样本情况下,Llama Guard相当于OpenAI内容监管API。

此外,Llama Guard使用指令调优来适应不同的AI分类或策略。用户可以通过零样本或小样本的方式传递指令,以适应不同的应用场景。

相关文章

驻日本使馆发言人就所谓中国“债务陷阱”再次答记者问

【/h/]问:近日,一些日本人开始了新一轮所谓中国“债务陷阱”炒作,发言人对此有何评论?【/h/]答:中方已多次阐明事实以正视听,有关国家也多次予以澄清和驳斥。一些日本人坚持散布虚假信息,不仅抹黑中国...

快快评丨高空抛砖致死案,当以“杀人”论处

& quot;女子被高空"扔过来的砖头砸死,引起了强烈关注。11月27日,该案在长春中院开庭审理。媒体从受害人的姐姐楼女士处获悉,法院宣布了选举判决。这意味着该案在民众心中留下了悬念。 这是一场...

攻陷短视频后,Sora将需要72万块H100 GPU

攻陷短视频后,Sora将需要72万块H100 GPU

【/h/]免责声明:本文来自微信微信官方账号机器之心(ID: Almost Human 2014)。作者:机器之心,经站长之家授权转载发布。【/h/]在被大规模采用后,黑脸田鸡的推理成本将很快超过训练...

成都一派出所警车撞死老人?警方回应

【/h/]2月27日,成都市民万女士向记者反映,2月25日早上6点多,她的公公刘某在家附近散步时,被辖区派出所执勤的警车撞死。【/h/]针对此事,记者联系了成都市公安局交警部门。一名工作人员表示,警车...

已引发多起中毒事件,赶紧查厨房!这不是“神器”,而是“定时炸弹”

& quot;聚火省气”& quot搪瓷技术,防锈防腐蚀”.....看到这些广告标语,很多人下单购买这款“厨房神器”——燃气聚能圈。 打开电商平台,价格低,销量火爆。功效和价格确实让人心动。但这其实...