国外权威认证!DeepSeek超150万模型,成最受欢迎开源大模型

ze1年前默认636

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。

今天凌晨3点,全球最大开源平台之一huggingface联合创始人兼首席执行官Clement Delangue发布了最新数据:

中国开源大模型DeepSeek-R1在150万模型中,成为该平台最受欢迎的开源大模型,点赞超过1万。

前不久,Clement还特意发文恭喜DeepSeek-R1的下载量超过1000万次,同样创造了huggingface平台有史以来最受欢迎的模型。

看来,Clement也吃到DeepSeek的红利了,对它是真爱啊连续表扬。

值得一提的是,R1仅用了几周的时间就超过了类ChatGPT开源鼻祖Meta发布的Llama系列,国内的开源大模型领头羊Qwen系列,以及微软开源的Phi系列,谷歌开源的Gemma系列。

就连开源文生图模型的大黑马FLUX.1,以及该领域的领导者Stable-Diffusion系列全都没打过R1,这第一拿的实至名归,踩着众多开源高手上去的。

有网友表示,R1的开源彻底改变了AI领域。

本周,Deepseek表示将推出大量新功能,伙计你可来活了!

本周我们将获得更多的开源惊喜!

巨大的功劳归于 Deepseek,他们让开源再次出色。他们彻底改变了游戏规则,并让所有闭源模型都感到压力。

即使像 Perplexity、Azure、AWS这样的云平台,也更倾向于使用 Deepseek,而不是他们自己的投资Sonar、OpenAI 或Anthropic 的模型。

DeepSeek-R1简单介绍

其实DeepSeek在开发R1之前,先开发的是纯强化学习版本R1-Zero,不依赖传统的监督微调,采用了GRPO算法。虽然训练出来性能不错,但可读性差和语言混合等都很差。

所以,在R1-Zero基础之上训练了R1模型,一共包含4个训练阶段。

冷启动训练阶段:与R1-Zero 不同,为了避免强化学习训练初期从基础模型开始的不稳定冷启动阶段, R1构建并收集了少量长思维链数据,对 DeepSeek-V3-Base 模型进行微调,作为初始的强化学习参与者。

在收集数据时,研究团队探索了多种方法,例如,使用带有长思维链的少样本提示作为示例、直接促使模型生成带有反思和验证的详细答案、收集R1-Zero以可读格式输出的结果并通过人工标注后处理优化等,收集了数千条冷启动数据来微调模型。

推理导向的强化学习阶段:主要聚焦于提升模型在编码、数学、科学和逻辑推理等推理密集型任务中的能力,这些任务通常具有明确的问题和解决方案。

在训练过程中,发现思维链存在语言混合问题,尤其是当强化学习提示涉及多种语言时。为缓解这一问题,引入了语言一致性奖励,通过计算思维链中目标语言单词的比例来衡量。虽然消融实验表明这种调整会导致模型性能略有下降,但它符合人类偏好,提高了可读性。

最后,将推理任务的准确性和语言一致性奖励直接相加,形成最终奖励,并对微调后的模型进行强化学习训练,直至推理任务收敛。

拒绝采样和监督微调阶段:当推理导向的强化学习收敛后,利用得到的检查点收集监督微调数据,用于后续轮次的训练。与初始冷启动数据主要关注推理不同,

该阶段的数据融合了其他领域的数据,以提升模型在写作、角色扮演和其他通用任务中的能力。在推理数据方面,精心策划推理提示,并通过对上述强化学习训练的检查点进行拒绝采样生成推理轨迹。

全场景强化学习阶段:为了使R1模型更好地符合人类偏好,实施了二次强化学习阶段。该阶段主要提高模型的有用性和无害性,同时进一步优化其推理能力。

通过结合奖励信号和多样化的提示分布来训练模型。对于推理数据,遵循R1-Zero 中使用的方法,利用基于规则的奖励在数学、代码和逻辑推理领域引导学习过程;

对于通用数据,则采用奖励模型来捕捉复杂和微妙场景中的人类偏好。基于 DeepSeek-V3的流程,采用类似的偏好对和训练提示分布。在评估有用性时,仅关注最终总结,确保评估重点在于响应对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰;

在评估无害性时,评估模型的整个响应,包括推理过程和总结,以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1

相关文章

在练习时长两年半的汽车工厂 亲眼看AI训练人类

在练习时长两年半的汽车工厂 亲眼看AI训练人类

声明:本文来自于微信公众号 凤凰网科技,作者:李治钦,授权站长之家转载发布。 2025年开年,凤凰车研所《制造没想到》想做点不一样的视频。去深入中国最先进的制造业工厂,看看那些产品背后的故事。 我们...

“乐乐爸乐乐妈”梗还是暴露了,网友:贴脸开大!

“乐乐爸乐乐妈”梗还是暴露了,网友:贴脸开大!

乐乐爸乐乐妈   【乐乐爸乐乐妈】近日,“乐乐爸乐乐妈”话题备受关注。事件的起因是因为在一节目中主持人抽奖抽到了id名为”乐乐爸乐乐妈“的用户,孙杨在旁边绷不住笑了。据了解,在训练中王顺很是照顾潘展乐...

与杨贵妃有关!古蜀道荔枝道的重重谜团……

四大蜀道中,荔枝道目前研发相对落后。金观新闻钱制图但近年来研究者达成了一些共识,如:自唐代以来,四川自南向北均产荔枝;杨玉环在四川长大,应该很早就接触荔枝了。荔枝路起于涪陵荔枝园,大致方向是经达州进入...

1场直播卖货320万,中小企业应该这么做

1场直播卖货320万,中小企业应该这么做

声明:本文来自于微信公众号 内容山庄,作者:内容山庄,授权站长之家转载发布。 │前言│ 最近小红书直播出现了各种风格“脱口秀”“英语直播”“小说剧场”“闲聊”的风格,给人感觉就是很松弛,直播间互动效...

河北一化工车间爆炸 已致5死2伤 事故原因正在调查中

河北一化工车间爆炸 已致5死2伤 事故原因正在调查中

  河北一化工车间爆炸 已致5死2伤   【河北一化工车间爆炸 已致5死2伤】5月31日,河北省武邑县应急管理局发布的一则通报,如同一颗巨石投入舆论的湖面,迅速引发社会广泛关注。通报显示,5月30日1...

关晓彤小巷人家眼神戏 内心渴望父亲的关怀,但绝望的神情让网友直呼:代入感太强!!

关晓彤小巷人家眼神戏 内心渴望父亲的关怀,但绝望的神情让网友直呼:代入感太强!!

  关晓彤小巷人家眼神戏   【关晓彤小巷人家眼神戏】近日,在电视剧《小巷人家》中,关晓彤出演的庄筱婷因眼神和状态让人代入感太强,让观众感受到细腻的情感表达,引发热议。关晓彤在电视剧《小巷人家》中的眼...