物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代

ze11个月前默认347

声明:本文来自于微信公众号 机器之心,作者:泽南、杨文,授权站长之家转载发布。

我们都没预料到,AI 领域的2025年是这样开始的。

DeepSeek R1真是太厉害了!

最近,「神秘的东方力量」DeepSeek 正在「硬控」硅谷。

我让 R1详细解释勾股定理。这一切都是 AI 在不到30秒时间里一次性完成的,没出任何错。简单来说,its over.

在国内外 AI 圈,普通网友发现了神奇的强大新 AI(还开源),学界专家纷纷喊出「要奋起直追」,还有小道消息称海外的 AI 公司已经如临大敌。

就说这个本周刚发布的 DeepSeek R1,它没有任何监督训练的纯强化学习路线令人震撼,从去年12月 Deepseek-v3基座发展到如今堪比 OpenAI o1的思维链能力,似乎是很快达成的事。

但在 AI 社区热火朝天的读技术报告、对比实测之余,人们还是对 R1有所怀疑:它除了能跑赢一堆 Benchmark 以外,真的能领先吗?

能自建模拟「物理规律」

你不信?来让大模型玩玩弹球?

最近几天,AI 社区的一些人开始沉迷一项测试 —— 测试不同的 AI 大模型(尤其是所谓的推理模型)来处理一类问题:「编写一个 Python 脚本,让一个黄色球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。」

一些模型在这项「旋转球形」基准测试中的表现优于其他模型。据 CoreView CTO Ivan Fioravanti 称,国内人工智能实验室 DeepSeek 的开源大模型 R1完胜 OpenAI 的 o1pro 模式,后者作为 OpenAI ChatGPT Pro 计划的一部分,每月收费200美元。

左边是 OpenAI o1,右边是 DeepSeek R1。如上所述,这里的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根据另一位网友在 X 上的说法,Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5Pro 模型对物理原理判断错误,导致球偏离了形状。也有用户报告称,谷歌最新的 Gemini2.0Flash Thinking Experimental,以及相对更旧的 OpenAI GPT-4o 都一次性通过了评估。

但这里面也是能分出高下的:

在这个推文底下的网友表示:o1的能力原本很好,在 OpenAI 优化速度过后就变弱了,即使是每月200美元的会员版也一样。

模拟弹跳球是一个经典的编程挑战。精确的模拟结合了碰撞检测算法,其算法需要去识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会影响模拟的性能或导致明显的物理错误。

AI 初创公司 Nous Research 的研究员 N8Programs 表示,他花了大约两个小时从头开始编写一个旋转七边形中的弹跳球。「必须跟踪多个坐标系,了解每个系统中的碰撞是如何进行的,并从头设计代码以使其具有鲁棒性。」

虽然弹跳球和旋转形状是对编程技能的合理测试,但对于大模型来说还是个新项目,即使是提示中的细微变化也可能产生出不同的结果。所以如果想让它最终成为 AI 大模型基准测试的一部分的话,还需要改进。

无论如何,经过这一波实测之后,我们对大模型之间的能力不同有了观感。

DeepSeek 是新的「硅谷神话」

DeepSeek 正让大洋彼岸陷入「恐慌」。

Meta 员工发帖称「Meta 工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。」

而 AI 科技初创公司 Scale AI 创始人 Alexandr Wang 也公开表示,中国人工智能公司 DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。

他还认为,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会「改变一切」。

X 博主 @8teAPi 则认为,DeepSeek 并不是一个「副业项目」,而是像洛克希德・马丁以前的「臭鼬工厂」。

所谓「臭鼬工厂」,就是当初洛克希德・马丁公司(Lockheed Martin)为了研发诸多先进飞行器专门成立的一个高度机密、相对独立的小团队,从事尖端或非常规的技术研究与开发。从 U-2侦察机、SR-71黑鸟,到 F-22猛禽、F-35闪电 II 战斗机都是从这里走出来的。

后来,这个词逐渐演变成一个通用术语,用来形容在大公司或组织内部设立的「小而精」、相对独立且自由度更高的创新团队。

他给出的理由有两个:

仅凭这两个事实,就可以看出,显然 DeepSeek 在商业上取得了成功,并且已经足够知名,能够获得这些资源。

至于 DeepSeek 的开发成本,该博主表示,中国科技公司可以获得各种各样的补贴,比如低用电成本和用地。

因此,DeepSeek 非常有可能大部分成本都被「安置」在核心业务之外的某个账目上,或者以某种数据中心建设补贴的形式存在。甚至除了创始人之外,没人完全清楚所有财务安排。有些协议可能只是「口头协定」,只靠声誉就能敲定。

不管怎样,有几点是明确的:

毫无疑问,越来越多的人认为2025年将会是决定性的一年。与此同时各家公司都在摩拳擦掌,比如 Meta 就正在建立一个2GW+ 的数据中心,预计在2025年投资600-650亿美元,年底拥有超过130万块 GPU。

Meta 甚至用一张图表展示了2千兆瓦数据中心与纽约曼哈顿的对比。

但现在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不让人焦虑?

Yann LeCun:要感谢开源

Hyperbolic 的 CTO、联合创始人 Yuchen Jin 发帖表示,在仅4天时间里,DeepSeek-R1向我们证明了4个事实:

由 DeepSeek 引发的连锁反应仍在继续,比如 OpenAI o3-mini 免费可用、社区中希望能减少关于 AGI/ASI 的模糊讨论以及传闻 Meta 陷入恐慌等。

他认为,现在很难预测最终谁会获胜,但不要忘记后发优势的力量,毕竟我们都知道是 Google 发明了 Transformer,而 OpenAI 解锁了其真正潜力。

此外,图灵奖得主、Meta 首席人工智能科学家 Yann LeCun 也表达了自己的看法。

「对于那些看到 DeepSeek 的性能就认为『中国正在超越美国的 AI』的人,你理解错了。正确的理解是:开源模型正在超越专有模型。」

LeCun 表示,DeepSeek 之所以这次一鸣惊人,是因为他们从开放研究和开源(如 Meta 的 PyTorch 和 Llama)中获益。DeepSeek 提出了新想法,并在他人工作的基础上构建。因为他们的工作是公开发布和开源的,每个人都可以从中受益,这就是开放研究和开源的力量。

网友们的反思还在继续,在对于新技术发展兴奋的同时,也能感受到一点点忧虑的气氛,毕竟 DeepSeek 们的出现,可能会带来真金白银的影响。

相关文章

多名外地游客称被江汉路一封情酥“高价背刺”,武汉市监部门称正调查取证

【/h/]近日,湖北武汉一女子爆料称,她和家住江汉路名为“一封感伤的信”我们的点心店买了5块雪花酥,但结账时发现花了600多元,要求退款一度被拒。事件经报道后,引发关注。【/h/]4月10日,顾客翟女...

女演员孙冉冉(化名)涉嫌诈骗,遭上海警方传唤

2023年12月11日晚。在北京警方、上海警方的配合下对于一个叫孙然(化名)的女人被依法传唤。孙冉冉曾经是一名演员。在外人看来,前途一片光明。那她为什么?成为犯罪嫌疑人?要从2023年底说起。胡雯(化...

为还赌债杭州男子偷卖女友项链,销赃后还上演“霸总”戏码送1699元化妆品,获刑7个月

没有收入来源,又欠下一屁股赌债,他竟然选择向刚交往不久的女友下手。 2023 年 10 月的一天,王某在女友宿舍的枕头下发现一条玫瑰金奢侈品项链。正为没钱而苦恼的王某 " 灵光乍现 ":这条项链价值...

徐州这碗丸子汤传承了五代人,每天能卖1000碗

& quot;丸子汤& quot;辣汤" & quot转汤合起来称为徐州三大汤。作为苏记丸子汤的第五代传承人,1998年出生的徐州姑娘孔媛媛和她的家人每天能卖出1000多碗汤,做工精致,用料考究,赢...

刚刚,OpenAI发布o1模型新突破,推理时间增强对抗鲁棒性

刚刚,OpenAI发布o1模型新突破,推理时间增强对抗鲁棒性

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。 今天凌晨2点,OpenAI发布了一项新技术研究,通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性。...

鹿晗回应喝多了 怒怼黑粉、竖中指,还播放了歌曲《初雪》!

鹿晗回应喝多了 怒怼黑粉、竖中指,还播放了歌曲《初雪》!

鹿晗回应喝多了   【鹿晗回应喝多了】近日,著名歌手鹿晗在11月29日凌晨的一场直播中,因疑似饮酒过量而情绪失控,直接怒怼直播间内的黑粉,此事迅速在网络上发酵,引发广泛关注和热议。   直播中,鹿晗脸...