GPT-4o mini突然上线!该换小模型赛道的OpenAI意欲何为?

ze9个月前默认686

声明:本文来自微信微信官方账号新火。作者:小燕,授权站长之家转载发布。

ChatGPT正式进入“4”时代。

7月18日,OpenAI正式宣布推出GPT-3.5Turbo的替代品GPT-4O Mini,至此,ChatGPT的更新迭代又近了一步,走到了四个字的开头。据了解,从现在开始,ChatGPT的免费用户,加上用户和团队用户都可以使用GPT-4o mini,企业客户也将在后期获得GPT-4o mini的使用权。

OpenAI进入小模型赛道!GPT-4o mini有什么优点?

在各大AI公司争相推出产品的当下,OpenAI的更新速度并不算太快。很多人希望蛰伏已久的OpenAI能一出手就做点大事,比如推出一款能在各方面碾压上一代产品的GPT-5.0。正因如此,很多人对GPT-4o mini的外观有点失望。

不过需要注意的是,GPT-4.o mini并非一无是处,而是一款非常有代表性的产品。OpenAI将GPT-4o mini描述为“一款拥有出色文本智能和多模态推理能力的小车型”,这准确地将其定位为小车型赛道上的领先产品。

根据OpenAI,GPT-4o mini在LMSYS排行榜中的聊天偏好方面优于GPT-4,在文本智能和多模态推理方面的学术基准测试中超过GPT-3.5Turbo和其他小模型,支持的语言范围与GPT-4o相同。GPT-4o mini在函数调用方面也表现出色,这使开发人员能够构建获取数据或使用外部系统采取行动的应用程序。

此外,与GPT-3.5Turbo相比,GPT-4o mini的长上下文性能得到了提升,并在几个关键基准上进行了评估,即推理任务、数学和编码能力以及多模态推力。

【/h/]在推理任务方面,GPT-4o mini在涉及文本和视觉的推理任务上优于其他小机型,在文本智能和推理基准MMLU上的得分为82.0%,双子闪电侠为77.9%,克劳德俳句为73.8%。在数学和编码能力上,GPT-4o mini的表现优于之前市场上的小型号。在测量数学推理的MGSM上,GPT-4o mini得分87.0%,双子闪电侠得分75.5%,克劳德俳句得分71.7%。在衡量编码性能的HumanEval上,GPT-4o mini的得分为87.2%,而双子座Flash的得分为71.5%,克劳德俳句的得分为75.9%。在多模态推理方面,GPT-4o mini在多模态推理评测MMMU中也表现不俗,得分为59.4%,双子闪电侠为56.1%,克劳德俳句为50.2%。

更重要的是,GPT-4o mini还有另一个竞争优势:价格足够实惠。

OpenAI表示,开发者在使用GPT-4o mini时,每一百万个输入令牌需要支付15美分,每一百万个输出令牌需要支付60美分。这个定价比之前的Frontier模型便宜了整整一个数量级。即使与它的上一代产品GPT-3.5Turbo相比,它也便宜了60%以上。

GPT-4O是如何工作的?第一手评测结果:了解不多,但是速度绝对快。

当然,再多的理论上的优势也说不出来,不如大家的实际体验重要和直观。

目前GPT-4o mini在WildBench测试中排名第9,比谷歌的Gemini-flash和Anthropic的Claude3Haiku都要好。看得出来大家对这个新产品还是很感兴趣的。

GPT-4o mini一开放测试,就有网友冲到它面前,问了它一个问题:9.11和9.9哪个更大?

可惜GPT-4o mini没有给出正确答案,不仅没有给出正确答案,还在错误的道路上越走越远,一本正经地回答9.11大于9.9是因为0.1大于0.9。

随后,网友在Poe(Quora开发的一款应用,已经集成了GPT-4omini)中输入传记电影Eno的设计封面,让GPT-4o和GPT-4o mini两个型号进行解读。结果mini翻车了。GPT-4o mini直接表示“我认不出照片中的人”,但GPT-4o的回答更准确。

然而,说到响应速度,GPT-4o mini确实配得上OpenAI给的“更快”标签。和它对话几乎不需要等待,输出速度快得离谱。

虽然目前GPT-4o mini的答题准确率还有待提高,但不可否认的是,它已经是一款性能最为优越的小车型,完全可以超越GPT-3.5Turbo等小车型。据了解,GPT-4o mini的知识更新至去年10月,语言类型与GPT-4o对齐,上下文窗口为128k。

目前GPT-4.o mini在API中只支持文本和视觉模式,在不久的将来,还会扩展到视频和音频的输入输出。虽然没有透露参数规模,但OpenAI官方直接表示这是他们目前最经济、性价比最高的小型号,微调功能即将上线。

只有小模型的出现,OpenAI的使命才能真正完成吗?

GPT-4o mini虽然是小型号,但在性能上与大型号相比并没有太大的妥协。

得益于优化的架构设计和高效的算法,GPT-4o mini可以在保留大型车型强大性能的同时,提供更轻量化的解决方案。这使得它在文本生成、对话和翻译方面表现出色。

但是问题来了。之前一直做大模型的OpenAI为什么选择转头深挖小模型赛道?

open ai API的负责人顾德明说,这涉及到一个“优先级”的问题。此前,OpenAI专注于GPT-4等大模型,但随着时间的推移,OpenAI终于注意到了开发者对小模型愿景的渴望,最终决定投入资源。据了解,OpenA对GPT-4o mini非常有信心,认为它会非常受欢迎。

确实如此。对于渴望以低成本构建应用程序的开发人员来说,GPT-4o mini来的正是时候。比如金融创业公司Ramp就用它搭建了一个工具,提取收据上的费用。不用浏览文本框,模型会自动对所有内容进行排序,大大提高了工作效率。

在OpenAI设想的未来,该模型将无缝集成到每一个应用和每一个网站中。如今,随着GPT-4o mini的推出,它为开发人员更高效、更经济地构建和扩展强大的人工智能应用程序铺平了道路。可以看到,AI正变得越来越容易接近,越来越可靠,越来越融入每个人的日常体验。而OpenAI将继续引领这一进程。

曾几何时,OpenAI一心想走大模型之路,可惜这条路走得并不顺利。虽然OpenAI创造了比上一波AI公司更多的现金流,但从战略上讲,它并没有把自己甩在一个合适的位置上。

在这种情况下,盲目跟随大模式很可能对公司造成毁灭性的打击,导致人才高企,培养成本根本找不到。更可怕的是,一旦技术增长停滞,其客户必然会将其踢出局,或者在多家供应商之间讨价还价。这样会导致大模特公司变成一个赚钱辛苦,花钱开心的公司,无法长久维持。所以做个大模型。无论创造多少收入,本质上还是有危险的。

今天,OpenAI显然找到了更合适的打开方式。但毫无疑问的是,大模型不可能滚,小模型不可能滚。

图片来自网络。

文本参考:

微信官方账号的《新智元》文章《奥特曼半夜发动价格战,GPT-4o mini暴跌99%!清华同济校友立功退役GPT-3.5。

https://Baijia Hao . Baidu . com/s?id=1804991663805668979

相关文章

暂时不敢用deepseek写作了

暂时不敢用deepseek写作了

声明:本文来自于微信公众号 王左中右,作者:王左中右,授权站长之家转载发布。 DeepSeek刚出来的时候,确实把我惊到了。严密的推理,天马行空的想象,近乎无限的知识面,让我已经开始收拾铺盖准备给A...

批量生产的AI奶奶,正在小红书扮演人生导师

批量生产的AI奶奶,正在小红书扮演人生导师

声明:本文来自于微信公众号 AI新榜,作者:云飞扬1993,授权站长之家转载发布。 AI美女之后,AI奶奶也来了。 最近,小红书、抖音等社交平台上出现了一大批奶奶类账号。这些账号大多形式简单,一组由...

休闲零食的渠道战争

【/h/]文|博湖财经,作者|李【/h/]在折扣业态的搅动下,休闲零食行业开始分化。【/h/]近日,三只松鼠、良品铺子和演金小店发布了2024年第一季度财务报告。三只松鼠第一季度营收36.46亿元,同...

女子将3岁女儿推入池塘,警方通报

11月6日凌晨,广东省普宁市公安局通报“女子将孩子推入池塘”一事:涉事人员为孩子母亲,已被刑事拘留。 以下是公告全文:【/h/】11月5日16时许,群众报警称,普宁市流沙东路新滩村一女子骑自行车经过...

记者:泰山内部发生很严重的事情 到底存在哪些问题?

记者:泰山内部发生很严重的事情 到底存在哪些问题?

记者:泰山内部发生了非常严重的事情。【/h/]【记者:泰山内部发生了严重的事情】最近,山东泰山队陷入了舆论风波。记者陈勇在社交媒体表示,泰山没有拖欠工资,但内部发生了严重的事情。【/h/]陈勇表示,首...

处理违规账号419个!微信发布最新公告→

8 月 16 日,微信公众平台运营中心微信公众号发布《关于治理账号 " 假冒仿冒 " 行为的公告》,内容如下: 为进一步打造绿色、健康的网络环境,保障平台的内容生态和用户体验,根据《互联网用户账号信...