开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危
声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者杨宇,由授权站长之家转载发布。
开源大模式的全球格局将在一夜之间改变。
不,一个全新的开源大机型出现了,性能全面超越开源标杆Llama3。王位易手了。不是“可比”或者“赶超”,而是全面的超越。发布了两个小时,直接冲到了HggingFace开源机型排行榜的首位。
这是最新一代的开源模型Qwen2,来自依桐钱文和阿里巴巴。
在十几项国际权威评测中,Qwen2-72B的成绩都优于Llama3-70B,尤其是在测试HumanEval、MATH等代码和数学能力的基准测试中。
不仅如此,作为国产的大型机型,Qwen2-72B还“一战成名”,超越了国内多个大型闭源机型:
qw ---- b与之前的机型相比,整体性能实现了跨代提升,而在上海ai实验室推出的OpenCompass大型机型评测榜单中,qw ---- b已经超越了文心4、Moonshot-v1-8K等众多国产闭源机型。随着Qwen2-72B的出现,这种领先优势还在扩大。
有网友感慨:这只是个开始。开源模式很可能在未来几个月内击败以GPT-4o为代表的闭源模式。
qw EN2的发布可以说是一石激起千层浪。
才上线一天,下载量已经超过3万次。
网友还发现,除了72B和指令优化版,Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B的开源许可证都换成了Apache 2.0。
也就是说可以更自由的商业化。这是Llama3系列没有做到的。
在AI大模型领域,时间和速度是不一样的。
从阿里推出Qwen1.5-110B模式刷新SOTA到现在才一个月,全球开源模式已经形成一雄一雌的格局。
现在Qwen2称霸,全球开源第一,国内大机型第一——连不开源的大机型都超过了。
Qwen2挑战高考数学真题
我们来整体梳理一下Qwen2的基本情况。
根据官方技术博客,Qwen2的特性以及相比Qwen1.5的主要升级包括:
纸面数据上,Qwen2在开源模式下已经达到了全球最强的位置,那么实际表现会如何呢?
我们用新出炉的高考数学题测了一波。
我们从一个简单的问题开始:
已知集合a = {x |-5
左边是Qwen2-72B-Instruct,右边是LLMA-3-70B-Instruct。除了Llama3原版里那个不太支持中文的老问题,两边的答案都是对的。
然后就有点难了:
当x ∈ [0,2π]时,曲线y=sinx和y=2sin(3x-π/6)有多少个交点?
Qwen2-72B-Instruct还是没难倒。经过一番计算,给出了正确答案:交点个数为6。
和LLMA-3-70B-指令算错,扣5分。
Qwen2已经到了被高考真题考验的程度。
童益谦问到了这次升级,官方和评测数据也突出了代码能力的提升。我们还对LeetCode进行了难度适中的浅度测试:
给你一个按非降序排列的整数数组nums,和一个目标值target。请找出数组中给定目标值的起始位置和结束位置。如果数组中不存在目标值target,则返回[-1,-1]。你必须设计并实现一个时间复杂度为O(log n)的算法来解决这个问题。
qw -- b-Instruct给出的python实现如下:
left,right=0,len(nums)while left & lt;右:
mid =(left+right)//2if nums[mid]& lt;目标:
left=mid+1else:
right=midreturnleft
defbinary _ search _ right(nums,target):
left,right=0,len(nums)while left & lt;右:
mid =(left+right)//2if nums[mid]& lt;=目标:
left=mid+1else:
right=midreturnleft
left,right=binary_search_left(nums,target),binary_search_right(nums,target)return[left,right-1]if left & lt;= right-1 and nums[left]= = targetandnums[right-1]= = target else[-1,-1]
一开始没有定义解决方案类,导致了错误。但是,它可以通过将错误信息直接反馈给Qwen2来进行自我调试:
成功通过测试。
全尺寸模型标配GQA
你给依桐·钱文打几分?
值得关注的是,阿里官方技术博客还透露了Qwen变强的诸多技术细节。
首先是GQA的全面加持(分组查询关注)。
GQA,即分组查询的注意机制,主要思想是将输入序列分成若干组,应用组内和组间的注意机制,更好地捕捉序列内部的局部和全局依赖关系。
GQA可以有效降低计算复杂度,同时易于实现并行化,从而提高计算效率。
在Qwen1.5系列中,只有32B和110B型号使用GQA。Qwen2在整个系列中都使用了这种注意机制。也就是说,无论是高端玩家还是发烧友,这次都可以在Qwen2的各种尺寸型号中体验到GQA带来的推理加速和内存占用减少的优势。
另外,对于小模型(0.5B和1.5B),由于嵌入参数量较大,R&D团队采用tie嵌入方式,在输入层和输出层之间共享参数,以增加非嵌入参数的比例。
其次,在上下文长度方面,Qwen2系列的所有指令模型都是在32K的上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展到更长的上下文长度。
其中Qwen2-7B-Instruct和Qwen2-72B-Instruct支持128K上下文。版本72B的最长上下文长度可以达到131,072个令牌。
Qwen2-57B-A14B-Instruct可以处理64K上下文,另外两个更小的型号(0.5B和1.5B)支持32K上下文长度。
大海捞针的实验结果如下。可以看出,Qwen2-72B-Instruct在处理128K上下文长度内的信息抽取任务时表现完美。
另外,在数据方面,Qwen2继续探索标度律的路线。
比如数学能力的提升,就是研究团队用大规模高质量的数学数据喂养模型的结果。
在多语言能力方面,研究团队还在训练数据中加入了与27种语言相关的高质量数据。
博客还透露,依桐·钱文的研究团队将继续探索模型和数据的标度律,还将把Qwen2扩展成多模态模型。
重新认识中国开源大模型
qwen 2一发布,凭借更强的性能和更开放的态度好评如潮。
此前,在生态方面,Qwen系列下载量已经超过1600万次。国内外开源社区也出现了基于Qwen二次开发的1500多个模型和应用。
一些开发者已经感觉到中国大模型正在成为开源路线的领导者。
qw EN2的最新成绩单至少证实了两个事实。
【/h/]第一,中国开源大机型从性能到生态,都有与美国最强开源大机型Llama3抗衡的硬实力。
其次,正如图灵奖获得者Yann LeCun所预言的,开源模式已经超越了闭源模式,拐点已经出现。
其实这也是包括阿里在内的开源大模型玩家的获胜数字——
大模型的不断优化和进步,一方面依赖于强大的AI R&D能力和领先的基础设施能力,即人工智能和云的强强联合。
【/h/]以阿里为例,作为国内排名第一的云厂商,依托其强大的云计算能力,可以为AI训练和AI应用提供稳定高效的AI基础服务体系,在人工智能方面有着长期的积累。
另一方面也需要外界的不断反馈和技术推动。
开源社区的技术反馈从Qwen2上线第一天就可以看出来,GitHub上的问题数量也可以看出来。
在技术领域,开源意味着我为人人,人人为我,是全球科技互联网繁荣发展的核心精神元素。
无论什么时代,无论什么新技术浪潮,没有一个程序员或工程师不以开源为荣,甚至不感到高兴。
资深算法专家、阿里开源负责人林俊逸曾分享过依桐·钱文突飞猛进的“秘籍”:
开心。
因为我们服务于全世界的开发者,与其他开发者交流,为他人带来实实在在的帮助,所以依桐钱文模式的创造者们是快乐而兴奋的,关注着每一个开发者的反馈,为新的、意想不到的落地应用而兴奋。
这也是科技互联网世界快速发展的核心原因。黄金时代,开源成立,不开源被质疑。
然而,时代变了。在大模式时代,由于研发成本、商业模式、竞争等各种原因,闭源的光芒一度盖过开源,Close成为宠儿。
【/h/]所以,Meta的Llama或者阿里的Qwen,都可以复兴传统,重新证明科技互联网领域不变的精神和核心。
这种精神和核心在这里也有一个不言而喻的可持续飞轮。
阿里巴巴董事长蔡崇信向外界分享了他的想法。在全球云计算和AI第一梯队中,只有谷歌和阿里拥有领先的云业务和自主开发大模型的能力。其他有云服务的微软、亚马逊都是合作接入模式;其他自研的大模型,如OpenAI、Meta,都没有领先的云服务。
全球唯一,中国唯一。
在开源生态的推动下,云计算的技术迭代会更快,服务外延会更广,技术模式和商业模式,飞轮会闭环迭代,在固有基础设施的基础上构建新的基础设施,形成稳定持续的竞争力。
但是,开源大模型最大的价值和意义还是回归到开发者身上。只有开源大模型足够强大,AI for All,AI无处不在,才不会成为一纸空。
所以,此时此刻,是全球开源性能的最高峰,引领开源对闭源的超越,象征着新AI时代中国大模型的竞争力。
但更值得期待的是,通过开源模式,世界上没有难以开发的AI应用,也没有难以落地的AI解决方案。充分实现AI的价值,让新一轮AI复兴并持续繁荣,真正改变经济和社会。
参考链接:
https://qwenlm . github . io/zh/blog/qwen 2/