中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑
声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者雷锦,由授权站长之家转载发布。
在GPT-4o之前,商汤先放了《她》!
就在刚才,商汤在现场直接给爆了现场秀。话不多说,只看效果:
不仅声音很拟人化(观众称之为有磁性),而且是可以实时随时打断的那种!
就像装上了一双眼睛,可以做到精准的所见即所得。
即使是粗糙的手绘简笔画,AI也能机智地与人类互动:
一波直播秀下来,引来观众的掌声和“哇”的一声。
这是商汤发布的国内首个流媒体原生多模态交互模型日新5.5系列6000亿参数中5o达到的效果。
据了解,这是一种全新的AI交互模式,包括文本、声音、图像、视频等所有模式,可以让AI在与人交流时更加生动丰富。
可以说电影已经走进现实了。
而商汤CEO徐莉在现场表示,很快就要用了!
但新的AI交互模式只是商汤发布的一角。
纵观整个活动,上可以说在每日5.5左右玩了66%的多模态的东西。
各位,我们继续往下看。
计算机巨佬们“活”了起来
你是对的。商汤用新AI做的另一件花活是“复活”了图灵、冯诺依曼等计算机巨头。
并且还向已故人工智能科学家、老师商汤科技创始人汤晓鸥致敬。徐莉说:
为了致敬我们的创始人唐晓鸥教授对人工智能的坚持和对人才的培养,今天我们能站在这里,和大家分享一些我们对人工智能的想法。
请观看VCR:
这个新的AI被命名为Vimi,是第一个基于5.5能力的可控角色视频生成的大型模型。
而且是那种任何风格的照片都可以,普通用户最多用1分钟的那种~
要知道,“可控角色”的问题一直是大型模型的难题。即使像黑脸田鸡这样的大型模型也面临着诸如动作控制不准确和连续性不稳定(突然变脸)等问题。
但是维密不一样。不仅可以精确控制人物的面部表情,还可以在胸围范围内调整人物的自然姿态。
并且还可以自动生成与人物相匹配的发型、服装、背景的变化;从时长上来说,已经到了分钟级别。
所以,如果你以后想拍一部属于自己的大电影,比如《冰雪皇后》,那就一张照片:
以下视频来自维密相机。
以为就完了?不不不.
你的表情包又丰富了。
总之,Vimi的出现可以说是有利于视频创作者的,给了他们高质量AI工具的另一种选择。
值得一提的是,Vimi还被世界人工智能大会(WAIC)正式授予最高荣誉——镇馆之宝。
怎么做到的?
对于以上效果背后的杀手级技术,商汤也当场大揭秘。
一方面是建筑。
日新5.5采用混合端到端的云协作专家架构,可以最大化云端之间的协作,降低推理成本。
另一方面,数据。
【/h/]在模型训练上,日日新5.5基于超过10TB的表征高质量训练数据,包含大量合成思维链数据,语言理解和交互能力全面升级。
因此,日日新5.5在数学、推理、编程等多个维度较上一版本有了很大提升,尤其是数学推理(↑31.5%)、英语理解(↑53.8%)、指令跟随(↑26.8%)等核心指标。
那么这要怎么体现呢?权威评测榜单就是很好的证明。
【/h/]比如根据OpenCompass的评测,日新5.5的平均分已经和GPT-4o持平,多维度的得分更是超越了GPT-4o。
不要999,不要99,只要9.9元全年
除了多模,端侧也是商汤最重要的点之一。
【/h/]全新的日端模式5.5Lite也在性能指标的各个维度进行了全面升级。
基于手机旗舰平台,5.5Lite首次安装仅需0.19秒,比之前版本节省40%。
其推理速度提升15%,达到每秒90.2个汉字的处理速度。
此外,商汤还推出了端到端的模型矩阵,包括讨论迷你写作助手、总结助手、百科助手等特别定制的模型。
这些特殊型号在相应的场景下有更好的表现,可以满足客户复杂业务场景的需求,同时也提供不同的特殊型号供客户选择或定制。
而且,基于NIRI 5.5的端到端大规模模式,做到了“多快好”和“省”——每套最低使用成本可达每年9.9元。
企业方面,与商汤达成合作的企业用户超过3000家,涵盖互联网、医疗、金融、编程等领域。
说到价格和普惠,就不得不提商汤的“0元Go”计划:
即日起,您将成为商汤“SenseNova”的用户,将获得涉及通话、迁移、培训等多项免费服务套餐。
【/h/]同时赠送5000万代币包,并派出专属搬家顾问,让新用户舒适顺利地安家。
所以看完商汤的整个发布,我们还需要回答一个问题:
为什么重塑交互很重要?
对于这个问题,商汤CEO徐莉给出了他的解读:
以前我觉得我们所处的行业虽然很火,但是因为没有真正进入一个行业的垂直应用,没有引起广泛的变化,所以还没有到超级的时刻。
但是现在我的想法有点改变了。超矩和应用应该是互相成功的。只有超矩带来的认知变化,才能最终推动这样的应用。
所以,应用可能成为决定这个时代是否是人工智能超级时刻的一个关键。
这就是为什么商汤要推出流媒体原生多模态交互模型的原因。只有让它更丰富,更准确,延迟更低,可控性更强,才能应用到上一层楼。
总之,思路清晰,技术在进步。属于AI2.0的超级时刻可能正在加速向我们走来。