中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑

ze2年前默认1021

声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者雷锦,由授权站长之家转载发布。

在GPT-4o之前,商汤先放了《她》!

就在刚才,商汤在现场直接给爆了现场秀。话不多说,只看效果:

不仅声音很拟人化(观众称之为有磁性),而且是可以实时随时打断的那种!

就像装上了一双眼睛,可以做到精准的所见即所得。

即使是粗糙的手绘简笔画,AI也能机智地与人类互动:

一波直播秀下来,引来观众的掌声和“哇”的一声。

这是商汤发布的国内首个流媒体原生多模态交互模型日新5.5系列6000亿参数中5o达到的效果。

据了解,这是一种全新的AI交互模式,包括文本、声音、图像、视频等所有模式,可以让AI在与人交流时更加生动丰富。

可以说电影已经走进现实了。

而商汤CEO徐莉在现场表示,很快就要用了!

但新的AI交互模式只是商汤发布的一角。

纵观整个活动,上可以说在每日5.5左右玩了66%的多模态的东西。

各位,我们继续往下看。

计算机巨佬们“活”了起来

你是对的。商汤用新AI做的另一件花活是“复活”了图灵、冯诺依曼等计算机巨头。

并且还向已故人工智能科学家、老师商汤科技创始人汤晓鸥致敬。徐莉说:

为了致敬我们的创始人唐晓鸥教授对人工智能的坚持和对人才的培养,今天我们能站在这里,和大家分享一些我们对人工智能的想法。

请观看VCR:

这个新的AI被命名为Vimi,是第一个基于5.5能力的可控角色视频生成的大型模型。

而且是那种任何风格的照片都可以,普通用户最多用1分钟的那种~

要知道,“可控角色”的问题一直是大型模型的难题。即使像黑脸田鸡这样的大型模型也面临着诸如动作控制不准确和连续性不稳定(突然变脸)等问题。

但是维密不一样。不仅可以精确控制人物的面部表情,还可以在胸围范围内调整人物的自然姿态。

并且还可以自动生成与人物相匹配的发型、服装、背景的变化;从时长上来说,已经到了分钟级别。

所以,如果你以后想拍一部属于自己的大电影,比如《冰雪皇后》,那就一张照片:

以下视频来自维密相机。

以为就完了?不不不.

你的表情包又丰富了。

总之,Vimi的出现可以说是有利于视频创作者的,给了他们高质量AI工具的另一种选择。

值得一提的是,Vimi还被世界人工智能大会(WAIC)正式授予最高荣誉——镇馆之宝。

怎么做到的?

对于以上效果背后的杀手级技术,商汤也当场大揭秘。

一方面是建筑。

日新5.5采用混合端到端的云协作专家架构,可以最大化云端之间的协作,降低推理成本。

另一方面,数据。

【/h/]在模型训练上,日日新5.5基于超过10TB的表征高质量训练数据,包含大量合成思维链数据,语言理解和交互能力全面升级。

因此,日日新5.5在数学、推理、编程等多个维度较上一版本有了很大提升,尤其是数学推理(↑31.5%)、英语理解(↑53.8%)、指令跟随(↑26.8%)等核心指标。

那么这要怎么体现呢?权威评测榜单就是很好的证明。

【/h/]比如根据OpenCompass的评测,日新5.5的平均分已经和GPT-4o持平,多维度的得分更是超越了GPT-4o。

不要999,不要99,只要9.9元全年

除了多模,端侧也是商汤最重要的点之一。

【/h/]全新的日端模式5.5Lite也在性能指标的各个维度进行了全面升级。

基于手机旗舰平台,5.5Lite首次安装仅需0.19秒,比之前版本节省40%。

其推理速度提升15%,达到每秒90.2个汉字的处理速度。

此外,商汤还推出了端到端的模型矩阵,包括讨论迷你写作助手、总结助手、百科助手等特别定制的模型。

这些特殊型号在相应的场景下有更好的表现,可以满足客户复杂业务场景的需求,同时也提供不同的特殊型号供客户选择或定制。

而且,基于NIRI 5.5的端到端大规模模式,做到了“多快好”和“省”——每套最低使用成本可达每年9.9元。

企业方面,与商汤达成合作的企业用户超过3000家,涵盖互联网、医疗、金融、编程等领域。

说到价格和普惠,就不得不提商汤的“0元Go”计划:

即日起,您将成为商汤“SenseNova”的用户,将获得涉及通话、迁移、培训等多项免费服务套餐。

【/h/]同时赠送5000万代币包,并派出专属搬家顾问,让新用户舒适顺利地安家。

所以看完商汤的整个发布,我们还需要回答一个问题:

为什么重塑交互很重要?

对于这个问题,商汤CEO徐莉给出了他的解读:

以前我觉得我们所处的行业虽然很火,但是因为没有真正进入一个行业的垂直应用,没有引起广泛的变化,所以还没有到超级的时刻。

但是现在我的想法有点改变了。超矩和应用应该是互相成功的。只有超矩带来的认知变化,才能最终推动这样的应用。

所以,应用可能成为决定这个时代是否是人工智能超级时刻的一个关键。

这就是为什么商汤要推出流媒体原生多模态交互模型的原因。只有让它更丰富,更准确,延迟更低,可控性更强,才能应用到上一层楼。

总之,思路清晰,技术在进步。属于AI2.0的超级时刻可能正在加速向我们走来。

相关文章

HPV疫苗已降到20多元1支 国产二价疫苗价格战正酣!

HPV疫苗已降到20多元1支 国产二价疫苗价格战正酣!

HPV疫苗已降到20多元1支   【HPV疫苗已降到20多元1支】近日,国产HPV疫苗价格再创新低,成为社交媒体上的热门话题。其中,沃森生物的二价HPV疫苗“沃泽惠”在山东省疾病预防控制中心采购中中标...

突发!拉斯维加斯大学校园发生枪击案,已有多人受伤

周三上午,拉斯维加斯内华达大学发生枪击事件。据说许多人受伤了。在社交媒体上,该大学呼吁所有师生紧急前往该地区避难。 据最新消息,枪手已被找到并死亡。尚不清楚枪击是自杀还是被警方击毙。 社交媒体上...

太好笑!火车过山西隧道吸入煤灰 乘客变煤蛋 多名乘客被吹得满脸满身黑灰!

太好笑!火车过山西隧道吸入煤灰 乘客变煤蛋 多名乘客被吹得满脸满身黑灰!

火车过山西隧道吸入煤灰 乘客变煤蛋   【火车过山西隧道吸入煤灰 乘客变煤蛋】2025年6月7日,一列从山西太原开往大同的K5302次列车在途经雁门关隧道时,车厢内突然涌入大量黑色粉尘,多名乘客被吹得...

央视原主持人欧阳夏丹已入驻B站、微信视频号

【/h/]截至3月17日18时,欧阳夏丹b站认证账号已连续发布6条时长不超过7分钟的短视频。其中,她发布了“b站,我来了!”3月14日。视频中我说我要去b站了,会经常分享运动、阅读、旅行等内容。【/h...

成都一派出所警车撞死老人?警方回应

【/h/]2月27日,成都市民万女士向记者反映,2月25日早上6点多,她的公公刘某在家附近散步时,被辖区派出所执勤的警车撞死。【/h/]针对此事,记者联系了成都市公安局交警部门。一名工作人员表示,警车...

“五一”假期第二天北京市属公园共接待游客81.5万人次

【/h/]北京商报今日讯(记者吴)5月2日,据北京市公园管理中心消息,“五一”假期第二天,11家市属公园和中国园林博物馆共接待游客81.5万人次,与2019年相比增长13.95%,与2023年相比增长...