中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑

ze1年前默认1012

声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者雷锦,由授权站长之家转载发布。

在GPT-4o之前,商汤先放了《她》!

就在刚才,商汤在现场直接给爆了现场秀。话不多说,只看效果:

不仅声音很拟人化(观众称之为有磁性),而且是可以实时随时打断的那种!

就像装上了一双眼睛,可以做到精准的所见即所得。

即使是粗糙的手绘简笔画,AI也能机智地与人类互动:

一波直播秀下来,引来观众的掌声和“哇”的一声。

这是商汤发布的国内首个流媒体原生多模态交互模型日新5.5系列6000亿参数中5o达到的效果。

据了解,这是一种全新的AI交互模式,包括文本、声音、图像、视频等所有模式,可以让AI在与人交流时更加生动丰富。

可以说电影已经走进现实了。

而商汤CEO徐莉在现场表示,很快就要用了!

但新的AI交互模式只是商汤发布的一角。

纵观整个活动,上可以说在每日5.5左右玩了66%的多模态的东西。

各位,我们继续往下看。

计算机巨佬们“活”了起来

你是对的。商汤用新AI做的另一件花活是“复活”了图灵、冯诺依曼等计算机巨头。

并且还向已故人工智能科学家、老师商汤科技创始人汤晓鸥致敬。徐莉说:

为了致敬我们的创始人唐晓鸥教授对人工智能的坚持和对人才的培养,今天我们能站在这里,和大家分享一些我们对人工智能的想法。

请观看VCR:

这个新的AI被命名为Vimi,是第一个基于5.5能力的可控角色视频生成的大型模型。

而且是那种任何风格的照片都可以,普通用户最多用1分钟的那种~

要知道,“可控角色”的问题一直是大型模型的难题。即使像黑脸田鸡这样的大型模型也面临着诸如动作控制不准确和连续性不稳定(突然变脸)等问题。

但是维密不一样。不仅可以精确控制人物的面部表情,还可以在胸围范围内调整人物的自然姿态。

并且还可以自动生成与人物相匹配的发型、服装、背景的变化;从时长上来说,已经到了分钟级别。

所以,如果你以后想拍一部属于自己的大电影,比如《冰雪皇后》,那就一张照片:

以下视频来自维密相机。

以为就完了?不不不.

你的表情包又丰富了。

总之,Vimi的出现可以说是有利于视频创作者的,给了他们高质量AI工具的另一种选择。

值得一提的是,Vimi还被世界人工智能大会(WAIC)正式授予最高荣誉——镇馆之宝。

怎么做到的?

对于以上效果背后的杀手级技术,商汤也当场大揭秘。

一方面是建筑。

日新5.5采用混合端到端的云协作专家架构,可以最大化云端之间的协作,降低推理成本。

另一方面,数据。

【/h/]在模型训练上,日日新5.5基于超过10TB的表征高质量训练数据,包含大量合成思维链数据,语言理解和交互能力全面升级。

因此,日日新5.5在数学、推理、编程等多个维度较上一版本有了很大提升,尤其是数学推理(↑31.5%)、英语理解(↑53.8%)、指令跟随(↑26.8%)等核心指标。

那么这要怎么体现呢?权威评测榜单就是很好的证明。

【/h/]比如根据OpenCompass的评测,日新5.5的平均分已经和GPT-4o持平,多维度的得分更是超越了GPT-4o。

不要999,不要99,只要9.9元全年

除了多模,端侧也是商汤最重要的点之一。

【/h/]全新的日端模式5.5Lite也在性能指标的各个维度进行了全面升级。

基于手机旗舰平台,5.5Lite首次安装仅需0.19秒,比之前版本节省40%。

其推理速度提升15%,达到每秒90.2个汉字的处理速度。

此外,商汤还推出了端到端的模型矩阵,包括讨论迷你写作助手、总结助手、百科助手等特别定制的模型。

这些特殊型号在相应的场景下有更好的表现,可以满足客户复杂业务场景的需求,同时也提供不同的特殊型号供客户选择或定制。

而且,基于NIRI 5.5的端到端大规模模式,做到了“多快好”和“省”——每套最低使用成本可达每年9.9元。

企业方面,与商汤达成合作的企业用户超过3000家,涵盖互联网、医疗、金融、编程等领域。

说到价格和普惠,就不得不提商汤的“0元Go”计划:

即日起,您将成为商汤“SenseNova”的用户,将获得涉及通话、迁移、培训等多项免费服务套餐。

【/h/]同时赠送5000万代币包,并派出专属搬家顾问,让新用户舒适顺利地安家。

所以看完商汤的整个发布,我们还需要回答一个问题:

为什么重塑交互很重要?

对于这个问题,商汤CEO徐莉给出了他的解读:

以前我觉得我们所处的行业虽然很火,但是因为没有真正进入一个行业的垂直应用,没有引起广泛的变化,所以还没有到超级的时刻。

但是现在我的想法有点改变了。超矩和应用应该是互相成功的。只有超矩带来的认知变化,才能最终推动这样的应用。

所以,应用可能成为决定这个时代是否是人工智能超级时刻的一个关键。

这就是为什么商汤要推出流媒体原生多模态交互模型的原因。只有让它更丰富,更准确,延迟更低,可控性更强,才能应用到上一层楼。

总之,思路清晰,技术在进步。属于AI2.0的超级时刻可能正在加速向我们走来。

相关文章

黄山徽州警方向见义勇为的凌先生致敬

大皖新闻讯 8 月 30 日上午,黄山市徽州区居民凌先生与妻子丁女士应邀来到该区岩寺派出所,在民警辅警们的点赞声中,从所长孙勇手中领取了一份小礼品。同时,凌先生还穿上了象征徽州群防群治力量的 " 平...

震惊!!京东:给所有骑手的对象安排工作 实现“双职工”待遇 大幅提高家庭收入!!

震惊!!京东:给所有骑手的对象安排工作 实现“双职工”待遇 大幅提高家庭收入!!

京东:给所有骑手的对象安排工作   【京东:给所有骑手的对象安排工作】近日,京东发布的一则消息引发了广泛关注,京东宣布将为所有骑手的对象安排工作,这一举措在行业内引起了热烈反响,也展现了京东对骑手群体...

“逆转让人想不到”半场开香槟 陈一冰发文致歉 苏炜德两次掉杆葬送金牌!!

“逆转让人想不到”半场开香槟 陈一冰发文致歉 苏炜德两次掉杆葬送金牌!!

  半场开香槟 陈一冰发文致歉   【半场开香槟 陈一冰发文致歉】近日,巴黎奥运会竞技体操男子团体决赛,前体操奥运冠军陈一冰提前发博庆祝中国男子体操队夺冠,最终中国队因自身失误无缘金牌,引发争议。  ...

湖南一地政协主席嫖娼被抓?知情者:网传嫖宿幼女不实,对象14岁以上

【/h/]3月20日,湖南省洞口县政协主席尹某龙因涉嫌与幼女发生性关系被警方逮捕。【/h/]洞口县人大常委会主任欧阳友春在接受大河报记者采访时表示:“根据公安通报,网传幼女是卖淫女的说法不属实,对象年...

五一提前出发的“聪明人”太多 网友:半夜堵在高速一动不动!!

五一提前出发的“聪明人”太多 网友:半夜堵在高速一动不动!!

五一提前离职的“聪明人”太多了。【/h/]【五一错峰出行的“聪明人”太多了】这主要是指许多人为了避免假期高峰时段交通拥堵和景区拥挤等问题而选择提前出行。这一现象反映了人们在规划假日旅游时的战略思维,也...

29岁小姐姐一碰就疼,怕风怕雨又怕冷,主盯女性!

你有这样的经历吗?坐立不安,无精打采,坐立不安 …… 没人受伤除了。我浑身疼痛。 但是我找不出原因。 此时 保持高度警惕。 这种容易被漏诊和误诊的疼痛 她真的很痛苦,却被老公嘲笑“公主病” 娜美(化...