活久见!谁想的这种办法让大模型PK
【/h/]免责声明:本文来自微信官方账号光锥智能(ID:朱光科技),作者白鸽,由授权站长之家转载发布。
【/h/]“每个大型号看起来都一样,所以谁便宜谁就可以先用。但用了之后,不适合再换了,既费钱又费力。”一家人工智能招聘公司的创始人抱怨光锥智能。
【/h/]2024年,大模型正加速走向产业化应用。不过,各大车型擅长的领域不同。如何找到最适合自身业务场景的大模型成为开发者的难题之一。
【/h/]“在大规模模型应用和开发过程中,我们通常会选择一到两个大模型进行自主研发产品,然后在Demo出来后评估大模型是否适合。”一位开发者对光锥智能这样说。
【/h/]不难看出,这种大规模模型应用开发方式耗时耗力,开发成本也很高。
【/h/]基于此,目前各大厂商都在AI应用开发平台中内置了模型评估和模型选择等功能,如百度AI Cloud千帆大模型平台和亚马逊云技术的Amazon基岩。
【/h/]但这些平台的模型评估和选择功能更适合企业开发者。对于普通个人开发者,尤其是没有编程基础的用户来说,很难理解这背后的模型评估逻辑。
【/h/]那么,有没有更简单、更清晰的适合个人开发者的模型评估和选择方法呢?
【/h/]字节跳动将他经典的A/B测试方法用于大型模型的选择和评估。
【/h/]6月12日,字节跳动人工智能应用开发平台Button(coze . cn)发布了按钮模型Square。模型广场主要包括两项功能:
【/h/]首先是车型市场。该模型广场已连接到许多国内头部语言模型,包括豆包、依桐钱文、芝浦、MiniMax、Moonshot、百川等。,创建Bot(代理)和调试Bot时可以一键切换。
【/h/]第二,模特竞技场。通过类似于小游戏的模型战斗,开发者可以让两个带有隐藏模型的机器人点击PK,并根据模型的答案进行投票,具体模型将在投票结束后揭晓。
【/h/]一键PK,傻瓜式操作,为开发者筛选大模型提供了相当简单便捷的方式。
【/h/]这种PK类似于大模型上的“A/B测试”,给予大模型真实的人类反馈,可以快速推动大模型的升级迭代,从而为Bot应用开发提供更好的技术支持。
【/h/]与此同时,为了鼓励开发者使用大模型开发Bot,Button和英特尔推出了AI workshop活动,重点关注三个赛道:图形创作赛道、实用工具赛道和互动创意赛道。
【/h/]为了给开发者提供“开箱即用”的体验,Button推出了Bot商店、插件商店,甚至最近开发者最关心的核心工作流也有了商店。
【/h/]可以看出,2024年已经过半,大规模模型的迭代和智能体的应用进展迅速。
【/h/]而字节跳动在推荐算法时代赖以生存的“数据驱动”思维,已经在大模型上悄然实现。利用大模型竞技场吸引用户的反馈,提高大模型的调用量,进而带动Bot的发展。随后,结合字节跳动的内容生态特点,完成了商业化闭环。
【/h/]字节跳动,这个移动互联网时代的“应用工厂”,已经开始演变为“大型模型工厂”。
【/h/]模特大赛
【/h/]小游戏衡量大模型的效果。
【/h/]A/B测试的思维深深植根于字节跳动的企业文化和基因中。
【/h/]对于字节跳动组织中的人来说,从中高层管理人员到一线产品和操作人员都有一个普遍共识:A/B测试是所有决策的前提和基础。在启动任何策略之前,运行A/B测试并用数据说话。
【/h/]例如,今日头条、Tik Tok、西瓜等。,这些产品的名称不是产品经理或业务负责人经验决策的结果,而是将不同名称的应用包投放到应用市场上,并由下载率和共享率决定,这实质上是通过A/B测试的思想将产品的决策权交给用户。
【/h/]在产品功能方面,在Tik Tok弹幕功能上线之前,团队采用A/B测试设计了一个实验,将没有弹幕的页面设置为对照组,将有弹幕和其他交互功能的页面分别设置为实验组1和实验组2。
【/h/]通过实验,Tik Tok团队发现弹幕功能在与其他互动功能叠加时可以提高互动率,但与此同时,视频观看次数和用户留存率都有所下降。也就是弹幕功能不足以转化为长期稳定的用户价值。因此,Tik Tok团队在实验后决定不推出这项功能。
【/h/]而该按钮引入的模型广场中的“模型竞技功能”也延续了A/B测试机制。
【/h/]模特比赛主要有三种模式:
【/h/]指定机器人战斗模式。
【/h/]随机生成一个Bot战斗模式。
【/h/]纯模型战斗模式
【/h/]无论哪种竞赛模式,用户都需要对模型进行提问,然后根据回答问题生成的内容判断生成内容的质量,再通过AB选择评估大模型的能力。
【/h/]在光锥智能体验过程中,点击随机启动后,按钮平台系统会随机选择两个BOT,例如影视分析BOT,而这两个BOT背后是两个不同的大模型产品。页面会简单介绍两个僵尸工具的使用场景,一般会提供僵尸工具下具体使用场景相关的具体链接或问题,如抖音视频链接、视频内容等。
【/h/]用户可以直接点击Bot提供的问题,也可以自行提问。问题问完之后,两位模特就要开始回答了。回答完成后,该回答所用的时间将显示在下方,相关问题将继续给出。
【/h/]如果只是简单的测试,可以选择Bot答案的内容,包括选择A或B,两个都好,两个都差。选择完成后,将显示两个机器人背后的大模型产品以及大模型的相关性能。
【/h/]这种简单的“AB选择”游戏可以激发普通人使用大模型竞技场的欲望。
【/h/]用户尤其是没有编程经验的普通人可以以极低的成本广泛参与模型广场的PK对抗,感受AI的魅力。如果能提供一定的奖励机制,就能带动更多的用户参与到真实的模型反馈中来。
【/h/]对于开发人员来说,如果他们想在按钮上构建Bot应用程序,可以在构建之前通过模型方块进行大模型PK,这样可以更简单、高效、方便地选择最适合的大模型产品,这大大降低了使用大模型的门槛。
【/h/]对于大型模型制造商来说,模型竞争带来了真实的人类反馈,并且这些数据超级珍贵。
【/h/]例如,OpenAI推出ChatGPT后,其自身的大模型能力发展非常迅速。在今年春季的会议上,OpenAI的GPT-4o朝着更自然的人机交互迈出了一步,它可以接受文本、音频和图像的任何组合作为输入内容,并生成文本、音频和图像的任何组合作为输出内容。
【/h/]在中国,百度文心一言也宣布其服务于去年正式向公众开放。用户可以在App Store(免费列表中的第一个)和官方网站下载/体验它,并且他们可以在不申请内测资格的情况下使用它,这意味着文心一言可以从用户那里获得更真实的反馈数据。
【/h/]因此,在按钮平台的模型广场中,随着越来越多的用户进行模型PK,将聚集更多用户的真实反馈数据,这可以不断推动大模型能力的迭代,为用户提供更好的体验。
【/h/]因此,在button平台上,开发者可以更好地调动大规模模型开发产品的能力,大规模模型厂商基于真实数据迭代升级产品能力,不断激发平台上应用的创新,形成大规模模型应用开发的完整生态闭环。
【/h/]换句话说,按钮平台的AI应用开发生态也形成了良性的发展和竞争环境。
【/h/]现在有这么多AI开发平台。
【/h/]代理爆款在哪里?
【/h/]在大规模模型应用过程中,Bot(Agent)成为重点方向之一。
【/h/]自去年以来,各大厂商都在积极部署Bot(Agent)开发平台。例如OpenAI的GPT商店、字节跳动的Button、腾讯云的腾讯元软件、百度AI云的千帆AgentBuilder、阿里云的AgentScope多智能体开发平台等。
【/h/]不可否认的是,虽然家家都在做Bot(Agent)开发,但目前还没有真正的爆发性应用。究其原因,目前大模型的应用还不能让用户觉得好用、爱用。
【/h/]“目前虽然有很多AI应用平台,但做出来的应用都是流于表面的,没有解决行业的问题。”银泰百货零售百货店数码智能产品负责人有一对光锥。
【/h/]光锥智能在体验各种bot时的体验并不是很好。首先,非常实用的bot并不多,短视频选题、小红书爆款文案等工具效率类相对较好,但其他类似《甄嬛传》十级考试的更多是尝鲜者,体验与小程序类似,不能特别突出大模型的优势。
【/h/]此外,即使对于像儿童百科这样的Bot来说,答案的内容也不够深入,需要更多的标准指令才能获得更准确的答案,但这对于没有编程基础的普通用户来说并不是一件容易的事情。
【/h/]与此同时,在企业级应用中,现阶段很难将人工智能与人工完全分离,两者都需要与人工合作才能更好地为客户服务。
【/h/]因此,如何开发一个易于使用、能被更多用户使用的Bot成为大规模模型应用突破的关键。那么,如何才能开发出真正有用的Bot呢?
【/h/]极低的使用大模型的门槛和成本是促进用户不断开发各种AIBOTs的基础。然而,一位从业者表示,Bot(Agent)很容易开发,但需要时间来优化。换句话说,普通人开发一个Bot的门槛并不高,但要让它真正好用就更难了。
【/h/]因此,除了大模型的基本能力外,各种工具如插件、工作流、图像流、触发器等。拓展机器人技能也是开发好机器人的关键。
【/h/]例如,用户既可以用一句话创建一个简单的机器人,也可以像拼图一样将几个功能组装成一个机器人。这个组装的机器人是一个工作流。
【/h/]“一位汽车爱好者利用工作流功能添加了五个节点,实现了根据用户需求搜索车型、对比参数的全过程,最终输出图文并茂的购车建议,用自己的专业知识为身边的朋友解决了选车难题。”纽扣产品经理潘宇阳如此表示。
【/h/]斯坦福大学教授、著名人工智能学者吴恩达指出,人工智能智能体的工作流将在今年推动人工智能的巨大进步,甚至可能超越下一代基本模型。
【/h/]做出这一判断的原因是,通过代理工作流,开发人员可以要求LLMs多次迭代文档。对于AI来说,这种迭代的工作流程将产生比一次性编写好得多的结果。
【/h/]根据数据,吴恩达发现GPT-3.5(零样本)的正确率为48.1%,GPT-4(零样本)的正确率更高,为67.0%,性能差异不是很大。然而,通过引入迭代工作流程,GPT-3.5的准确率高达95.1%。
【/h/]因此,当前工作流正在成为Bot(Agent)开发过程中的关键环节,也引起了开发人员的关注。
【/h/]对于图像素材的处理,按钮平台也有专门处理素材的图像流,涵盖素材获取、素材编辑和素材导出三大环节,让画图变得更简单。
【/h/]此外,即使使用相同的Bot,用户的需求也不完全相同。
【/h/]因此,按钮平台还提供了长期内存、数据库、文件盒等功能。基于这些功能,Bot会记住用户说过的关键信息和偏好,甚至会仔细捕捉用户看过的文件和偶尔冒出的小想法。
【/h/]例如,在旅行时,如果用户认为某个地方的酒不错,下次想喝酒时,Bot会根据他的口味推荐合适的酒。
【/h/]但Bot仅了解用户是远远不够的。大模型的知识来自训练数据。它不知道最新的事件,自然也就无法帮助用户触达周围的服务。
【/h/]Buttons提供插件、触发器、知识库等功能,使Bot能够不断获取新信息,从而更好地了解用户周围的世界。例如,每天早上,它会帮你查看天气并规划通勤路线;在工作中,它可以帮助你分析电子邮件并提炼要点;工作之余,它可以为你推荐有趣的视频,和你聊天解闷。
【/h/]基于上述能力,普通开发人员也可以构建具有强大功能的机器人,并利用AI发挥其专业能力。
【/h/]目前,按钮上已经发布了大量的bot,主要应用场景分类为效率工具、商业服务、文本创建、学习和教育、代码助手、生活方式、游戏、图像、音频和视频以及角色。
【/h/]据光锥智能观察,目前最热门的应用类型主要为效率工具、游戏、图像、音视频等。毕竟,这些场景自然适合生成式人工智能的落地应用,是人们日常生活中最常用的领域。
【/h/]随着大模型时代的到来,互联网时代的数字化需求(衣食住行)可能都将借助AI重新完成。而真AI原生的应用可能就此诞生。
【/h/]构建业务闭环
【/h/]真的去市场
【/h/]如果开发的Bot不能商业化并产生商业价值,它就不会真正走向市场。
【/h/]近日,据媒体报道,微软宣布C opilot GPTs将于7月10日停产,用户创建的GPTs将被清除空。C opilot GPT构建器允许C opilot Pro用户创建和共享定制的特定任务聊天机器人,类似于微软在OpenAI中投资的定制GPT构建器和GPT商店。
【/h/]对此,微软给出的官方解释是公司战略调整——GPT的重点正在转向商业和企业场景,背后的原因可能是缺乏商业回报。C opilot GPTs的关闭引起了用户的不满,批评人士质疑此举将切断创新,降低消费者对产品的信任。
【/h/]“目前很多代理都是高开低走,用户都是前期试玩,后期都在吃灰。而且,能开得更高的人很少。”一位开发者对光锥智能这样说。
【/h/]那么,如何让代理真正发挥作用呢?它必须在特定场景中产生真正的可用价值。
【/h/]众所周知,字节跳动拥有强大的图文、视频和音频生态内容体系,Tik Tok和今日头条也支持大量依赖其流量转化的企业和个人用户。
【/h/]图形、音频和视频肯定是字节跳动在大型模特赛道上的优势。
【/h/]由Button和英特尔联合推出的主题Bot征集活动Coze AI Factory主要涵盖三个赛道:图形创作赛道、实用赛道和互动创意赛道。
【/h/]这三个赛道也将成为字节跳动帮助开发者实现Bot应用商业价值的试验田。
【/h/]我们可以想象,如果Tik Tok和头条可以在后台直接为开发者的应用程序提供接口,那么Tik Tok和头条用户就可以直接使用Bot应用程序。对于类似MBTI性格测试的产品,通过在抖音视频中添加链接来吸引用户使用产品,可以实现转化和收入。
【/h/]实用工具赛道是社会发展的刚需。比如对于写手来说,爆文生成器、抖音文案集等Bot可以为他们提供更多的能力支持。
【/h/]随着Button Model Square的推出以及AI workshop活动对开发者的持续吸引,字节跳动在从技术、产品到市场的闭环中逐渐完善。如今,仍然缺少一个爆炸性的Bot应用程序来促进闭环的完成,我们需要给Bot更多的时间。