国产大模型第一梯队玩家,为什么pick了CPU?
声明:本文来自微信(ID:QbitAI)的微信官方账号量子位,作者雷锦·陈梦,由授权站长之家转载发布。
AI一天,地球一年。
现在无论是大模型本身,还是AI应用的更新速度,都很难跟上。
黑脸田鸡、苏诺、乌迪欧、卢马……...重磅应用相继问世。
根据InfoQ的调查数据显示,虽然AIGC仍处于起步阶段,但其市场规模已经初具规模:
预计到2030年将达到4500亿人民币。AIGC的应用正呈现多点开花的趋势,逐渐从一般场景向行业渗透。
行业整体快速发展当然是好事,但是到了各个应用或者大型号的落地,竞争越来越激烈。
【/h/]比如不久前各大机型厂商之间展开了一场非常激烈的“价格战”,焦点是谁的价格更便宜,甚至直接把大机型的价格推到了“李时代”。
再加上最近OpenAI的“断供”事件,国内厂商在推出“易动”计划的同时,加大了代币投放的力度。
【/h/]原因也和现在应用为王的趋势密切相关,尤其是业务能以尽可能低的成本快速落地。
那么问题来了。为什么大模型玩家要在快、好、省之间取得平衡?
这又回到了不可避免的因素,占成本绝对很大一部分的因素——计算能力。
现在提到大模型的训练和推理,很多人的第一反应可能是想到GPU。
诚然,GPU在高性能上有一定优势,但它的“硬伤”也很明显,那就是货源不足,价格昂贵。
为什么坏了?国内大模型第一梯队选手百度AI云千帆大模型平台,给出了自己更有“价比”的解决方案:
除了少数对大型机型追求卓越性能的大客户,大部分企事业单位在采用大型机型时,都需要对其使用效果、性能、性价比进行综合评估,也就是所谓的“性价比”。
具体到计算能力的部署,百度AI Cloud AI与大模型平台总经理辛舟认为:
其实早期CPU一直在发挥作用;GPU的普及也是近几年的事情。
在很多场景下,虽然GPU拥有高密度的计算能力,但实测表明,目前的高端CPU也完全可以胜任。
而且整个AI业务流程中不仅有大模型要计算,还有前期的数据清理等环节,其中CPU起着非常重要的作用。
总之,在大机型时代,CPU比以前更加重要,是让大机型和应用“又快又好又省”的关键因素之一。
那么具体的“在职”效果是怎样的呢?我们继续往下看。
国产头部大模型玩家,pick了CPU
AIGC的应用在国内爆发,其中千帆这个大模型平台,百度AI云功不可没。
作为企业使用大模型的“一站式”服务平台,千帆大模型平台自去年3月发布以来,已有超12万客户使用,累计优化模型2万个,孵化应用4.2万个。
这些应用涵盖了教育、金融、办公、医疗等多个场景。,为行业数字化转型提供有力支撑。
在教育领域,千帆的大模型平台实现了生成试题、在线阅卷、题目分析的应用,大大提高了教学和备考的效率。
比如用户可以提供参考资料,设置题目和难度,平台可以自动生成高质量的题目。互动话题分析可以针对每个学生的薄弱环节提供个性化的学习指导。
在办公场景中,千帆大模平台与行业领先企业合作,共同打造智能写作助手等创新应用,可根据用户输入的关键词快速生成招聘文案、营销方案、数据报告等专业文档。
还可以重点关注各种写作场景,可以智能生成论文提纲、项目报告、品牌宣传稿等。,大大提高了行政和营销人员的工作效率。
医疗健康是千帆大模型平台的又一大应用赛道。基于医学知识库训练的模型,可以自动生成体检报告的解读,用通俗易懂的语言向用户解释各项指标,并给出个性化的健康指导。
这使得普通大众能够更好地了解自己的身体状况,实现“健康的自我管理”。
可见,千帆大模型平台已经在多个领域实现了AI模型的“最后一公里”落地。
那么千帆大模型平台是如何支持这么多AI应用的呢?
答案是:让CPU成为客户的选择之一,让“价比”的红利惠及各行各业。
百度AI云给出的解释是:
目前行业内仍然存在大量的离线LLM应用需求,比如生成文章摘要、摘要、数据分析等。相比线上场景,线下场景通常利用平台闲置的计算能力资源,对推理延迟要求低,对推理成本敏感,因此用户更倾向于使用低成本、易获取的CPU进行推理。
百度AI Cloud等云平台部署了大量基于CPU的云服务器。释放这些CPU的AI计算能力潜力,有助于提高资源利用率,满足用户快速部署LLM模型的需求。
至于效果,以Llama-2-7B为例,第四代英特尔至强可扩展处理器上的output Token吞吐率可以达到100TPS以上,比第三代提升了60%。
△Llama-2-7b模型输出令牌吞吐量
在低时延场景下,第四代至强可扩展处理器的首令牌时延在相同并发下比第三代至强可降低50%以上。
处理器升级到第五代至强可扩展处理器后,吞吐量较上一代可提升45%左右,首次令牌延迟可降低50%左右。
△Llama-2-7b型号首个令牌延迟
而根据实践经验,千帆大模型平台团队也表示:
英特尔至强可扩展处理器可用于30B以下规模的LLM型号,以获得良好的性能体验。
而且,充足的CPU资源被用来减少对AI加速卡的需求,从而降低LLM推理服务的总拥有成本(TCO),尤其是在离线LLM推理场景下。
而且,在千帆大模特平台上,不仅有自己的厄尼,还有很多主流的大模特集成在这里。
这也在一定程度上证明了第五代英特尔至强可扩展处理器已经过了性能关。
英特尔第五代至强,如何让性能和效率变得Pro Max?
百度AI云千帆大模型平台需要的不仅仅是大模型推理的工作量,更需要一个覆盖大模型全生命周期的平台。
具体来说,千帆大模型平台提供数据标注、模型训练评估、推理服务、应用集成等全面的功能服务,以及快速的应用排列和插件集成,助力大模型多场景应用。这样,充分利用平台广泛部署的CPU资源,比部署专门的加速器进行大模型推理,是一个更划算的选择。
针对千帆大模型平台上存在的大量离线大模型应用需求,如生成文章摘要、摘要、评估多个模型的效果等。,对推理的延迟要求不高,但内存容易成为瓶颈。
使用CPU扩展内存更加方便,还可以利用平台空闲时的计算资源,进一步提高资源利用率,降低总拥有成本。
在此背景下,第五代英特尔至强可扩展处理器中性能密集型通用计算应用负载(类似PC core performance core)的设计尤为关键。
与E核(能效核)相比,P核采用了性能最大化的设计,可以承受非常重的负载,同时兼顾了AI推理的加速。
采用这种设计的第五代至强可扩展处理器,不仅仅是说AI推理的加速,而是软硬件协同优化,各方面都考虑到位。
硬件方面,英特尔AMX(高级矩阵扩展)技术专门针对大模型推理深度学习中的大量矩阵乘法运算进行优化,可以理解为“CPU中的张量核”。
借助英特尔AMX,处理器每个时钟周期最多可完成2048次INT8运算,比上一代AVX512_VNNI指令高出8倍。
更重要的是,CPU内核内置了Intel AMX加速器,使得矩阵存储和运算更加紧密。该特性在应用于大型模型推理时,可以减少处理下一个令牌的延迟,使最终用户体验更好。
△ Intel AMX可以更高效的加速AI。
软件方面,深度优化英特尔至强可扩展平台的大模型推理软件解决方案xFasterTransformer (xFT)作为后端推理引擎引入百度AI Cloud千帆大模型平台。主要的优化策略如下:
△英特尔至强可扩展处理器LLM推理软件解决方案
最后需要补充的是,选择硬件平台不仅关系到设备本身的购买价格,还会影响到后续的维护成本甚至人才储备成本。
所以,正如百度AI Cloud所说,高性价比的计算基础设施,加上先进的大规模模型算法和平台软件,使得上层开发者能够更顺畅地应用和构建业务,从而最大限度地发挥云计算平台的商业价值。
大模型时代,CPU大有可为
目前,大模型正在从实验室走向产业,从少数人的“玩具”走向大众可用的“工具”。
这意味着大模型服务不仅要有出色的性能,还要经济实惠,易于部署。总之,“快、好、省”已经成为大车型商业化的关键环节。
为了做到“快、好、省”,计算基础设施的选择非常重要。
传统上,专用加速器是AI的“标配”。但在货源紧张、成本高的背景下,专用加速器的优势正在减弱。
相比之下,经过良好优化的高端CPU不仅可以提供足够的计算能力来应对大规模的模型推理,而且具有更广泛的部署基础、更成熟的软件生态系统和更好的安全性,开始受到越来越多业界人士的青睐。
以英特尔至强系列为代表的x86架构CPU拥有成熟完善的软件生态系统和广泛的应用基础。数百万开发者可以使用现有的工具和框架快速构建和优化AI应用,而不必学习专门的加速器软件栈,这大大降低了开发难度和迁移成本。
同时,企业用户还可以利用CPU内置的多级安全技术,实现从硬件到软件的全栈保护,充分保障数据安全和隐私。这些优势是目前专用加速器无法比拟的。
可见,充分利用CPU进行推理,将AI从“烧钱游戏”变为“普惠技术”,是AIGC产业应对计算能力门槛、推动大规模应用的关键举措。未来,随着技术创新和生态改善,这一模式将为更多企业创造价值,为产业发展注入新动力。
除了直接加速推理任务,CPU还可以在一个完整的端到端AI流水线中高效地完成数据预处理、特征工程等整个AI过程中的关键步骤。而各种支持机器学习和图形分析的数据库主要都是建立在CPU上的。即使是扩展性很强的处理器,比如除了Intel AMX之外,处理器中还内置了一系列数据分析引擎,如英特尔数据保护和压缩加速技术(Intel QAT)和英特尔内存分析加速器(Intel IAA),通过卸载特定任务来更好地利用CPU,从而提高工作负载的整体性能,加速数据分析。
可见,要构建一个“快速、准确、稳定”的AI应用,不仅需要依靠专用加速器的强大计算能力,还需要在没有CPU超强通用计算能力的情况下,释放整个系统的潜力。
为了普及CPU在AI推理新时代的玩法,量子比特开设了《AI中的最》专栏,将从技术普及、行业案例、实战优化等角度进行全面解读。
我们希望通过这个专栏,让更多的人了解CPU在AI推理加速,甚至是整个AI平台或者整个进程加速方面的实际成果,重点是如何更好的利用CPU来提升大模型应用的性能和效率。