大模型领域竞争加剧:豆包面临压力
近期,国内外大模型领域的竞争日趋激烈,已进入白热化阶段。字节跳动旗下的豆包大模型正面临着来自DeepSeek等强劲对手的挑战。豆包团队正在积极寻求突破,在AI基础层和应用层上均进行了全面布局,并持续迭代升级。
豆包推出UltraMem架构,力求降本增效
针对大模型推理成本高昂的问题,豆包大模型团队推出了全新的稀疏模型架构UltraMem。该架构旨在有效解决MoE(混合专家)架构推理时高额的访存问题,从而提升推理速度并降低推理成本。
根据豆包团队的研究,在Transformer架构下,模型性能与参数数量和计算复杂度呈对数关系。随着模型规模的扩大,推理成本会急剧增加,速度变慢。UltraMem通过解耦计算和参数,在保证模型效果的前提下,解决了推理的访存问题。
实验结果表明,在参数和激活条件相同的情况下,UltraMem在模型效果上超越了MoE,并将推理速度提升了2-6倍。此外,在常见batch size规模下,UltraMem的访存成本几乎与同计算量的Dense模型相当。
岩芯数智CEO刘凡平认为,降低大模型成本的关键在于技术和工程层面的突破,实现架构优化的“弯道超车”。他强调,新的架构研究至关重要,同时反向传播算法等基础算法也可能是深度学习的瓶颈。
DeepSeek异军突起,豆包面临挑战
DeepSeek以其低廉的训练成本和高效的运算效率迅速火爆,成为AI领域的黑马。数据显示,DeepSeek的日活跃用户数已突破4000万,成为中国移动互联网历史上快速崛起的应用之一。
为了应对挑战,豆包大模型团队连续发力,发布了视频生成实验模型“VideoWorld”。与Sora等主流多模态模型不同,VideoWorld在业界首次实现无需依赖语言模型即可认知世界。
豆包的AI产品矩阵涵盖多个领域,包括AI聊天助手豆包、猫箱、即梦AI、星绘、豆包MarsCode等。
中信证券研报认为,豆包AI的生态扩张将引发新一轮巨头的技术投资周期,拥有强网络效应和规模效应的头部AI应用将逐渐加强其竞争优势。
字节跳动内部讨论是否接入DeepSeek
作为一个开源模型,DeepSeek的低成本和高性能正在改变不少公司的模型选择策略。目前,华为、百度等公司的AI应用都宣布了接入DeepSeek。甚至字节跳动旗下的飞书和火山引擎也做了适配。
据记者了解,豆包团队内部也在讨论豆包App是否要接入DeepSeek。选择效果更优的模型固然重要,但放弃自家模型选择友商,也面临着股东压力以及新增模型带来的适配负担等问题。
因此,豆包在大模型领域的竞争,才刚刚开始。
豆包AI工具地址:【点击登录】