2025年伊始,国内大模型领域风起云涌,各大厂商纷纷亮出最新成果。以“六小虎”为首的月之暗面、阶跃星辰,以及独立玩家DeepSeek,都在一月份相继推出了对标OpenAI o1的新模型,预示着新一轮技术竞争的开始。
DeepSeek R1:性能直逼OpenAI o1
1月20日,DeepSeek正式发布了DeepSeek-R1,一款性能对标OpenAI o1正式版的模型,并同步开源了模型权重。测试数据显示,DeepSeek-R1在数学、代码和自然语言推理等任务上,与OpenAI o1-1217基本持平,甚至在AIME 2024、MATH-500、SWE-Bench Verified等测试集中略占优势。此外,由660B版本R1蒸馏得到的32B和70B小尺寸模型,在多项能力上可与OpenAI o1-mini媲美。值得关注的是,DeepSeek还开源了未经过监督微调的DeepSeek-R1-Zero,旨在探索仅通过强化学习训练大语言模型的可能性。
在定价上,DeepSeek延续了其“AI大模型界拼多多”的定位。R1 API服务定价远低于OpenAI o1,缓存命中输入价格仅为o1的2%,未命中及输出价格也仅为o1的3.6%。
月之暗面K1.5:多模态能力突出
与DeepSeek R1同日发布的还有月之暗面的K1.5,一款定位为“多模态o1”的推理模型。K1.5在Short-CoT模式下,数学、代码、视觉多模态和通用能力对标GPT-4o和Claude 3.5 Sonnet;在Long-CoT模式下,数学、代码、多模态推理能力则达到OpenAI o1正式版水平。在技术方面,K1.5同样采用了强化学习、多阶段训练、思维链等策略,并创新性地将强化学习上下文窗口扩展到128k,并加入“长度惩罚”来抑制响应长度。此外,K1.5对文本和视觉数据进行了联合训练,使其具备了多模态能力。
阶跃星辰Step R-mini:超长推理能力
1月16日,阶跃星辰也发布了Step Reasoner mini实验版,该模型主打超长推理能力。尽管目前其主要对标OpenAI o1-preview和o1-mini,但其在数学、代码、逻辑推理能力以及文学创作、日常聊天等任务上表现出色。阶跃星辰强调其“文理兼顾”,采用了On-Policy强化学习算法。
国产大模型加速追赶,强化学习成关键
自去年9月OpenAI推出o1模型以来,国内大模型厂商开始密集跟进,形成了国产o1类模型潮。然而,OpenAI已在去年12月推出了性能更强的o3模型,这给国内大模型厂商带来了更大的竞争压力。o3在SWE-Bench Verified和AIME2024等测试集上的表现远超o1,展现出AGI的初步特征。尽管如此,国内大模型公司仍需加速突破,特别是在强化学习等技术领域,加入过程奖励模型和蒙特卡洛树搜索等复杂技术,以进一步提升推理能力。同时,国内厂商也需要进一步加快迭代速度,在与OpenAI的竞争中不落下风。
总而言之,2025年初的国产大模型竞争态势激烈,各大厂商纷纷推出创新模型,预示着人工智能领域的新一轮变革。
DeepSeek R1 AI工具地址:【点击登录】