AI 的浪潮已悄然来临,今年的春节,最引人注目的不再是传统互联网的红包大战,而是 AI 公司的技术突破。
在春节临近之际,各大 AI 模型公司纷纷推出更新的模型和产品,其中最受瞩目的便是去年崭露头角的 DeepSeek(深度求索)。
DeepSeek-R1:低成本高性能引发行业地震
1月20日晚,DeepSeek 公司发布了推理模型 DeepSeek-R1 正式版。令人震惊的是,该模型以极低的训练成本,实现了不输 OpenAI 推理模型 o1 的性能,并且完全免费开源,直接引发了行业地震。这是国产 AI 首次在全球,特别是美国科技圈引起如此大的震动。开发者纷纷表示,正在考虑使用 DeepSeek 进行“重构”,这一浪潮下,DeepSeek 的移动端应用迅速登顶美区苹果应用商店免费 App 排行第一,超越了 ChatGPT 以及其他热门应用。
DeepSeek 的成功甚至影响了美股,它在没有使用巨量昂贵 GPU 的情况下训练出的模型,让人们重新思考 AI 的训练路径,直接导致 AI 芯片巨头英伟达股价一度下跌 17%。
Janus-Pro:多模态模型再掀波澜
1 月 28 日凌晨,除夕夜前一晚,DeepSeek 又开源了其多模态模型 Janus-Pro-7B,宣布在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3 和 Stable Diffusion。DeepSeek 似乎真的要“血洗” AI 圈,从推理模型到多模态模型,用 DeepSeek “重构一切” 成为蛇年开年的第一主题。
Janus Pro 的创新架构
DeepSeek 这次深夜发布了两个模型,Janus-Pro-7B 和 Janus-Pro-1B (15 亿参数)。这两个模型均是对 2024 年 10 月发布的 Janus 模型的升级。Janus 模型采用了创新的架构,将视觉编码进行解耦,分别编码特征,然后用同一个 Transformer 处理输入信号,提升了模型训练的灵活性,有效缓解了单一视觉编码导致的冲突和性能瓶颈。
Janus 模型指令跟随能力强,有多语言能力,能够理解 meme 图像,并能处理 latex 公式转换和图转代码等任务。而 Janus Pro 系列模型则通过对训练流程的改进,直接在基准测试中击败了 DALL-E 3 和 Stable Diffusion。
同时发布的还有 Janus Flow 新型多模态 AI 框架,旨在统一图像理解与生成任务。Janus Pro 模型能够使用简短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。它既可以生成图像,也可以对图片进行描述,识别地标景点、图像中的文字,甚至对图像中的知识进行介绍。
许多用户已经在社交媒体上试用了新模型,并分享了测试结果,例如图像识别和生成。
Janus Pro 在高精度读图方面表现出色,能够识别数学表达式和文字的混合排版,这为未来搭配推理模型使用提供了更大的可能性。
小参数量解锁新应用场景
在多模态理解任务中,Janus-Pro 采用 SigLIP-L 作为视觉编码器,支持 384 x 384 像素的图像输入。而在图像生成任务中,则使用一个来自特定来源的分词器。尽管图像规模尺寸仍然较小,但其创新意义不容忽视。
Janus Pro 的大尺寸模型只有 70 亿参数,而对比的 DALL-E 3 则有 120 亿参数。更令人惊喜的是,Janus Pro 的 1B 模型只有 15 亿参数,外网已经有用户将其添加到了 transformers.js,这意味着模型可以在 WebGPU 上的浏览器中 100% 运行。
虽然目前笔者尚未成功在网页版上使用 Janus Pro 的新模型,但参数量小到可以在网页端直接运行,仍然是一项令人惊叹的进步。这意味着图片生成/图片理解的成本正在进一步下降,我们有机会在更多地方看到 AI 的应用,改变我们的生活。
2024 年的一大热点是多模态 AI 硬件如何介入我们的生活,而参数量越来越低的多模态模型,或许将推动 AI 硬件的进一步爆发。
DeepSeek 搅动新年
去年春节前后,OpenAI 的 Sora 模型曾搅动世界,而一年下来,中国公司已经在视频生成方面迎头赶上。今年,DeepSeek 则成为搅动世界的新力量。DeepSeek 并非传统的科技公司,但其以远低于美国大模型公司的成本,做出了创新模型,让美国同行感到震动。
DeepSeek 使用 560 万美元的训练成本就“破解”了 OpenAI 的推理模型,这引发了美国科技公司的巨大压力。OpenAI 首席执行官 Sam Altman 也不得不出来回应。
2025 年,会是中国 AI 冲击美国认知的一年吗?DeepSeek,手中还藏着什么秘密?这注定是一个不平凡的春节。
极客一问
今天你 DeepSeek 了吗?