AI 领域风云突变:DeepSeek 遭巨头围攻
一场针对 DeepSeek 的风暴正在 AI 领域悄然上演。OpenAI 和 Claude 的母公司 Anthropic 罕见联手,矛头直指这家新兴的 AI 公司。OpenAI 指责 DeepSeek 利用其模型进行训练,涉嫌侵犯知识产权,具体表现为“蒸馏” OpenAI 模型。与此同时,微软也开始调查 DeepSeek 是否违规使用了 OpenAI 的 API。
这一消息迅速引发热议,评论区充斥着嘲讽的声音。纽约大学教授马库斯直言:“OpenAI 用免费数据训练模型,却起诉 DeepSeek 偷窃。” 技术媒体 404 Media 的创始人 Jason 也发文嘲讽 OpenAI “只许州官放火”。
另一边,Anthropic 创始人 Dario Amodei 则发长文表示,DeepSeek 的水平只相当于他们 7-10 个月前的水平,对他们构不成威胁。但他也建议为了保持领先,需要设置更多障碍。
有趣的是,在指责 DeepSeek 涉嫌侵权的几个小时后,微软的 AI 平台却接入了 DeepSeek 的模型,这番操作耐人寻味,网友戏称“否认是接受的第一步”。
模型蒸馏:技术常态还是侵权行为?
据了解,DeepSeek 可能在去年秋天调用了 OpenAI 的 API,这可能导致数据泄露。按照 OpenAI 的服务条款,用户可以注册使用 API,但不能使用输出数据训练威胁 OpenAI 的模型。
OpenAI 怀疑 DeepSeek 采用了模型蒸馏技术,这种技术通过使用大模型的输出结果来提升小模型的性能。模型蒸馏在学术界和工业界都很常见,许多机构都将其视为实现模型轻量化的重要手段。例如,Together AI 就曾使用这种技术提升了 Llama 3 的性能。IBM 也认为,知识蒸馏是让大型语言模型普及的重要工具。
值得注意的是,DeepSeek R1 并非简单的蒸馏模型,OpenAI 首席科学家 Mark Chen 认为,DeepSeek 独立发现了 OpenAI 在实现 o1 过程中的一些核心理念。他还认可 DeepSeek 在成本控制上的努力,并表示 OpenAI 也在积极探索模型压缩和优化技术。
总而言之,模型蒸馏技术本身是被认可的,但如果违反 OpenAI 的服务条款,则另当别论。而 OpenAI 自己也面临着合规性的问题,他们训练模型使用了大量互联网数据,其中包含大量版权内容。《纽约时报》已经就此起诉 OpenAI 和微软。
OpenAI 辩称使用公开资料训练模型是合理的,且长期以来,版权著作被非商业性使用是受到保护的,而大语言模型的关键在于规模,这意味着任何盗窃的内容都不足以支撑训练出一个大语言模型。但不可否认的是,OpenAI 自身也在违规使用数据训练商业化模型,现在又指责其他公司。
DeepSeek 的价值:成本优势与加速 AI 应用
在 OpenAI 对 DeepSeek 发难的同时,Anthropic 也加入了战局。Dario Amodei 认为 DeepSeek 的模型只相当于他们 7-10 个月前的水平,只是成本更低。OpenAI 首席执行官奥特曼也表示,DeepSeek R1 虽然让人印象深刻,但 OpenAI 会带来更好的模型。
分析师郭明錤指出,DeepSeek R1 的出现加速了两个趋势:一是 AI 算力可以通过优化训练方式持续增长,二是 API/Token 价格的显著下滑,有利于加速 AI 应用的多元化。DeepSeek-R1 的定价策略会降低生成式 AI 的整体使用成本,这有助于增加 AI 算力需求。他认为,当前生成式 AI 的盈利方式主要在于“卖铲子”和降低成本,而非创造新业务或提升既有业务的附加值。
尽管 DeepSeek 目前在性能上可能稍逊一筹,但其成本控制和定价策略,无疑将对整个 AI 行业产生深远影响。这场由 DeepSeek 引发的风波,或许将预示着 AI 竞争的新篇章。