xAI Grok-3 预览版 Chatbot Arena 夺冠:性能超越 GPT-4.5
xAI 近日发布重磅消息,其最新 AI 模型 Grok-3 在 Chatbot Arena 排行榜上表现惊艳。这款名为“grok-3preview-02-24”的模型,在多个关键领域展现出卓越的性能。
xAI 的 Grok-3-Preview-02-24 以微弱的 1 分优势力压 GPT4.5-Preview。Grok-3 获得了超过 3000 票,整体排名与第一名并列。它在处理难度大的提示、编码任务、数学问题、创意写作、指令遵循以及处理较长查询方面尤为突出。Chatbot Arena 作为一个通过人类偏好进行大规模语言模型 (LLM) 评估的众包平台,采用 Elo 评级系统对模型进行排名,提供全面的性能衡量标准。
这一成就标志着 xAI 及其创始人埃隆·马斯克在 AI 发展领域取得的重大进展。马斯克始终倡导开发强大且符合人类价值观的 AI。Grok-3 在此次基准测试中的成功,凸显了该模型的强大能力,以及 xAI 在竞争激烈的 AI 领域所取得的突破。
值得注意的是,“grok-3preview-02-24”被描述为最新生产模型,但名称中包含“preview”,这可能表明它仍处于测试阶段。这一细节可能会引发关于其是否完全准备好投入生产的讨论。