DeepSeek V3跑分超GPT-4o:国产大模型的里程碑时刻

DeepSeek V3的成绩单出来了,结果让人眼前一亮。

数据说话

在MMLU基准测试中,DeepSeek V3拿到88.5分,超过GPT-4o的87.2分。在数学推理的GSM8K测试中,V3的准确率达到96.3%,同样领先。

更关键的是成本。DeepSeek V3的训练成本据公开信息约557万美元,而GPT-4o的训练成本估计在1亿美元以上。用不到十分之一的成本,做出了更强的模型。

怎么做到的

核心是MoE(混合专家)架构。V3激活的参数量只有37B,但总参数量达到671B。这意味着推理时只调用一小部分"专家",既省算力又保证效果。

另外DeepSeek在数据清洗和训练策略上下了功夫。高质量数据集的性价比远高于堆算力。

对行业的影响

首先是价格战。 DeepSeek的API定价已经很激进,V3的发布可能进一步压低国产大模型的使用成本。

其次是信心。 证明了在资源有限的情况下,通过架构创新和工程优化,国产大模型完全能和国际巨头掰手腕。

最后是应用端。 更强的模型意味着更多场景可以落地,从代码生成到医疗问诊,天花板在抬高。

冷静看待

基准测试不等于实际应用。在真实对话场景中,GPT-4o的综合体验依然有优势,特别是在多模态理解和长上下文处理上。

但趋势很清楚:国产大模型不再是跟跑者,而是并跑者,某些方向上已经领跑。


数据来源: DeepSeek技术报告、OpenAI公开数据、LMSYS排行榜

💬 今日话题: 你用过DeepSeek的模型吗?体感和GPT-4比怎么样?

觉得不错?分享给朋友看看 👇

← 宇树G1人形机器人降到9.9万:距离进厂打工还有多远 摩尔线程MTT S80实测:国产GPU跑AI推理到底什么水平 →

📱 关注「科技芯前沿」公众号

每日8:15推送AI科技前沿资讯,不错过任何重要动态

公众号二维码