DeepSeek V3跑分超GPT-4o：国产大模型的里程碑时刻

DeepSeek V3的成绩单出来了，结果让人眼前一亮。

数据说话

在MMLU基准测试中，DeepSeek V3拿到88.5分，超过GPT-4o的87.2分。在数学推理的GSM8K测试中，V3的准确率达到96.3%，同样领先。

更关键的是成本。DeepSeek V3的训练成本据公开信息约557万美元，而GPT-4o的训练成本估计在1亿美元以上。用不到十分之一的成本，做出了更强的模型。

核心是MoE（混合专家）架构。V3激活的参数量只有37B，但总参数量达到671B。这意味着推理时只调用一小部分"专家"，既省算力又保证效果。

另外DeepSeek在数据清洗和训练策略上下了功夫。高质量数据集的性价比远高于堆算力。

首先是价格战。 DeepSeek的API定价已经很激进，V3的发布可能进一步压低国产大模型的使用成本。

其次是信心。 证明了在资源有限的情况下，通过架构创新和工程优化，国产大模型完全能和国际巨头掰手腕。

最后是应用端。 更强的模型意味着更多场景可以落地，从代码生成到医疗问诊，天花板在抬高。

基准测试不等于实际应用。在真实对话场景中，GPT-4o的综合体验依然有优势，特别是在多模态理解和长上下文处理上。

但趋势很清楚：国产大模型不再是跟跑者，而是并跑者，某些方向上已经领跑。

数据来源： DeepSeek技术报告、OpenAI公开数据、LMSYS排行榜

💬 今日话题： 你用过DeepSeek的模型吗？体感和GPT-4比怎么样？