DeepSeek V3的成绩单出来了,结果让人眼前一亮。
数据说话
在MMLU基准测试中,DeepSeek V3拿到88.5分,超过GPT-4o的87.2分。在数学推理的GSM8K测试中,V3的准确率达到96.3%,同样领先。
更关键的是成本。DeepSeek V3的训练成本据公开信息约557万美元,而GPT-4o的训练成本估计在1亿美元以上。用不到十分之一的成本,做出了更强的模型。
怎么做到的
核心是MoE(混合专家)架构。V3激活的参数量只有37B,但总参数量达到671B。这意味着推理时只调用一小部分"专家",既省算力又保证效果。
另外DeepSeek在数据清洗和训练策略上下了功夫。高质量数据集的性价比远高于堆算力。
对行业的影响
首先是价格战。 DeepSeek的API定价已经很激进,V3的发布可能进一步压低国产大模型的使用成本。
其次是信心。 证明了在资源有限的情况下,通过架构创新和工程优化,国产大模型完全能和国际巨头掰手腕。
最后是应用端。 更强的模型意味着更多场景可以落地,从代码生成到医疗问诊,天花板在抬高。
冷静看待
基准测试不等于实际应用。在真实对话场景中,GPT-4o的综合体验依然有优势,特别是在多模态理解和长上下文处理上。
但趋势很清楚:国产大模型不再是跟跑者,而是并跑者,某些方向上已经领跑。
数据来源: DeepSeek技术报告、OpenAI公开数据、LMSYS排行榜
💬 今日话题: 你用过DeepSeek的模型吗?体感和GPT-4比怎么样?
