1.3.3 DeepSeek的诞生与突破

DeepSeek的诞生,离不开幻方量化在AI应用领域的持续探索。作为国内顶级的量化私募之一,幻方量化一直在寻找让自己算法更强的方法,而AI正是他们实现突破的关键。

从“萤火一号”到“萤火二号”,幻方量化在AI上的投入越来越大,开始自己采购高性能芯片来搭建训练集群。当时在国内,只有阿里等极少数科技巨头才拥有这样的资源,而幻方量化作为一家金融机构也铺设了自己的AI之路。这条路,不仅让幻方量化在金融圈遥遥领先,也为如今DeepSeek的诞生埋下了伏笔。

终于,在2023年,DeepSeek正式从幻方量化独立出来,成为一家独立运营的AI公司。它的目标不是要造出一个更强的金融AI,而是要直接开发出真正具备人类智能水平的AI模型。换句话说,DeepSeek不是要做个更聪明的交易算法,而是要在AI领域正面挑战OpenAI、DeepMind、Anthropic等全球AI巨头。

但要实现这个目标,谈何容易。

DeepSeek的第一个难题,就是资金和资源的筹措。虽然幻方量化给了DeepSeek不小的资金支持,但众所周知,AI模型就是个烧钱的无底洞。训练一个顶级模型需要庞大的算力支撑,而算力意味着大量昂贵的芯片和服务器。

在有限的资源下,DeepSeek要开发出一个能与国际巨头竞争的AI模型,难度可想而知。服务器的风扇声嗡嗡作响,电脑屏幕上密密麻麻的代码和损失曲线成了他们生活的全部。DeepSeek的工程师们知道,不能靠堆资源,只能靠更聪明的算法。

第二个难题,就是技术的突破。AI领域的主导权已被大厂和顶尖科研机构牢牢掌握,OpenAI、DeepMind、Meta、Anthropic等头部AI企业每年投入数十亿美元,而DeepSeek想要杀入这一领域,简直是以小博大的极限挑战。

第三个难题,就是人才的投入。无论是苹果、DeepMind、Meta,还是OpenAI,都有庞大的人工智能研究团队。例如OpenAI就有1700人的研发团队,而人工智能领域的人才又是各大科技公司高价挖角的对象。如果不能以创新的方式应对,大量的人才投入就会给DeepSeek带来巨大的挑战与压力。但梁文锋带着的团队,仅仅是约150人的小团队,他们深知,如果不能在算法上找到突破点,不能让团队的成员发挥强大的创新力,DeepSeek就永远无法超越那些资源丰富的大公司。

于是,他们提出了全新的MLA(多头潜在注意力机制)架构,大幅降低了模型的显存占用。这意味着,在相同的算力下,DeepSeek的模型可以处理更复杂的任务,训练成本也大幅降低。这种创新,使得DeepSeek即便资源有限,也依然能开发出高性能的AI模型。

2024年5月,DeepSeek发布了DeepSeek-V2,这款模型一发布就震动了整个行业。它的推理成本显著低于当时的主流模型(是Llama3-70B的1/7、GPT-4 Turbo的1/70),而性能却几乎不输阵。更炸裂的是,DeepSeek-V2不仅性能强,还直接开源,这一招彻底引爆了国内大模型的价格战。

但DeepSeek的目标,远不止于此。2024年12月,DeepSeek-V3问世,这一版的模型性能已经逼近GPT-4,但训练成本却只有后者的1/20。这种极致的成本优化能力,直接让所有AI研究者都瞠目结舌。

DeepSeek-V3的成功,标志着DeepSeek的技术已经达到了国际一流水准,中国的AI公司中终于有了可以真正比肩OpenAI的竞争者。

2025年一开年,DeepSeek再一次发布了新的R1模型,这次,它不仅在国内爆火,还在海外引起了广泛关注。R1模型的性能和OpenAI的o1模型相当,但在推理速度和成本控制上更胜一筹。这意味着,DeepSeek不仅在训练成本上打败了OpenAI,就连实际应用上的效率也更高。

可以说,从金融领域起步,深耕量化交易,到成立DeepSeek,梁文锋带领团队走出了一条属于自己的AI之路。如今,DeepSeek已经成为全球AI领域不可忽视的力量,不仅改写了AI行业的游戏规则,也向世界展示了中国AI的实力。