DeepSeek惊世骇俗的表现,有其必然性和偶然性。大模型为什么产生意识?如何复制DeepSeek的成功?本文从现象到本质逐步深入的探索了DeepSeek的成功之处,并最终推理出可以复制他的成功的几个地方。

文章较长,先将目录列在这里,赶时间的话可以挑选关心的章节来看。不过这里的章节是一步一步深入的,不赶时间的话建议从头看起。目录如下:

  1. 切勿捧杀DeepSeek.
  2. DeepSeek优秀的地方.
  3. DeepSeek成功的因素.
  4. 那些未能出生的DeepSeek们.
  5. 还有哪些可能的类似DeepSeek产品可能出现

1 切勿捧杀DeepSeek

甲辰年末,AI领域出一个籍籍无名的DeepSeek,先放出一段论文,然后又开源了整个模型。然后整个业界都蒙圈了。开始是质疑,但是很快用开源模型一验证,所有的质疑都没有存在的基础了。存心质疑的肯定是大有人在,但在实打实的开源数据前,只能无可奈何的将质疑吞下去。在不可置信的成绩面前,西方的业界大厂们也从另一面体现出了自己的专业性:短短几天内,就迅速完成了否认、愤怒、讨价还价、抑郁、接受的五个阶段,简直是一天一个脸面。这种专业性还真有点让人佩服。

这场风波甚至愈演愈烈,甚至蔓延到了区域竞争上,美国如临大敌,欧洲,印度则如获至宝。当然也还有个别个体停留在否认和拒绝的阶段,无法自拔。

DeepSeek的惊世之作,造成的涟漪仍在持续的发酵和效果外溢。网上各种测评几乎霸占了各个渠道的热点。溢美之词不绝于耳。然而对于这种难得的国宝级产品,尤其需要精心呵护。 过度的名誉化,对于新创公司来说,反而可能造成更多的负面影响。剖析DeepSeek的成功路径,在正确的点上借鉴、发力或许才是更应该做的事情

2 DeepSeek优秀的地方

DeepSeek优秀的地方,目前看有两个维度,一个是技术领先,另一个就是开源。 我大胆的猜测下,DeepSeek在发表论文和开源时,或许并没有意识到会有如此强大的影响力。 但是碰巧,这两个维度加在一起,迅速就在全球造成了风暴级的影响。

首先从技术上看,DeepSeek发布的时机,已经是国内的百模大战接近尾声,快要尘埃落地的时候,大家都没什么新的花样,且大部分大模型公司已经面临生死关头的时候了。甚至一些头部大模型的牵头人,都发出了大模型不知道下一步在哪里的哀叹,不知道能做啥,不知道商业模式 1在哪里,盈利毫无希望,只能坐等倒闭。

DeepSeek走出了不一样的方向,他没有向外求商业模式,盈利点,而是向内求技术的升级,内核级的突破。玄乎点说,正因为无为,所以才无不为。DeepSeek现在应该最不缺的就是资金了,恐怕想向他投资的资金都得排队。 这一点,或许能给百模大战中,摸不清方向的公司带去一些思考。

另一个维度,开源。说实话这是个有点难但又很容易做的事情。主要取决于创始人的眼界和思路。但不巧在中美对抗升级的大环境,开源,不仅是不费吹灰之力就抗住了排山倒海似的质疑与否认,抵制与对抗;还迅速的建立起了大批的拥护者。

DeepSeek的开源,也狠狠打脸了国内一些大模型的大佬,他们一步一步的踩着OpenAI的脚印,不无蔑视的说开源是智商税。 同时,DeepSeek的开源,也让从不Open的OpenAI落下了神坛。

技术领先和开源,两个单独都是不错的特点。但是叠加一起,在当前这个中美大模型竞争的大环境中,在OpenAI死死的关闭大门的助攻下,就这么机缘巧合的掀起了翻天的巨浪。

3 DeepSeek成功的因素

临渊羡鱼,不如归而结网。 当我们看到DeepSeek风靡四方,声誉鹊起时,关注DeepSeek本身的时候,再剖析下DeepSeek成功的因素,对于业内相关人来说,似乎更有一些参考和借鉴的意义。

然后当我们回过头来复盘DeepSeek的成功路径时,却发现没有任何可以夸耀的地方! 没有天才的科学家呕心沥血,废寝忘食的苦心钻研;没有创始人咬定青山不放松,倾家荡产,坚持不懈的苦干好多年终于大成;没有卓越的天使投资人在只有PPT的时候就投入海量的资金全力的支持;没有我们一直以为的任何想象中的故事、套路。。。

DeepSeek光芒万丈,但神奇的是竟找不到DeepSeek以及创始人梁文锋身上的光环。 当人们习以为常的打算为DeepSeek大讲故事的时候,却发现原来根本就没故事可讲。

DeepSeek就如同荒野中的一株芙蓉,没有园丁的培养,没有花肥的滋润,没有园林的科学知识管理,就这么自然而然的突然在荒野中盛开,就在所有的园丁,园林,培养室都颓然无策的时候自然绽放。 我想这应该对已经习惯了内卷,习惯了低端价格和劳动力竞争,习惯了挤压员工工作时间的园丁、园林们,起码提供了一些新的思路和灵感吧。

让我们更进一步,探索DeepSeek为什么在荒野中无人照看也能自然绽放。

原来DeepSeek起源于幻方量化。 幻方量化是做自动化交易的,预测股票的走势,是自动化交易的核心。预测成功率的高低,直接决定自动化交易是大赚,还是大亏。

自动化交易在西方市场,是市场交易量的主导。普通人做股票,高频的可能也就一天操作个几次,而自动化交易,可以做到每秒买卖几万次。因此大的基金,都有自己的量化团队。由于预测成功率直接决定量化交易的盈亏,因此在预测算法上,各家自然也是不遗余力的引入最新最强的算法和机制。 包括前几年谷歌alphago战胜人类围棋冠军后,其背后的应用之一也是直接加入量化交易(不过据说在国内市场上亏得很惨)。

国内对于股市交易的管理非常严格,自动化交易的门槛也是越来越高,但还是有一些机会的。幻方量化就是在这种情况下发展起来的。

对于幻方量化的资料不多,但从结果看,应该是他的算法策略效果还不错,导致公司盈利非常好。由此也有资金,和动力,投入到底层的算法研究中。

说白了就是幻方量化靠智能化策略赚了些钱,然后投入到智能化的底层研究中,这些研究的成功,将能直接提升量化交易的盈利。 在此,幻方量化和DeepSeek完成了完美的自我驱动,自我闭环。

对于DeepSeek来说,如何盈利的商业模式是不需要考虑的;资金来源是不需要担心的;已有的模式,方法,成功路径都是虚的,只要有用任何方法任何技术任何路线都可以拿来用,有效果才是实的。

正是这种没有任何负担,没有任何窠臼的实用主义,才最终导致了DeepSeek的破茧化蝶。

这也是市场化的最佳代表,只要有一个宽容的土壤,科学与技术就能水到渠成,自然茁壮的自我生长。

至于开源带来的震撼,说实话这个反倒一大半是由于从不Open的OpenAI的助攻。没有OpenAI的不Open,开源的震撼力估计起码要小几个数量级。

4 那些未能出生的DeepSeek们

回顾DeepSeek的诞生,即充满了偶然因素,也颇为惊险。量化交易在国内属于管理非常严的方向。所幸的是国内股市的规则,严归严,但相对于世界上其他地方,更为科学和合理,对散户的保护也更到位。更为重要的是,虽然量化,做空始终严管,但并没有简单的拔电源,这给了幻方量化一些生存的土壤,也最终促成了DeepSeek的诞生。如果量化交易也如其他领域一样严管时直接禁止,那就没有幻方存在的可能,也自然不会有DeepSeek了

然而其他一些管理苛刻的领域,就没有这么幸运了。从大的方面看,曾有一段时间对游戏领域发布了禁令,导致这方面的产业萎靡。而对web3.0的直接拔电源,彻底的让国内在这个方向上丧失了已有的话语权优势和后续的发展机会。 这两个阶段叠加,刚好都把机会白给了nvida。游戏发展的好,nvida显卡主要打游戏,web3.0的区块链技术,nvida刚好可以用显卡来算区块链,深度学习兴起时,nvida显卡又可以用来训练模型。连续的几波红利都让nvida占到,这固然是有气数的成分在内;而国内在这方面的错失也基本使得nvida一骑绝尘,没有对手。如今nvida市值3万亿美元,是宇宙行的十倍以上。已经成了不可匹敌的超级巨兽了。

web3.0上国内早期曾经也萌芽了很多的有实力有技术的公司。结果都在拔电源的禁令下,将成果拱手相让了。 结合这段时间爆出了美国国际开发署(USAID)资助了无数学者媒体教授来推动符合美国利益的事情看,一种最糟糕的可能就是在类似的若干决策上,很有可能受到了USAID资助的智囊团的影响。

DeepSeek让我们注意到,一个合适的土壤是多么的重要。即便行业在道德上不那么高大上,但是社会不只是黑和白的,套一句老话,百花争艳,百花齐放才是真正的春天。

5 还有哪些可能的类似DeepSeek产品可能出现

让我们再进一步,在DeepSeek的成功路径上,看看还有哪些类似的机会。

首先我们从最表面的因素来看,为什么是DeepSeek,而不是其他的大模型头部厂商,做出了DeekSeek。虽然我们不知道各家大模型厂商的思路和策略,但是从其行为模式上来看,基本上都是沿袭了gpt的模式,思路和做法,叠加少部分的创新。而从DeepSeek上我们可以看到,他在研读了gpt等的思路、方法后,并不是简单的沿用,而是按照实用的原则,大刀阔斧的在所有可能的环节去尝试更优的方法和策略。并为此不停地向底层机制去革新(而不是如何在应用层拓展)。 这种方式给我们带来的启发几乎在所有的产品设计中都能受益。

另外,DeepSeek的出现,也有其必然性。 所有的新产品,刚出现时无论多惊艳,从后面的角度来看,必然是粗犷的,对资源的使用必然是浪费的。到了一定的成熟期,所有的细节都自然而然的精细化,最优化。这是一条基本的客观规律。大模型也不能例外。只是由于大模型对资源的耗费过于惊人,以至于哪怕有开源模型,全世界也只有中美有能力做这样的事情,导致大家沿袭旧思路的比较多。 DeepSeek只是在研发的方法上不循旧规,刚好就让他碰上了。 也就是说,哪怕没有DeepSeek,到了一定的时候,也会有其他的厂家意识到这一点,并实现这一点。

这点也能给我们带来一些启发:大模型即便是DeepSeek出现后,也远远称不上到了成熟稳定期,仍然有很长的发展期的道路要走。也就是说,仍然有很多早期粗犷式做法的地方可以精细化,最优化。只要学习DeepSeek放开思路的禁锢和窠臼,仍有很多的类似机会等着我们去发现的。 要知道DeepSeek并没有招纳世界顶级的科学家,并没有动辄几十亿美金的资源可以调用,并没有组件庞大的团队,并没有耗费几年的时间。他只是做了正确的事情 2,从而发现了某个最优化的机会。 虽然从这点上无法断言还有哪些其他类似的机会,但我们宏观的从产品发展的必然规律上看,类似的机会不仅有,而且很长的时间里,都将继续有

再再进一步,我们剖析的更彻底些,看具体在什么方向上有类似的机会。

首先从软件技术上看,按我们需求分析领域的方法来说,哪里有问题,哪里就有机会。

大模型还有哪些地方有问题呢? 很多。 举例来说,幻觉问题。这个问题非常严重,以至于直接影响了大模型的应用范围。那同时也意味着这是个非常大的机会

目前大模型在幻觉问题上,厂商都在不停地在优化,现在已经可以控制在3%到0.8%的范围了。但,我们分析下这个努力的方向和成果,可以得出一个结论,就是大家并没有能力解决幻觉问题,而是不断地优化减小幻觉的发生几率。 换句话说,大家花了很大的力气(资源和精力)都在无限的接近解决问题。 再换句话说,所有人的方案,都是优化方案,而不是解决方案。再再换句话说,目前方案都是治标不治本的方案。。。。。。

要治本,就得换思路。比如更换底层算法模型。更确切的说,最底层的transformer模型,他的设定就不是思考,而是简单的映射,是否是合适的选择?

然后我们从硬件上看,按照上面的分析思路,结果是非常简单直白的。 比方我们拿2万一块的4090显卡来训练模型。但是4090显卡是游戏显卡,他上面最强大的功能是游戏里的光影计算,3D渲染,点和雾的生成,水面波光的反射等等。而将显卡用来训练模型,仅仅是需要他的大数计算能力,是显卡里最基础最普通的能力。 这就好比你请了一个武林的绝顶高手,却只是看中了他的力气大,然后让他来搬砖。

在你没有更好的选择的时候,没人能有效快速的搬砖的时候,请一个武林高手来搬砖,是能解决问题的,当然前提是你花得起那个价钱。一旦你的搬砖业务趋于稳定了,很明显武林高手不是搬砖的最佳选择,你完全可以花时间去找,或者自己培养锻炼只是力气大,足够搬砖的普通工人。

显卡的机会就是如此的浅显直白,你把显卡的主要功能都去掉,只保留计算能力,然后将多余的资源倾斜到计算能力上,就能做出非常优秀的解决方案。如果能实现的话,可以预期的一个结果,就是我们能用上4090的十分之一,甚至几十分之一的价格, 实现10倍,甚至几十倍4090的训练能力。

再再再进一步,我们尝试下剖析大模型成功的最核心的因素,从而摒弃可能已经习惯沿袭的思维惯性。

大模型的成功,无疑是因为他的智能程度。但智能从哪里来的呢? gpt的底层是transformer模型,transformer只是个很简单的映射关系,跟智能毫无关系。当我知道gpt是基于transformer的时候,我从根上是不相信大模型具备智能的。但是gpt的一代一代的发展,其智能能力越来越无可置疑。结果很打脸,他就是这么智能。问题出在什么地方呢?智能到底从何而来呢?莫非我们误解了transformer? 这些问题我既回答不上来,又毫无头绪如何思考,但是很幸运的是,我看到一位AI博士也有类似的疑问,然后她问了DeepSeek关于“意识涌现”的问题,DeepSeek经过思索后,给出了答案!

原来根源不在于底层模型,根源是参数的大数量! 参数的量达到一定的规模化,就能自然的产生意识!

DeepSeek给的例子是蚂蚁,单个蚂蚁,无论它的力气多么大,都只是简单的动物,只有本能的反应。但一旦形成蚁群,整个蚁群将产生不可思议的社会化意识,能够分工协作,能够联合起来渡河。整个蚁群的碰到问题,思考问题,解决问题的能力,不仅是单个蚂蚁不可能具备的,也是足够让人类吃惊的程度。 而这种意识,只在蚁群这个级别存在,蚁群里的每个蚂蚁,仍然是没有思考能力。

gpt1发布时,他的参数数量是1亿,已经有了很惊艳的效果。 gpt2的参数就直接升到了15亿,然后是gpt3的跨越式1750亿。 (这里插句补充信息:OpenAI2020年发表的论文引用了百度2019年的相关论文,但是很多人认为百度2017年发布的论文《Deep Learning Scaling is Predictable, Empirically》,才是大模型的理论起源,可惜百度未能坚持到底,为人作嫁了。)

现在我们知道了,参数数量达到1750亿,就可以产生了不起的意识和智能。那么对于transformer的怀疑又可以直接提出来了。毕竟transformer的天性,不是推理和分析的。从这个角度出发,其实就有无数的尝试可以做。也应该会有无数的突破点可以产生

比如说,神经元计算曾经研究了很长一段时间,但一直没有突破性进展。如果是神经元加上1750亿参数呢,会产生什么样的智能? 不好说,不好说。

6 捧杀的危险

DeepSeek毫无疑问是个伟大的公司,但是我们也应该看到,他只是做了一些正确的事。只是因为这些正确的事,在目前普遍都很浮躁的,短视的,内卷的工作氛围中格外的难得,由此被凸显的伟大。

同时DeepSeek的成功,也有其本身的偶然性和趋势的必然性在内。 并没有说战斗结束,DeepSeek就此稳坐钓鱼台了。以后的路还很长,发展的变数也很多。从持续的角度上看,OpenAI的虽然受到严重的冲击,但并没有影响到他的护城河。

换而言之,DeepSeek降低了成本,为大众谋了福利,但自身的护城河并没有完善起来。 而OpenAI虽然输的一谈糊涂,但他动辄千亿美金的规划,即便是跟随DeepSeek,也可以轻松的复制成千上万的DeepSeek,并仍有继续在DeepSeek上创建自己新的垄断点的大把机会。

所以呢,棋局才刚开始,变数依然很多。按照上面的分析,机会也还很多。对于DeepSeek,除了一味的追捧之外,或许我们更应该考虑如何才能更好的支持DeepSeek,如何才能复制他的成功。 避免让DeepSeek背上意识形态负担。尤其需要避免方仲永式的立榜样,四处汇报,“不使学”,致使最终泯然众人矣