DeepSeek出世,开放的东方力量重塑生态格局
Deepseek以一己之力改变了技术生态,推动中国与美国在根系统上同步构造自己的全链条开放生态,这是全球化背景下前所未有的机遇。 文|王雅迪 ID | BMR2004 3月25日,DeepSeek正式发布了其新版本V3-0324模型,优化了包括推理、前端开发、中文写作、中文搜索几个方面的能力。其中,最大亮点是它的代码能力,只需要简单的文本提示就能快速开发各种网站、App,可以比肩目前全球最强的闭源代码模型Claude 3.7 Sonnet,但V3-0324是开源且免费的,且推理效率更快。 此前,2月24日至2月28日,DeepSeek陆续开源最新技术进展。该“DeepSeek开源周”提供的五个项目覆盖了AI开发的核心环节,引发广泛关注。 开源周结束的第二天,DeepSeek便于知乎开设官方账号,独家发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,并披露成本利润率关键信息。 近日,CSDN创始人、董事长蒋涛在接受《商学院》杂志专访时感慨道,“中国迎来了历史上从未有过的机会,从根系统且在与美国同步构造自己的生态,这个前所未有的机会是面向全球化的。” DeepSeek凭借低成本、高效能、开源等特点,不仅改变了AI产业范式,更打破了美国对AI话语权的垄断。 01 “大教堂”与“集市” DeepSeek的开放比过去更彻底,开放了模型的参数和权重,性价比非常高。 《大教堂与集市》被称为开源运动的“圣经”,它颠覆了传统的软件开发思路,影响了整个软件开发领域,书中以“大教堂”和“集市”来代表两种截然不同的开发模式。 “大教堂”代表由商业公司管理专业开发人员开发的闭源软件开发模式,其开端可以追溯到《人月神话》中IBM公司System/360(世界上首个指令集可兼容计算机)家族和OS/360(主机操作系统)中的开发工作;“集市”则是以Linux为代表的社区开源软件开发模式,它代表了一种低成本、开放式的协作方式,就像一个热闹的菜市场,没有统一的领导,大家在这里各自为营,却充满无限的可能和活力。 DeepSeek的开源举措与Linux有异曲同工之妙,却又更胜一筹。它不仅开源工作成果,还毫无保留地公开了优化细节,让全球开发者能够看到其研发过程,掀起了全球对“开源”话题讨论的热潮。 2024年7月,Meta发布了Llama 3.1开源大模型,根据Meta提供的基准测试数据,其中最受关注的405B(4050亿参数)在性能上已经可以媲美OpenAI旗下GPT-4和人工智能初创企业Anthropic旗下Claude 3。这也意味着,顶尖开源大模型在性能上已经赶上了顶尖闭源大模型。然而,DeepSeek的出现给Meta旗舰模型下一版本Llama 4带来了更大的压力。 蒋涛表示,DeepSeek的开放程度比过去更彻底,更甚于Llama,开放了模型的参数和权重。此外,它的性价比非常高,2024年10月,面对各家大模型公司性能的逼近,闭源的OpenAI推出了推理模型o1和o3,业内都在研究OpenAI是如何实现这一成果之际,DeepSeek R1模型性能对标OpenAI o1正式版抢先推出,训练成本远低于OpenAI o1。更重要的是,实现这种突破的是一家中国公司。 DeepSeek的出现再次引发业内对“大教堂”与“集市”的讨论热潮,甚至有观点认为,“这宣告了开源对闭源的胜利”。曾对开源嗤之以鼻的李彦宏也开始调整策略,并陆续推出了文心大模型4.5系列,并于6月30日起正式开源。 坚持闭源的李彦宏曾宣称,如果开源模型想要在能力上追平闭源模型,就需要更大的参数规模,这将导致更高的推理成本和更慢的反应速度。同时,相比源代码公开传统的软件开源,大模型的开源更为复杂。 然而,DeepSeek开源模型基于业界已有的技术进行探索,显著降低了模型训练和推理成本。根据DeepSeek发布的技术文章显示,DeepSeek-V3/R1推理系统通过跨节点专家并行(EP)、计算-通信重叠和动态负载均衡三大核心技术,实现了吞吐量与延迟的极致优化,并实现了高理论利润率。 据DeepSeek计算,运营一天V3和R1的算力成本为87072美元,以R1定价来看,理论上收入为562027美元,利润率为545%。不过,DeepSeek官方也表示,实际上没有这么多收入,因为V3的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。 在蒋涛看来,闭源模式必然走向垄断,因为该模式下,技术握在自己手里,外界无法拥有,决定权更多在技术方,如微软的Windows和苹果公司的iOS。但在开源模式下,技术可以开放出来,但也分为两种形式。一种是签订开源协议,需要遵守技术提供方的相关约定,使用方可以复制,也可以商业化,但商业化是否要约定各家协议,这就涉及到了第二种“局部开源”模式。 蒋涛举例表示,安卓就是“局部开源”,尽管它号称开源,但实际使用过程中存在很多约束和限制,很难在此基础上进行开发和创新。相比之下,Linux就是真开源,它对商业化没有限制,任何公司都可以在其内核系统上做自己的开发,遵循的是GPL协议(自由软件基金会发布的一种开源软件许可协议)。这种“局部开源”在商业路线上可能有更大的控制权,尤其对竞争对手而言。 据悉,DeepSeek采用的是MIT许可协议,是一种较为宽松的开源协议。它允许用户自由修改、定制、分发甚至商业化使用DeepSeek的代码,但同时也明确规定了用户在使用过程中需要遵守的条款,比如用户若使用或分发代码,需在软件或文档中保留原作者的版权声明和许可声明。 02 垂类模型迎来机遇 垂类模型的胜利一定是开源模型的胜利。 为了在小参数模型中引入长思维链推理能力,DeepSeek团队引入了蒸馏技术。模型蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术,其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。 DeepSeek蒸馏技术将数据蒸馏与模型蒸馏相结合,实现了从大型复杂模型到小型高效模型的知识迁移。这种结合方式不仅能够提高模型的性能,还降低了计算资源的需求。 蒋涛表示,开源模式下,用户可以对模型进行蒸馏和更多微调,而闭源则不能,只能调用API和微调工具,非常有限。因此很多模型公司应用都转移到DeepSeek上,因为它的底座模型是目前中国最好的,垂类模型必然要在DeepSeek上进行调整和蒸馏,垂类模型的胜利一定是开源模型的胜利。对于用户来说,或许更关心模型的性能,而不关注是否开源,闭源模式下需要借助厂商进行微调,而开源模式则可以直接改进,尝试的方式更多,局限性更小。 截至2024年7月30日,全国已有197个大模型产品通过工信部备案,其中约30%为通用大模型,70%为行业大模型。360集团创始人周鸿祎不止一次在公开场合中表达过“大模型在垂直领域大有可为”,今年全国两会期间,他再次指出,“开源带来大模型的广泛应用,未来将会有各类专业大模型、垂直大模型、场景大模型,连接内部知识库,以智能体的形式在大批政府机构和企业中广泛部署,推进‘数转智改’,实现降本增效。” 在蒋涛看来,闭源模式下,政府部门及企业要将自己的数据交付给模型厂商,DeepSeek拓宽了私有化部署的空间,企业可以避免依赖外部供应商,还能更好满足定制化需求,结合不同的具体需求定制大模型。 因此,蒋涛强调,闭源模式现在面临的挑战是要发展独特性,性能要持续领先,如果不领先,该模式就会被开源的性价比和开放性打败。其次,要基于模型发展出足够多的生态伙伴,实现垂类应用的研发,但在这一点上确实要比开源模式更难。下一步的竞争实际上是应用生态的争夺战。 自DeepSeek推出以来,不断有新的政府部门及企业加入到DeepSeek的生态阵营之中,它们大部分是采用私有化、本地化的方式,以此满足数据安全、高度定制化、低延迟高稳定等方面的需要。 03 一己之力改变技术生态 DeepSeek展示出比较强的工程化能力,带来整个工具链的变化,会对硬件和芯片设计产生影响。 2025年1月,美国政府宣布推出美国制造AI芯片管理新规,旨在对美国制造的AI GPU(图形处理器,主要用于AI大模型的训练及推理)芯片实施严格的全球出口限制。其中,中国被列为第三等级,几乎完全被封锁在美国高端AI芯片的供应链之外。 DeepSeek出圈为“无芯可用”的困境带来了新突破口,在国内算力中心采购英伟达芯片难度提升的情况下,国产芯片无疑成为重要选择。目前,华为昇腾、摩尔线程、海光信息、燧原科技、昆仑芯等厂商,都相继宣布适配或上架 DeepSeek 模型服务。 蒋涛认为,DeepSeek展示出比较强的工程化能力,带来整个工具链的变化,会对硬件和芯片设计产生影响。DeepSeek通过算法优化和开源协作,实现了在少量芯片上的高效训练。这就好比开车,当限速了只能跑20公里,如今限速的条件下能跑出200公里,而这个技术被开源出来了,对整个行业有巨大价值。 英伟达CUDA(一种并行计算平台和编程模型)几乎主导了整个AI产业链的各个环节。DeepSeek与华为昇腾、天数智芯等企业合作,推动国产芯片的框架优化和分布式训练适配,正试图绕开CUDA的限制。 蒋涛指出,算力短缺仍是核心挑战,大模型的发展上限在哪里?达到这个上限需要多少算力?国家的算力资源是否能扛得住未来模型的需要?这些都是极大的挑战。?马斯克曾宣称其Grok-3是全世界最好的模型之一?,背后的逻辑正是因为Grok-3使用了20万块英伟达GPU进行训练,从而具有极高的算力和性能?,在算力差距巨大的情况下,我们不知道对方能领先多少,这是比较具有挑战性的。 据悉,半导体研究机构SemiAnalysis曾认为,DeepSeek囤积了6万张英伟达GPU卡,其中包括1万张A100、1万张H100、1万张“特供版”H800、3万张“特供版”H20。但是,据《DeepSeek-V3技术报告》官方给出的是2048张英伟 H800芯片和1万张A100显卡。 低算力背景下,DeepSeek的成功为AI产业带来新思路,尽管国内在最高端半导体制造上有短板,但依靠算法和软件的补齐,可以协同次高端半导体在综合效能上实现提升。正如蒋涛所言,DeepSeek展现出的能力对中国的根技术是巨大贡献,我们需要构建算力层、硬件层、工具层和应用层的全链条开源生态,以满足人工智能时代的发展。 04 私有化部署的挑战 运行DeepSeek R1大模型的服务器正在快速上升,8971个服务器中有5669个在中国。 值得注意的是,随着越来越多的公司和个人选择将DeepSeek进行私有化部署,针对性的恶意手段和风险场景也相应激增,伴生的数据隐私、认知安全、基础设施等安全风险超乎想象。 《商学院》杂志从奇安信处获悉,2月初,奇安信通过持续跟踪监测发现,针对DeepSeek的仿冒网站、钓鱼网站数量已经超过2000个,并且在快速增加,于是再次发布预警,提醒用户保持警惕。此外,奇安信资产测绘鹰图平台监测发现,8971个Ollama大模型服务器中,有6449个活跃服务器,其中88.9%都“裸奔”在互联网上。 Ollama是一款可以方便获取并运行大模型的工具,支持多种先进的语言模型,包括但不限于Qwen、Llama、DeepSeek-R1、Phi-4、Mistral、Gemma 2等,可以让用户能够在服务器中运行和使用这些模型。而公开信息显示,运行DeepSeek R1大模型的服务器正在快速上升,在8971个服务器中有5669个在中国。 奇安信科技集团创始人、董事长齐向东认为,这种“裸奔”状态会导致任何人不需要任何认证即可随意调用、在未经授权的情况下访问这些服务,极有可能造成数据泄露和服务中断,甚至可以发送指令删除所部署的DeepSeek、Qwen等大模型文件,存在严重的安全隐患。 蒋涛表示,短期风险还包括营销,现在一些不合规的推广行为开始涉及DeepSeek,到处招募参与者,导致市场出现乱象。长期看,比较严重的还是幻觉带来的影响,以及人工智能安全伦理问题。例如,某些西方国家有专门的伦理安全测试,将DeepSeek中没有与其价值观对齐的部分提出质疑,导致被某些国家或地区视为最不安全的大模型之一。此外,幻觉问题是所有大模型都面临的挑战。 2025年春节期间,市面上出现了一些假的DeepSeek代币,并在去中心化交易所流行。2月6日,DeepSeek官方在微信文章评论区回应:“DeepSeek从未发行任何虚拟货币,请大家注意甄别、理性投资,避免财产损失。”此后,多个以DeepSeek、DeepSeekAI、DeepSeekR1等名称命名的虚拟币交易迅速“熄火”,价格暴跌。 相比于蹭DeepSeek热点而出现的乱象,由AI产生的幻觉仍无法在短期内杜绝。Vectara HHEMAI人工智能幻觉排行榜最新数据显示,DeepSeek-V3幻觉率为3.9%,而DeepSeek-R1则为14.3%。据悉 该测试为行业权威测试,通过检测语言模型生成内容 是否与原始证据一致,从而评估模型的幻觉率,帮助 优化和选择模型。 在蒋涛看来,幻觉的产生在后续会逐渐被控制,但也不能阻碍其发展,其中的平衡很难把握,各行各业如何控制大模型的能力使其有效输出,而不是制造虚假的垃圾信息,这是目前面临的最大挑战。 正如周鸿祎所言,“幻觉”是一把双刃剑,是大 模型与生俱来的特点,不可消除,也决定其创造力和 想象力,对于实现 AGI 极其重要。如果大模型没有“幻 觉”,就失去了想象力和创造力。并且越是能力强的 模型,一般“幻觉”也越多。因此,需要适度包容“幻 觉”。 来源 | 2025年4月刊