当前位置:首页 > 情感 > 正文

DeepSeek推翻两座大山

  • 情感
  • 2025-01-27 20:24:06
  • 33

DeepSeek 的压力,终于还是传递到了黄仁勋身上。

北京时间 1 月 27 日晚,英伟达美股股价盘前暴跌近 11%,按目前市值 34928 亿美元计算,英伟达市值恐将缩水超 3500 亿美元。

DeepSeek 所掀起的低成本大模型训练策略,正在让资本市场怀疑,即当用相对较少的算力也能实现不输于 OpenAI 的模型性能表现时,英伟达所代表的高端算力芯片是否正迎来新的泡沫?

这股担忧情绪正进一步助推着 DeepSeek 的热度攀升。趁着 DeepSeek R1 新模型发布档口,短短一周时间,到 1 月 27 日,DeepSeek 应用就拿下了美区 App Store 和中国区 App Store 免费榜的双料第一。

值得一提的是,这是首次有 AI 助手类产品超越 OpenAI 的 ChatGPT,且登顶美区 App Store。

爆火的用户体验场面,直接导致 DeepSeek 在两天之内接连出现服务宕机现象。继 1 月 26 日出现短时闪崩后,1 月 27 日,DeepSeek 再次短暂出现网页 /API 不可用的服务提示。官方回应称,其可能和服务维护、请求限制等因素有关。

新模型 DeepSeek R1,无疑是引发这场围绕 DeepSeek 的全球用户大讨论的直接导火索。1 月 20 日,DeepSeek 正式发布了性能比肩 OpenAI o1 完整版的 R1。

在数据越多、效果越好的 Scaling Law(模型规模定律)触达瓶颈之下,去年 9 月份,OpenAI 对外发布了新推理模型 o1,后者采用了 RL(强化学习)的新训练方式,被行业视为是大模型领域的一次 " 范式转移 "。

但直到 DeepSeek R1 发布之前,国内一众大模型厂商均尚未推出能够对标 OpenAI o1 的模型。DeepSeek 成了第一个攻破 OpenAI 技术黑匣子的玩家。

更重要的是,相比 OpenAI 在模型上的闭源,以及 o1 模型付费使用限制,DeepSeek R1 不仅开源,而且还免费供全球用户无限调用。

R1 的出现,除了打破旗舰开源模型只能有科技大厂来推动的行业传统共识之外,还打破了业内在去年形成的另一条共识,即通用大模型,正越来越成为一场大厂间的资本比拼游戏。DeepSeek 用不到 OpenAI 十分之一的资源,就做出了性能堪比 o1 的 R1。

DeepSeek 携一众用户带来的冲击,已经让一些大厂坐不住了。

首当其冲的是 Meta。一贯被行业视为 " 大模型开源之王 " 的 Meta,内部被曝出开始担心起还未发布的 Llama 4,在性能上可能无法赶上 DeepSeek R1。

被拿来全面对标的 OpenAI,也开始感受到压力。OpenAI CEO 奥特曼不仅通过发布首个智能体 Operator 抢热度,还开始对外剧透起即将上线的 o3-mini 新消息。

可以预见的是,DeepSeek 掀起的行业地震,波及的将不只是国外公司,国内大厂也难逃例外。

作为一款开源模型,DeepSeek R1 在数学、代码、自然语言推理等任务上的性能,号称可以比肩 OpenAI o1 模型正式版。

在 AIME 2024 数学基准测试中,DeepSeek R1 得分率为 79.8%,OpenAI o1 的得分率为 79.2%;在 MATH-500 基准测试中,DeepSeek R1 得分率为 97.3%,OpenAI o1 的得分率为 96.4%。

 

同为推理模型,DeepSeek R1 不同于 OpenAI o1 的技术关键点,在于其创新的训练方法,如在数据训练环节使用的 R1-Zero 路线,直接将强化学习(RL)应用于基础模型,而无需依赖监督微调(SFT)和已标注数据。

此前,OpenAI 的数据训练非常依赖人工干预,旗下数据团队甚至被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。

DeepSeek R1 的直接强化学习路线,就像让一个天才儿童在没有任何范例和指导的情况下,纯粹通过不断尝试和获得反馈来学习解题。

 

Perplexity 公司 CEO 阿拉文 · 斯里尼瓦斯评价道:" 需求是发明之母。因为 DeepSeek 必须找到解决办法,最终它们创造出了更高效的技术。"

除此之外,在获取高质量数据方面,DeepSeek 也有所创新。

根据 DeepSeek 官方技术文档,R1 模型使用数据蒸馏技术(Distillation)生成的高质量数据,提升了训练效率。数据蒸馏指的是通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。

这也是 DeepSeek 能够凭借更小参数量,就实现比肩 OpenAI o1 模型性能的一大关键。人工智能专家丁磊博士告诉字母榜(ID:wujicaijing),模型参数量大小与最终模型呈现的效果之间,两者 " 投入产出并不成正比,而是非线性的……数据多只是一个定性,更重要的是考验团队数据清洗的能力,否则随着数据增多,数据干扰也将随之变大。"

更重要的是,DeepSeek 是在用不到十分之一的资源基础上,取得的上述成绩。

去年 12 月底发布的 DeepSeek-V3 开源基础模型,性能对标 GPT-4o,但官方介绍的训练成本只有 2048 块英伟达 H800,总花费约 557.6 万美元。

作为对比,GPT-4o 模型的训练成本约为 1 亿美元,占用英伟达 GPU 量级在万块以上,且是比 H800 性能更强的 H100。

当时,前 OpenAI 联创、特斯拉自动驾驶负责人安德烈 · 卡帕西就发文表示,DeepSeek-V3 级别的能力,通常需要接近 16000 颗 GPU 的集群。

目前,DeepSeek 官方尚未公布训练推理模型 R1 的完整成本,但官方公布了其 API 定价,R1 每百万输入 tokens 在 1 元 -4 元人民币,每百万输出 tokens 为 16 元人民币。作为对比,OpenAI o1 的运行成本约为前者的 30 倍。

 

这样的表现也引发 Scale AI 创始人亚历山大 · 王(Alexandr Wang)评价道,中国人工智能公司 DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。" 过去十年来,美国可能一直在人工智能竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会‘改变一切’。"

a16z 合伙人、AI 大模型 Mistral 董事会成员 Anjney Midha 更是发文说道,从斯坦福到麻省理工,DeepSeek R1 几乎一夜之间就成了美国顶尖大学研究人员的首选模型。

包括斯坦福大学计算机科学系客座教授吴恩达、微软董事长兼 CEO 萨提亚 · 纳德拉等大佬在内,也都开始关注起这款来自中国的新模型。

事实上,这并非 DeepSeek 第一次出圈。在宣布组建团队自研大模型以来,DeepSeek 曾两度引发热议,只不过,之前更多局限在国内。

 

2023 年 4 月,千亿量化私募巨头幻方量化发布公告,称将集中资源和力量,投身人工智能技术,成立新的独立研究组织,探索 AGI(通用人工智能)。

一个月后的 2023 年 5 月,该组织被命名为 " 深度求索 ",并发布了首款模型 DeepSeek V1。当时,《财经十一人》报道称,国内拥有超过 1 万枚 GPU 的企业不超过 5 家。而 DeepSeek 就是其中之一,并由此开始得到外界关注。

及至 2024 年 5 月,DeepSeek 再次借助大模型价格战一跃成名。当时,DeepSeek 发布了 DeepSeek V2 开源模型,并在行业内率先降价,将推理成本降到每百万 token 仅 1 块钱,约等于 GPT-4 Turbo 的七十分之一。

随后,字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

DeepSeek R1 的出现,进一步向外界证明着,在大模型,尤其是通用大模型方面,创业公司依然有机会。

1 月初,零一万物创始人李开复对外正式表态,自己将退出对 AGI 的追寻,未来公司主攻中小参数的行业模型。" 从商业角度考虑,我们认为只有大公司能继续做超大模型。" 李开复说道。

投资人们比李开复更激进。从 2023 年开始,作为金沙江创投主管合伙人的朱啸虎,便觉得大模型在摧毁创业,因为模型、算力和数据等三大支柱都向大厂集中,看不到创业公司的机会,且直接在大模型上做应用护城河太低,多次提醒创业者不要迷信通用大模型。

远望资本程浩更是直接认为中国版的 ChatGPT,只会在 5 家公司里产生:BAT+ 字节 + 华为。在程浩看来,创业者只有在具有先发优势的情况下,才有可能跑赢大厂。

正是因为当初谷歌等国外大厂并不看好 OpenAI 的大语言模型路线,才让 ChatGPT 借助先发势能跑了出来。但是,当下研发大模型已经成为中国科技大厂的共识,甚至百度、阿里推出产品的动作,比创业公司还快。

但在接受暗涌采访中,DeepSeek 创始人梁文锋在回应与大厂竞争中曾说道," 大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。头部的创业公司也有技术做得很扎实的,但和老的一波 AI 创业公司一样,都要面对商业化难题。"

背靠千亿量化基金的 DeepSeek,在免去资金的后顾之忧外,选择了一条颇显理想主义的路径,即只做模型研究,不考虑商业变现,且大胆启动年轻人。

 

在 DeepSeek 的 150 左右团队中,大多是一帮 Top 高校的应届毕业生、没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。

这是梁文锋有意选择的结果,也是 DeepSeek 能够抢在大厂前面推出 R1 模型的秘诀之一," 如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。" 梁文锋解释道。

这也使得 DeepSeek 成了中国大模型创业公司中,唯一一家只做基础模型、暂不考虑商业化的公司,还要加上一条,即有能力继续开源旗舰模型的公司。

截至目前,DeepSeek R1 已经成为开源社区 Hugging Face 上下载量最高的大模型之一,下载量超过 10 万次。

此前,国内以百度创始人李彦宏为代表的一派,坚决认为开源路线打不过闭源路线,且缺乏商业化支撑的开源模型,会在往后的竞争中差距越拉越大。

但起码从目前来看,DeepSeek R1 的出现,证明靠开源路线依然能够追上大模型头部玩家的脚步,且创业公司依然有能力推动开源生态发展。

Meta AI 首席科学家杨立昆(Yann LeCun)在评价中就提到," 给那些看到 DeepSeek 的表现后,觉得‘中国在 AI 方面正在超越美国’的人,你们的解读是错的。正确的解读应该是,‘开源模型正在超越专有模型’。"

在去年 DeepSeek   v3 发布后,梁文锋就曾对外表示,公司未来不会像 OpenAI 一样选择从开源走向闭源," 我们认为先有一个强大的技术生态更重要。"

毕竟,OpenAI 的经验起码说明了,在颠覆性的技术面前,闭源难以形成足够的护城河,更无法阻止被别人赶超。" 所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。"

2020 年发布 GPT-3 时,OpenAI 曾详细公开了模型训练的所有技术细节。中国人民大学高瓴人工智能学院执行院长文继荣认为,国内很多大模型其实都有 GPT-3 的影子。

但随着 OpenAI 在 GPT-4 上一改开源策略,逐渐走向封闭,一些国产大模型就此失去了可供复制的追赶路径。

如今,DeepSeek 携开源 R1 的到来,无疑将给国内外大模型玩家在对标 o1 的推理模型研发方面,创建起一条新的借鉴思路。

DeepSeek 在大模型领域掀起的这场蝴蝶效应,已经开始影响到部分大厂。

有 Meta 员工在硅谷匿名八卦分享平台 Blind 上发布消息称,Meta 的生成式 AI 部门正因 DeepSeek 处于恐慌中,甚至爆料称尚未发布的新一代开源模型 Llama 4,在基准测试中已经落后于 DeepSeek。

在外媒的进一步报道中,Meta 生成式 AI 团队和基础设施团队,正在组建 4 个作战小分队来像素级剖析 DeepSeek,有的试图搞清楚 DeepSeek 是如何降低训练和运行成本的,有的负责研究 DeepSeek 可能使用了哪些数据来训练模型,有的则考虑基于 DeepSeek 模型的属性重组 Meta 模型的新技术。

图源:AI 制作

与此同时,为了鼓舞士气,作为 Meta 创始人的扎克伯格,更是放出 2025 年继续扩大 AI 投资的新消息,称 2025 年围绕 AI 的整体支出将达到 600 亿 -650 亿美元,相比去年的 380 亿 -400 亿美元,增长了超过 70%,从而构建起一个拥有 130 万块 GPU 的超级计算机集群。

除了跟 Meta 抢开源之王的名头外,DeepSeek 正在从 OpenAI 手里抢走客户。

在比 OpenAI 便宜 30 倍的 API 价格诱惑力之下,一些初创公司正在改换门庭。企业级 AI 代理开发商 SuperFocus 的联合创始人 Steve Hsu 认为,DeepSeek 的性能与为 SuperFocus 大部分生成式 AI 功能提供支持的 OpenAI 旗舰模型 GPT-4 相似甚至更好。"SuperFocus 可能会在未来几周转向 DeepSeek,因为 DeepSeek 可以免费下载、在自家服务器上存储和运行,并将增加销售产品的利润率。"

成为更多公司的模型底座,这也是梁文锋规划中 DeepSeek 最想占据的定位。在梁文锋看来,DeepSeek 未来可以只负责基础模型和前沿的创新,然后其他公司在 DeepSeek 的基础上构建 To B、To C 的业务。" 如果能形成完整的产业上下游,我们就没必要自己做应用。" 梁文锋说道。

国内,对 DeepSeek 的研究也在同步进行。有报道称,字节跳动、阿里通义以及智谱、Kimi 等团队,都在积极研究 DeepSeek,字节跳动甚至可能在考虑与 DeepSeek 展开研究合作。

在这些公司之前,雷军更是先人一步挖起了 DeepSeek 的墙角。去年 12 月,第一财经爆料称,雷军疑似开出千万年薪亲自挖来 "95 后天才少女 " 罗福莉,后者是 DeepSeek-V2 开源模型的关键开发者。未来,罗福莉或将供职于小米 AI 实验室,领导小米大模型团队。

挖人之外,国内更激烈的竞争或将同样围绕 API 展开," 去年国内有一批创业公司和中小企业,因为 OpenAI 断供转向了国内大模型公司,现在 DeepSeek 很有可能成为收复 OpenAI 失地的那个野蛮人。" 恒业资本创始人合伙人江一预测道。

压力传导到了这些国内大模型公司身上。如果它们不能快速将模型效果跟进到 R1 级别,客户就难免用脚投票。(转载自字母榜)

有话要说...