🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
DeepSeek V4 已到来——其专业版的价格比 GPT 5.5 Pro 低 98%
###简要概述
DeepSeek 归来,就在 OpenAI 发布 GPT-5.5 几个小时后出现。巧合吗?也许吧。但如果你是一个中国的 AI 实验室,美国政府过去三年一直试图通过芯片出口禁令减缓你的发展,你的时间感会变得非常敏锐。 这家位于杭州的实验室今天发布了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的预览版本,两个都是开源权重,均拥有一百万令牌的上下文窗口。这意味着你基本可以在模型崩溃之前,处理大致相当于《指环王》三部曲的上下文大小。两者的价格也远低于西方的同类产品,且对于能够本地运行的用户来说,都是免费的。 DeepSeek 上一次重大突破——2025 年 1 月的 R1——在一天之内就让 Nvidia 的市值蒸发了数十亿美元,投资者质疑美国公司是否真的需要如此巨额投资才能取得中国小型实验室用更低成本实现的成果。V4 则是另一种动作:更低调、更技术化,更专注于实际构建 AI 的效率。
两个模型,截然不同的任务 在这两个新模型中,DeepSeek 的 V4-Pro 是重量级的,拥有 80亿亿参数。打个比方,参数是模型用来存储知识和识别模式的内部“设置”或“脑细胞”——参数越多,理论上能存储的复杂信息越多。这使其成为迄今为止 LLM 市场中最大的开源模型。这个规模听起来可能荒谬,直到你知道它每次推理只激活 490 亿个参数。 这是 DeepSeek 自 V3 以来不断完善的一种“专家混合”技巧:完整模型就在那里,但每次请求只唤醒相关的那一部分。更多的知识,计算成本不变。 “DeepSeek-V4-Pro-Max,DeepSeek-V4-Pro 的最大推理努力模式,显著提升了开源模型的知识能力,稳固地确立了其作为当今最佳开源模型的地位,”DeepSeek 在 Huggingface 上的官方卡片中写道。“它在编码基准测试中表现出色,并在推理和智能任务上大大缩小了与领先闭源模型的差距。” V4-Flash 更实用:总参数为 284 亿,激活参数 130 亿。设计目标是更快、更便宜,根据 DeepSeek 自己的基准测试,“在提供更大思考预算的情况下,其推理性能与 Pro 版本相当。”
两者都支持一百万令牌的上下文。这大约是 20亿字——大致相当于《指环王》三部曲加一些内容。而且这是标准功能,不是高级付费版本。 DeepSeek 的“秘密武器”:让注意力机制在大规模下表现不差 这里是技术部分,适合极客或对模型背后魔法感兴趣的人。DeepSeek 不隐藏其秘密,所有内容免费提供——完整论文已在 Github 上公布。 标准的 AI 注意力机制——让模型理解词与词之间关系的机制——存在严重的扩展问题。每当你将上下文长度翻倍,计算成本大约会增加四倍。因此,在一百万令牌上运行模型,不仅是 80亿令牌的两倍那么简单,而是四倍。这也是为什么长上下文一直是实验室添加的一个勾选框,然后在速率限制后悄悄调低。 DeepSeek 发明了两种新型注意力机制来解决这个问题。第一种,压缩稀疏注意力(Compressed Sparse Attention),分两步工作。它首先将一组令牌——比如每 4 个令牌——压缩成一个条目。然后,不是对所有压缩条目都进行注意,而是用“闪电索引器”只挑选最相关的结果。你的模型从关注一百万令牌,变成关注一小部分最重要的块,就像图书馆员不读每一本书,但知道该查哪个书架。 第二种,更激进的“高度压缩注意力”(Heavily Compressed Attention),将每 128 个令牌折叠成一个条目——没有稀疏选择,只有残酷的压缩。你会失去细粒度的细节,但可以获得极其廉价的全局视野。这两种注意力类型交替运行在不同层中,使模型既有细节,又有全局视角。
![]$600 https://img-cdn.gateio.im/social/moments-02b21fa93c-be927f953a-8b7abd-badf29(
技术论文的结论:在一百万令牌的情况下,V4-Pro 使用的计算量只有其前身 )V3.2( 的 27%。KV 缓存——模型追踪上下文所需的内存——降至 V3.2 的 10%。V4-Flash 更进一步:只需 10% 的计算,7% 的内存。 这也让 DeepSeek 能以远低于竞争对手的价格提供每个令牌的成本,同时输出相当的结果。用美元来衡量:昨天推出的 GPT-5.5,输入和输出每百万令牌的价格分别为 ),而 GPT-5.5 Pro 的价格为 (每百万输入和输出令牌。
DeepSeek V4-Pro 的价格为每输入 1.74 美元,每输出 3.48 美元。V4-Flash 为每输入 0.14 美元,每输出 0.28 美元。Cline 的 CEO Saoud Rizwan 指出,如果 Uber 使用 DeepSeek 而非 Claude,其 2026 年的 AI 预算——据说足够用四个月——将能持续七年。
基准测试 DeepSeek 在其技术报告中做了不同寻常的事情:公布差距。大多数模型发布时会选择性展示自己胜出的基准。DeepSeek 进行了完整的对比测试,涵盖 GPT-5.4 和 Gemini-3.1-Pro,发现 V4-Pro 在推理方面落后这些模型大约三到六个月,但仍然公布了结果。 真正获胜的地方:Codeforces 竞赛编程基准,类似人类国际象棋比赛。V4-Pro 得分 3,206,排名大约在实际人类参赛者的第 23 位。在 Apex Shortlist——一组精选的难题和 STEM 问题——它的通过率为 90.2%,高于 Opus 4.6 的 85.9% 和 GPT-5.4 的 78.1%。在 SWE-Verified 上,衡量模型解决真实 GitHub 问题的能力,它得分 80.6%,与 Claude Opus 4.6 持平。
![]$30 https://img-cdn.gateio.im/social/moments-51d4cda8e3-32b57da7d8-8b7abd-badf29$30
它的短板:多任务基准 MMLU-Pro $180 Gemini-3.1-Pro,得分 91.0% 对比 V4-Pro 的 87.5%(,专家知识基准 GPQA Diamond )Gemini 94.3 对比 V4-Pro 90.1(,以及人类最后考试(Humanity’s Last Exam),这是一个研究生水平的基准,Gemini-3.1-Pro 的 44.4% 仍优于 V4-Pro 的 37.7%。 在长上下文方面,V4-Pro 领先开源模型,并在 CorpusQA 基准测试中击败 Gemini-3.1-Pro——这是一个模拟真实文档分析、支持一百万令牌的测试),但在 MRCR(衡量模型检索深藏在长草堆中的特定针的能力)上败给了 Claude Opus 4.6。 面向智能体设计,而非仅仅回答问题 智能体相关的功能是此次发布中对开发者特别有吸引力的部分。
V4-Pro 可以在 Claude Code、OpenCode 和其他 AI 编程工具中运行。根据 DeepSeek 内部对 85 位开发者的调查,使用 V4-Pro 作为主要编码智能体的开发者中,52% 认为它已准备好成为他们的默认模型,39%倾向于是,不到 9% 认为不是。内部员工表示,它的表现优于 Claude Sonnet,并在智能体编码任务上接近 Claude Opus 4.5。
Artificial Analysis(人工分析)对 AI 模型在实际任务中的表现进行了独立评估,在 GDPval-AA(衡量金融、法律和研究等经济价值知识工作的基准,采用 Elo 评分)中,V4-Pro 排名第一。V4-Pro-Max 得分 1,554 Elo,领先 GLM-5.1 的 1,535 和 MiniMax 的 M2.7 的 1,514。作为对比,Claude Opus 4.6 在同一基准上的得分为 1,619——仍然领先,但差距在缩小。
DeepSeek 的 V4 还引入了一种叫做“交错思维”的机制。在之前的模型中,如果你运行一个多工具调用的智能体——比如先搜索网页,然后运行代码,再次搜索——模型的推理上下文会在每轮之间被清空。每一步都得重新构建认知模型。V4 保留了完整的思维链,确保多步骤工具调用不会中途失忆。这对于运行复杂自动化流程的用户来说,比想象中更重要。 DeepSeek 与中美 AI 战争 自 2022 年起,美国限制对中国出口高端 Nvidia 芯片。官方目标是减缓中国 AI 发展,但芯片禁令没有阻止 DeepSeek,反而促使他们发明了更高效的架构,并建立了国内硬件供应链。 DeepSeek 并非在真空中发布 V4——近期 AI 领域活动频繁:4 月 16 日,Anthropic 发布了 Claude Opus 4.7——一款在编码和推理方面表现强劲、令牌使用量高的模型。前一天,Anthropic 还在研发 Claude Mythos,一款因在自主网络攻击方面表现出色而不能公开发布的网络安全模型。 小米于 4 月 22 日推出了 MiMo V2.5 Pro,支持多模态——图像、音频、视频。每百万令牌的输入和输出成本为 (。它在大多数编码基准测试中与 Opus 4.6 持平。三个月前,没人把小米当作前沿 AI 公司,现在它比大多数西方实验室更快推出竞争模型。
OpenAI 的 GPT-5.5 昨天发布,输出成本飙升至 )每百万令牌的价格(Pro 版本)。它在 Terminal Bench 2.0 测试中优于 V4-Pro,达 82.7% 对 70.0%(,测试复杂的命令行智能体工作流程。但在相同任务上,成本远高于 V4-Pro。同一天,腾讯发布了 Hy3,又一款专注于效率的最先进模型。 这对你的意义 那么,在如此多新模型可用的情况下,开发者真正关心的问题是:何时值得付出高价? 对于企业来说,数学可能已经改变。一个在每百万输入令牌成本仅为 1.74 美元的模型,意味着大规模文档处理、法律审查或代码生成流程——六个月前还很昂贵——现在变得更加经济。一百万令牌的上下文意味着你可以在一次请求中提交完整的代码库或法规文件,而不用拆分多次调用。 此外,它的开源特性意味着不仅可以在本地硬件上免费运行,还可以根据公司需求和用例进行定制和改进。 对于开发者和单打独斗的创作者,V4-Flash 是值得关注的模型。每输入 0.14 美元,每输出 0.28 美元,比一年前被视为预算选项的模型还要便宜——而且它能处理大部分 Pro 版本的任务。DeepSeek 现有的 deepseek-chat 和 deepseek-reasoner 接口,分别在非思考和思考模式下路由到 V4-Flash,所以如果你在用 API,实际上已经在用它了。 目前这些模型仅支持文本。DeepSeek 表示正在开发多模态能力,这意味着 Xiaomi 和 OpenAI 等其他大实验室仍占优势。这两个模型都采用 MIT 许可证,今日已在 Hugging Face 上提供。旧的 deepseek-chat 和 deepseek-reasoner 接口将于 2026 年 7 月 24 日停止服务。