国产昇腾910C芯片首次完成1.6万亿参数大模型全栈训练

2026年6月5日,深圳方面宣布一项具有标志性意义的技术进展:依托昇腾910C国产AI芯片构建的算力集群,成功完成参数规模达1.6万亿的DeepSeek-V4-Pro大模型的全参数后训练。该项目由深圳河套学院AI训练平台牵头,联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为相关团队及深智城AI算力平台共同推进。这一成果不仅代表中国在高端AI基础设施领域取得实质性突破,更在全球范围内首次由第三方机构在纯国产算力平台上完成万亿级大模型的完整训练流程,为后续国产AI生态的独立演进提供了关键验证。
国产算力首次通过“全栈训练”压力测试
长期以来,全球顶级大模型的训练高度依赖英伟达GPU集群,尤其在千亿至万亿参数级别,其CUDA生态、软件栈成熟度与硬件性能形成事实上的技术垄断。尽管中国近年来加速推进AI芯片自主化,但多数国产方案仍集中于推理场景或中小模型训练,尚未在超大规模模型的端到端训练中经受系统性检验。
此次深圳项目的关键突破在于“全参数后训练”——即不仅调用预训练模型进行微调或推理,而是从头开始对整个1.6万亿参数模型进行梯度更新与优化。这一过程对算力稳定性、通信带宽、内存容量及软件编译效率提出极高要求。昇腾910C作为华为推出的最新一代AI训练芯片,据公开信息显示其FP16算力可达数PFLOPS级别,并支持高速互联架构。此次成功实践表明,国产芯片在硬件性能层面已初步具备对标国际主流训练芯片的能力。
更重要的是,该训练任务由非华为体系的第三方学术与产业机构主导完成,意味着昇腾生态的开放性与可扩展性正在提升。过去,国产AI芯片常被质疑“仅限内部使用”或“生态封闭”,而此次多机构协同攻关的成功,暗示围绕昇腾的工具链(如MindSpore框架)、调度系统与运维能力已达到可支撑外部开发者开展复杂AI研发的水平。
产业链影响:从芯片到云服务的传导逻辑
这一进展对AI产业链上下游将产生多层次影响。首先,在芯片层,华为昇腾系列有望加速替代进口GPU,尤其是在中国本土的数据中心与政府主导的AI项目中。考虑到美国对高端AI芯片出口管制持续收紧,中国各地正加快构建“去美化”算力底座。深圳此次示范项目可能成为其他省市复制的模板,推动昇腾集群在全国范围内的部署。
其次,在模型层,国产大模型的研发门槛有望系统性下降。过去,由于缺乏稳定高效的国产训练平台,许多中国AI公司被迫采用“海外训练+境内推理”的混合模式,既面临合规风险,也受限于数据跨境流动限制。若国产算力能稳定支撑万亿级训练,则模型厂商可实现全流程本土化开发,提升数据安全与迭代效率。
第三,在云服务与算力租赁市场,基于昇腾的AI算力平台(如深智城)可能迎来需求激增。不同于通用云计算,AI训练对算力密度与网络拓扑有特殊要求,专业AI云服务商的价值将凸显。未来,能否提供“芯片-框架-平台-运维”一体化解决方案,将成为衡量中国AI基础设施服务商竞争力的核心指标。
监管与地缘政治背景下的战略意义
此次技术突破发生在全球AI竞争白热化的背景下。美国自2023年起持续升级对华AI芯片出口管制,2025年后进一步限制先进封装与互联技术对华输出,意图延缓中国在生成式AI领域的追赶速度。在此压力下,中国将AI算力自主上升为国家战略,《“十四五”数字经济发展规划》及多地人工智能行动计划均明确要求提升国产芯片在AI训练中的占比。
深圳作为中国科技创新前沿阵地,其政策执行力与产学研协同效率历来领先。此次项目由地方政府支持的研究机构牵头,联合高校与头部企业,体现了典型的“新型举国体制”运作模式——即通过行政协调打破机构壁垒,集中资源攻克关键技术节点。这种模式在短期内可快速验证技术路径,但长期可持续性仍取决于市场化机制能否接续。
值得注意的是,尽管训练成功,但模型性能、训练效率(如收敛速度、能耗比)等关键指标尚未披露。国际投资者需警惕“工程可行性”与“商业竞争力”之间的差距。例如,即便国产芯片能完成训练,若其单位算力成本显著高于英伟达方案,或软件生态导致开发效率低下,则商业化推广仍将受限。
市场情绪与跨市场传导效应
消息公布后,虽未直接点名上市公司,但市场对AI国产替代链条的情绪可能被激活。港股与A股中涉及昇腾生态合作、AI服务器制造、国产AI框架适配的企业或受关注。例如,与华为在AI服务器领域深度合作的厂商、参与地方智算中心建设的IT服务商,以及布局大模型研发的科技公司,均可能被视为间接受益者。
在数字资产市场,尽管无直接关联代币,但此类技术进展可能强化市场对“中国AI叙事”的信心,间接利好与AI基础设施相关的区块链项目(如去中心化算力网络),前提是这些项目能证明其与中国本土AI生态的兼容性。然而,需注意数字资产市场对此类宏观技术新闻的反应通常短暂且情绪化,缺乏持续基本面支撑。
更深远的影响在于全球AI格局的再平衡。若中国能建立独立于CUDA生态的AI训练体系,将削弱美国在基础模型时代的结构性优势。未来可能出现“双轨制”AI世界:一轨基于英伟达-CUDA-Meta/Google生态,另一轨基于昇腾-MindSpore-中国大模型生态。跨国企业或将被迫在两大体系间做技术选边,增加全球AI产业的碎片化风险。
关键变量与后续观察点
尽管此次训练成功具有象征意义,但真正决定国产AI算力能否规模化落地的关键变量仍待观察。首先是软件生态的成熟度。硬件性能只是基础,编译器优化、自动并行策略、调试工具链等“软实力”才是影响开发者体验的核心。其次是成本效益比。在电力、冷却与人力运维成本高企的背景下,国产集群的TCO(总拥有成本)是否具备竞争力至关重要。
此外,模型训练成功不等于模型可用。DeepSeek-V4-Pro的实际推理质量、多语言能力、行业适配性等仍需第三方评测验证。若仅停留在“能训出来”而无法“用得好”,则商业价值有限。
最后,政策持续性是关键保障。地方政府对AI算力的投资热情能否转化为长期运营机制,避免“重建设、轻运营”的旧疾,将决定国产算力平台能否从“示范工程”走向“常态服务”。
综上所述,深圳此次万亿级大模型训练的成功,是中国AI基础设施自主化进程中的重要里程碑。它不仅验证了国产芯片的技术上限,更释放出产业链协同与政策执行力的积极信号。然而,从技术验证到商业普及仍有漫长路径,全球投资者应关注后续生态建设、成本控制与实际应用落地的进展,而非仅凭单一事件过度乐观。












