点赞
顶端新闻客户端1小时前
从资本开支、折旧和产能利用率视角,看 AI 为什么更像制造业 这轮财报季里,阿里和腾讯对 AI 的表述,指向了同一个变化:AI 已经不能再完全放进传统互联网的流量框架里理解。 阿里吴泳铭在电话会上把 AI 明确放进“制造业”的语境中,提到 AI 训练工厂和 AI 推理工厂。训练工厂形成模型能力,推理工厂把模型能力转化成一次次可交付的智能服务。背后对应的,不是一个轻量级产品,而是 AI 数据中心、GPU、网络、电力和调度系统组成的算力工厂。 腾讯刘炽平从另一侧给出了同样的判断:AI 不能简单照搬互联网时代追求 DAU 的逻辑。因为每一次 AI 服务交付都会产生成本。用户多一次提问、模型多一次推理,背后都不是“免费分发”,而是真实发生的算力消耗。 把这两句话合在一起看,可以得到一个共同结论:AI 业务仍然有互联网入口和软件产品的外壳,但财务模型已经多了一层制造业属性。它不只要看用户规模和使用时长,还要看产能、利用率、单位成本、折旧和现金回收。 本文综合公开信息,尝试用一个 1000P 级别推理集群做一组简化测算:先拆成本,再算收入,最后看 UE。希望通过详细的数据来解释:为什么阿里和腾讯都开始用“产能”和“成本”的方式理解 AI。 01 AI 为什么更像制造业? 传统互联网公司的财务模型,更多是流量模型。产品完成后,新增用户带来的边际成本相对较低,收入端主要依靠广告、会员、游戏、电商佣金或金融科技服务变现。 粗略写成公式: 互联网收入 = 用户数 × 使用时长 × 变现效率; 互联网成本 = 内容、带宽、存储、运营费用和研发费用。 多数场景下,一条信息多被浏览一次、一段视频多被推荐一次,平台并不需要重新“生产”一次内容。规模越大,单位分发成本通常越低。 AI 的公式不一样。一次对话、一次代码生成、一次文件解析、一次智能体执行,本质上都是一次“智能产出”。它需要模型加载、上下文计算、输出生成、缓存管理、内容安全和工具调用。 AI 收入=Token 调用量 × 单位 Token 价格 + 企业服务 / Agent AI 成本=固定资产折旧 + 电费 + 运维人员 + 网络存储 + 推理平台成本 这就更像制造业:先建厂,再投设备,再形成产能,最后通过订单和产能利用率摊薄固定成本。区别只在于,传统制造业生产的是汽车、钢材或化工品;AI 工厂生产的是 token、模型服务和 Agent 任务。 因此,AI 的关键不只是“有没有用户”,而是“用户调用能不能覆盖一次智能产出的成本”。如果调用发生在低价值场景,比如大量免费闲聊,DAU 越高,算力消耗越大;如果调用发生在代码、客服、投研、营销、合同审查等高价值场景,同样的 token 才可能变成利润。 02 成本端:资本开支与折旧让AI 工厂的模式变重 为了把这笔账算清楚,下面只做一个基准模型:假设建设一套约 1000P FP16 理论峰值算力的推理型 AI 集群。 NVIDIA 官方规格显示,H100 SXM 的 FP16 Tensor Core 峰值算力为 1,979 TFLOPS,约等于 1.979P。按这个口径,512 张 H100 的理论峰值算力约为 1013P;如果按 8 卡服务器配置,对应 64 台服务器。 核心公式是:GPU 数量 = 1000P ÷ 1.979P ≈ 506 张,按 8 卡服务器取整为 512 张;服务器数量 = 512 张 GPU ÷ 8 张 / 台 = 64 台。 第一项是 AI 服务器与 GPU,这是最大的资本开支。国内可见报价并不透明,且 H100 受出口管制影响,实际采购方式、合规路径和价格差异很大。为了让模型可算,我采用“8 卡 H100 服务器单价 × 台数”的方式。证券时报曾报道,搭载 H100 的 8 卡整机价格从 300 万元以上降至 230 万—240 万元左右;AIDC 白皮书中对 H100 千卡集群“购买算力设备约 3 亿元”的测算,也对应约 30 万元 / 卡、240 万元 / 台 8 卡服务器。两者可以相互校验。对应公式是:AI 服务器成本 = 64 台 × 240 万元 / 台 = 1.536 亿元 第二项是网络设备。AI 集群不是把 GPU 堆起来就可以。如果网络带宽不足,GPU 会等待数据,理论算力无法转化为有效产能。网络设备包括高速交换机、网卡、光模块、线缆和管理网络。这里采用 AIDC 白皮书中 H100 千卡集群网络设备约 2500 万元的口径,折算成单位 GPU 网络成本约 2.5 万元。对应公式是:网络设备成本 = 512 张 GPU × 2.5 万元 / 张 = 1280 万元。 第三项是存储与安全。推理集群不一定需要训练级存储,但不能没有存储。它需要保存模型权重、请求日志、计费记录、审计记录、RAG 文件和企业知识库缓存。这里按 1PB 可用容量估算,若以企业级分布式存储和安全设备综合成本约 5000 元 / TB 计算,对应约 512 万元。这个结果也与 AIDC 白皮书中千卡集群存储和安全设备约 1000 万元、折算 512 卡约 512 万元基本一致。 第四项是平台软件与液冷 / 机房改造。平台软件包括 GPU 调度、API 网关、计费、限流、日志、监控、安全审核和推理引擎;液冷和机房改造包括高密度机柜、配电、冷板、管路和温控系统。这里按每张 GPU 1 万元的平台与改造成本估算,对应 512 万元。 固定资产建成后,真正的压力不只在一次性投入,还有后续折旧和现金运营成本。 折旧。AI 服务器、网络和存储按 4 年折旧,平台与改造按 5 年折旧,年度折旧约 4390 万元。 电费。按 512 张 H100、单卡 700W、整机与制冷综合系数约 2.0、全年运行 8760 小时、电价 0.6 元 / 度估算,年度电费约 377 万元;考虑网络、存储、PUE 波动和负载差异,取500 万元作为基准。 人员与运维。按 20 人左右的运维、平台、模型工程和客户支持团队,综合人均成本约 60 万元 / 年,年度人员成本约 1200 万元。维修备件与平台运维按固定资产原值约 1%—1.5%估算,另加计费、监控、安全、带宽和外部软件服务,取 600 万元左右。 因此,年度总成本约为:折旧 4390 万 + 电费 500 万 + 人员 1200 万 + 维修及平台 600 万 = 6690 万元。 这个成本结构说明,AI 不是轻资产产品逻辑。设备投下去以后,即使短期调用不足,折旧、人员和平台成本也会持续存在。AI 工厂的第一道门槛,就是有足够高的产能利用率,把这些固定成本摊下去。 03 收入端:不是卖流量,而是卖智能产出 收入端核心问题是:这套 1000P FP16 等效推理集群,一年能生产多少计费 token,这些 token 又能卖多少钱。 token 产能。公开 benchmark 显示,单张 H100 跑 Llama 3.1 8B 的吞吐可以达到 3621 token/s 左右。为了留出模型差异、上下文长度、batch、峰谷调度和实际工程损耗,基准模型采用 3000 token/s / GPU。 产能利用率和调度效率。不同公司差异非常大:大厂自有业务、长约客户、内部调度系统强,利用率可能明显更高;地方智算中心或单一客户依赖项目,利用率可能很低。本文基准假设为:GPU 利用率 50%,调度效率 80%。 由此得到,年度 token 产能=512 × 3000 token/s × 3600 × 24 × 365 × 50% × 80% ≈ 19.4 万亿 token。 价格端。采用当前国内主流 API 的中端口径。DeepSeek 官方价格页中,DeepSeek V4 Pro 当前折扣价为输入 3 元 / 百万 token、输出 6 元 / 百万 token;假设输入 / 输出比例为 70% / 30%,加权单价为 3.9 元 / 百万 token。 因此,年度 token 收入 = 19.4 万亿 ÷ 100 万 × 3.9 元 ≈ 7560 万元。这里暂时不把企业服务费计入基准收入。原因是企业服务费的形式差异很大,可能是专属实例、私有化部署、Agent 席位费、技术服务费或行业解决方案,很难用一个公开价格代表。为了避免把利润算得过于乐观,基准 UE 只计算 token / API 收入;企业服务收入只作为后续利润弹性的来源。 这部分的含义:AI 不是卖流量,而是卖一次次智能产出。token 单价越低,越依赖更高吞吐、更高利用率;任务价值越高,才越有能力用更高单价覆盖推理成本。 04 综合 UE:基准模型刚好跑通,但安全边际并不厚 把成本和收入放在一起,基准模型并不夸张:初始资本开支约 1.77 亿元,年度总成本约 6690 万元,年度 token 收入约 7560 万元。 项目经营利润 = 年度收入 7560 万元 - 年度成本 6690 万元 = 870 万元; 项目经营利润率 = 870 万元 ÷ 7560 万元 ≈ 11.5%。 这里使用“项目经营利润”,而不是净利润。原因是这个测算只看单个算力集群扣除直接相关成本后的结果,尚未计入公司总部研发、销售、管理、财务费用和所得税。它不是完整公司的利润表,但已经足以观察这门生意的单位经济模型。 这个结果解释了阿里和腾讯的判断。阿里强调训练工厂和推理工厂,因为收入增长的前提是先有产能;腾讯强调 AI 不能只看 DAU,因为每一次服务交付都有成本,只有高价值调用才值得占用有限算力。 换句话说,AI 业务不是“调用越多越好”,而是“高价值调用越多越好”。在基准模型下,收入只是略高于成本。只要 token 单价、利用率、调度效率或单卡吞吐出现轻微变化,项目利润就会明显波动。这就是它更像制造业的原因:产能、价格和成本,每一个变量都足够敏感。 05 看 AI 公司,真正要盯住六个变量 如果把 AI 当成制造业式产能生意,关键变量就不是 DAU,而是下面这六个。 第一,单张 GPU 产出效率。同样一张 GPU,跑 7B / 8B 小模型和跑 70B 大模型,token/s 可能相差数倍。单卡产出效率越高,同一批固定资产能生产的 token 越多,单位折旧越低。模型蒸馏、量化、MoE 和推理引擎优化,本质上都是在提升这个变量。 第二,GPU 利用率。利用率决定固定资产有没有被充分摊薄。GPU 闲着的时候,折旧仍然发生;GPU 满载的时候,同样的折旧可以分摊到更多 token 上。吴泳铭说“几乎没有一张卡是空的”,这句话的财务含义是:产能没有闲置,固定成本才有机会被收入覆盖。 第三,调度效率。利用率讲的是“有没有活干”,调度效率讲的是“活能不能被高效安排到合适的卡上”。如果任务排队、显存碎片、模型切换、峰谷波动和多租户隔离处理不好,GPU 看起来有需求,实际有效产出仍然会打折。连续批处理、前缀缓存、KV cache、大小模型路由,都是提高调度效率的工具。 第四,每百万 token 单价。价格是收入端最敏感的变量。低价模型可能只能覆盖基础成本,高价值模型、长上下文、代码、企业工作流和强推理任务,才有更高价格空间。AI 公司不能只追求调用量,还要追求调用质量。 第五,高价值用例和企业服务占比。只卖 token 容易陷入价格战。企业服务、专属实例、Agent 工作流、RAG 知识库、私有化部署,能够把收入从“按 token 计费”升级为“按席位、按任务、按项目、按结果计费”。这部分不一定线性增加算力消耗,却可能显著提高 ARPU。 第六,折旧年限和技术迭代。AI 服务器不是普通服务器。新一代芯片、模型架构和推理框架迭代很快,如果设备还没折旧完,经济价值已经明显下降,就会形成隐性减值压力。投资 AI 算力,不只是看买入价格,还要看回收周期。 长期看,AI 业务能否释放利润弹性,取决于单位 token 成本能否持续下降,以及高价值调用占比能否持续提升。 06 从成本压力,到新的生产能力 我不太愿意把当下 AI 投入简单看成“烧钱”。 它更像新产业早期的产能建设:先建工厂,再跑产线,最后等订单、利用率和单位成本一起改善。短期看,报表折旧会增加,现金流会承压;但如果这些算力最终被高价值场景持续占用,它就不再只是成本,而是新的生产资料。 工业时代,电力和机器放大了人的体力;互联网时代,连接和分发放大了人的注意力。AI 时代,算力和模型正在放大人的知识、判断和执行能力。 真正的变化,可能不会先体现在一句宏大的口号里,而是会体现在报表结构一点点变化中:资本开支变成产能,产能变成调用,调用变成收入,收入最终变成利润。 这大概也是 AI 最值得期待的地方。不是因为它一定轻松赚钱,而是因为它正在把“智能”变成一项可以被建设、计量和商业化的生产能力。 资料来源与关键假设 NVIDIA H100 官方规格:H100 SXM FP16 Tensor Core 1,979 TFLOPS。 澎湃新闻、第一财经等对吴泳铭电话会表述的报道:AI 更像制造业、训练工厂和推理工厂。 新京报对腾讯刘炽平表述的报道:AI 服务每次交付均有成本,不能只看 DAU,高价值用例更重要。 《2025 年中国 AIDC 产业发展白皮书》:H100 千卡集群算力设备、网络、存储、安全、平台软件和液冷改造投入测算。 证券时报报道:8 卡 H100 整机价格约 230 万—240 万元。 中国信通院《智算基础设施发展研究报告》:10 万 GPU 集群功率超过 150MW,年耗电近 16 亿度。 DeepSeek 官方 API 价格页:DeepSeek V4 Pro 当前折扣价格输入 3 元 / 百万 token、输出 6 元 / 百万 token。 VALDI H100 Llama 3.1 8B benchmark:单 H100 平均吞吐约 3621 token/s;本文基准采用 3000 token/s / GPU。 本文所有利用率、调度效率、人员成本、维修平台成本、输入输出比例等均为模型假设,不代表行业均值。 本文为个人观点,仅供参考 本文首发于雪球,作者@防冷涂的蜡0,转载请标明出处




奔流新闻线索报料方式
报料热线:13893646444(微信同号) 13993123681 0931—8159555
报料邮箱:1902937948@qq.com
点赞
|
0