云厂商GPU折旧年限争议本质是对算力需求的分歧

LEE

最近,某全球知名机构做空相关标的并披露英伟达看跌期权,引发了大家对云厂商GPU折旧年限合理性的讨论。我们对这个议题很感兴趣,因为AI很明显是未来趋势,完全避开这个概念是不理性的。不过真正研究下里会发现又非常多的疑问。

今年年初我们在一篇关于移动运营商的文章中,重点提到过运营商延长折旧年限的事情。从财务上,如果将折旧年限延长,那么每年摊销下来的资本开支就会减少,因为分母变大了,所以同样营收的情况下利润会大幅增加。比如,亚马逊在2024年延长折旧年限后,每季度新增6-7亿美元利润;2025年缩短后,净利润每月减少1-3亿美元。正因如此,每次大规模延长折旧年限都会引起大家的讨论。

现在国际上主流厂商的折旧年限都各不相同。Meta采用的是5.5年折旧;微软、谷歌长期维持6年左右;亚马逊2024年从5年上调至6年,2025年又回调至5年(理由是完成服务器与网络设备使用寿命研究);然后Oracle、Call Wave采用6年折旧;Nebulas、艾伦则为4年折旧。

如果回到更基本的问题,到底哪些因素决定GPU的折旧?

我们看下来觉得有这几个因素:物理寿命、平均利用率、任务分化及电力电网基础设施瓶颈等四大因素。抛开物理寿命这些非人为可以影响的因素,我觉得最核心的还是市场对算力的需求。

国信证券有一份报告中给出了一组推测数据,说如果GPU长期维持70%以上高利用率(如AI训练场景),服务器寿命最多3年;利用率较低时(如非核心推理场景),寿命可能延长到5年。  可见使用率对使用寿命的影响是直接的。而且,训练场景下对算力的消耗远高于推理场景。很多云厂商,比如谷歌、微软,他们通过“训练用新卡、推理用旧卡”平衡利用率,旧GPU利用率降至50%以下,所以他们就可以采用5-6年折旧;一些新型租赁厂商(如Nebulas),因为他们业务单一依赖高负载租赁,利用率常年超60%,所以选择4年折旧。从周期看,GPU合同期内0.5-1.5年以训练为主(需新卡),3.5-4.5年以推理为主(旧卡是可以满足的)。

如果这个观察是对的,那么对算力需求的核心问题在于,未来全世界模型的训练和推理任务的占比是如何变化的?至少我们从各大卖方报告看到的数据趋势看,2024年之前训练是主力,2024年之后推理是算力需求主力。如果推理是主力,那么旧卡的使用场景就会很多,这样延长折旧年限其实是合理的。比如H100是上一代GPU,它肯定不适配最新的训练任务,但在大多数推理场景中仍能适用,所以它的价格依然很坚挺。微软V100 GPU退役前也长期承担推理任务,使用寿命达7-8年。

我们的一个观察是,大家对折旧年限的争议,本质还是对未来全球算力需求的争议。考虑一个极端情况,如果全球大模型都停止训练,所有的算力都用于推理,我们对算力,特别是英伟达高端产品的需求是增加还是减少?这是一个核心问题。我个人是乐观的,这其实很类似当年微信起来后,大家都说运营商怕是利润要腰斩了。其实我们现在知道,网络流量的需求已经呈几何倍数的增加了。

不过这里仍然留下了很多问题。特别是中美两国AI竞争的格局会是怎样?微软的CEO反复提到,美国不缺资本,不缺技术,不缺人才,他们缺电!因为缺电所以导致大量的算力闲置。中国有开源生态,成本非常低,终端数据丰富,但我们的算力和芯片技术以及创新文化方面始终有差距。

总之,GPU折旧不是很大的事情,本质还是大家对算力乃至AI未来前景的分歧。

发表你的第一个评论