ChatGPT究竟有多烧钱?大模型训练一次要花费200-1200万美元!
编辑:宝星微科技 | 发布时间:2023-02-14 14:00 | 浏览次数:15
随着以ChatGPT为代表的生成式AI的兴起,其背后基于大模型的AI已经成为行业投资的方向。
所谓的“大模型”通常是在未标记的大数据集上通过自监督学习来训练的。之后,在其他场景的应用中,开发人员只需要对模型进行微调,或者使用少量的数据进行二次训练,就可以满足新的应用场景的需求。
据腾讯研究院介绍,目前的AI大部分是针对特定场景进行训练,生成的模型很难转移到其他应用中,属于“小模型”的范畴。整个过程不仅需要大量的人工参数输入,还需要给机器输入大量的标注数据,这在一定程度上降低了AI研发的效率且提高了成本。
相比之下,大模型的改进可以使下游所有小模型受益,大大提高AI人工智能的使用场景和研发效率。
同时,在大模型框架下,ChatGPT所使用的每一代GPT模型的参数数量迅速膨胀,预训练的数据量和成本需求也迅速增加。
国盛证券的计算机分析师刘高昌和杨然在2月12日发表的《Chatgpt需要多少计算能力》报告中估计,GPT-3的一次培训成本约为140万美元,而一些更大的LLM模型的成本从200万美元到1200万美元不等。这对全球科技巨头来说并不便宜,但在可接受的范围内。
初期投入金额接近10亿美元,每天电费还需要几万美元
国盛证券估计,1月份ChatGPT平均每天有1300万独立访客使用,所对应的芯片需求超过3万块英伟达A100GPU,初始投资成本约8亿美元,每日电费约5万美元:
1)计算假设:
Nvidia A100:根据OneFlow的说法,目前nvida100是AWS最具成本效益的GPU选项。
Nvidia DGXA100服务器:配备8块A100 gpu, AI计算性能约为5PetaFLOP/s,最大功率约为6.5kw,价格约为19.9万美元/台。
标准机柜:19英寸42U以6U左右的DGXA100服务器为例,标准机柜可容纳7台左右DGXA100服务器。单个标准机柜的价格为140万美元,拥有56个A100 gpu,计算性能为35PetaFLOP/s,最大功率为45.5kw。
2)芯片需求:
日访问量:根据Similarweb的数据,截至2023年1月底,chat.openai.com在2023/1/27至2023/2/3周吸引了2500万人次的日访问量。假设在当前的稳定状态下,每个用户每天询问大约10个问题,那么每天将有大约2.5亿个查询。
A100运行小时:假设每个问题平均30个单词,单个单词在A100GPU上消耗约350ms, A100GPU每天总共运行729,167个小时。
A100需求:每天需要729167 /24= 30382个Nvidia A100 gpu同时计算,以满足ChatGPT当前的流量。
3)运营成本:
初始计算能力输入:以前面提到的Nvidia DGXA100计算,30382 /8= 3798台服务器,对应3798 /7=542个机柜。因此,为了满足ChatGPT目前数千万用户的咨询量,初始算力输入成本约为$542*140= $ 7.59亿。
每月电费:用电量542*45.5kw*24h= 591864 kwh/天。使用哈希率指数统计数据,我们假设美国的平均工业电价约为0.08美元/千瓦时。那么,每天的电费约为2,369,640*0.08= $47,000 /天。
培训费用:公有云下,单次数百万到数千万美元
根据参数和代币的数量,国盛证券估计GPT-3培训的成本约为140万美元;对于一些使用相同公式的大型LLM模型,培训成本从200万美元到1200万美元不等:
1)基于参数数和令牌数,根据OneFlow估算,GPT - 3训练的成本约为139.8万美元,训练每个令牌的成本通常在6 N左右(而推理的成本约为2 N),其中N为参数数@ LLM。假设在训练过程中,FLOPS利用率模型为46.2%,对于TPUv4芯片上的训练,PaLM模型(有5400亿个参数)。
2)对于一些更大的LLM模型(如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM),采用同样的计算公式,可得出,训练成本介于200万美元至1200万美元之间。
国盛证券认为,在公有云上,对于谷歌等全球科技企业来说,数百万到数千万美元的培训成本并不便宜,但仍是可以接受的,并不昂贵。
(本文来自华尔街见闻)