電力、芯片、數據與延遲成四大限制因素，Scaling Law 能否延續至2030年

近年來，隨著人工智能（AI）模型能力的顯著提升，計算資源的增長為其性能帶來了巨大提升。由於規模化的持續增長，許多人工智能實驗室以每年約4倍的速度擴大訓練計算規模，這一增速甚至超越了歷史上一些最快的技術擴展，例如1980至1987年手機普及的每年2倍增長、2001至2010年太陽能裝機量的每年1.5倍增長，以及2008至2015年人類基因組測序的每年3.3倍增長。

四大限制因素

在最近的一份報告中，Epoch AI 研究了這種每年約4倍的訓練計算增長速度是否能夠持續到2030年，並指出了四個關鍵的制約因素：電力供應、芯片製造能力、數據稀缺以及「延遲牆」，即訓練過程中的計算延遲。

電力限制
2030年，數據中心的電力需求可能會達到1至5 GW，以支持2e28至3e29 FLOP的訓練運行（GPT-4的訓練規模估計約為2e25 FLOP）。地區性的分布式訓練可以利用多個地區的電力基礎設施來擴大規模。根據美國數據中心的擴展預測，美國的分布式網絡可能支持2至45 GW的電力供應，從而實現2e28至2e30 FLOP的訓練運行。這需要多年的規劃和對新發電廠的投資。
芯片製造能力
人工智能芯片提供了訓練大型AI模型所需的計算能力。然而，擴展芯片生產受到先進封裝技術和高帶寬內存的限制。即便如此，隨著製造商擴大規模並提高硬件效率，1億個H100等效的GPU可能專門用於訓練，這能夠支持高達9e29 FLOP的運行。不過，這一預測存在很大的不確定性，因為H100 GPU的供應範圍可能從2000萬到4億個不等，相當於1e29到5e30 FLOP。
數據稀缺
訓練大型AI模型需要海量數據。目前網絡上大約有500T的獨特文本數據，預計到2030年將增加50%。多模態學習將有助於擴展數據量，數據規模可能增長三倍。考慮到數據質量、可用性等因素，2030年可用於訓練的token數量估計在4億萬億到20億億之間，這將支持6e28到2e32 FLOP的訓練規模。
延遲牆
延遲牆是一種由計算過程中不可避免的延遲所引起的速度限制。隨著模型規模的擴大，訓練需要更多順序操作。報告估計，當前的GPU設置下，累積延遲會將訓練運行的FLOP上限設定在3e30到1e32。超越這一上限需要新的網絡拓撲結構以減少通信延遲。

未來的發展與挑戰

報告指出，儘管存在這些限制因素，但若能有效應對，到2030年實現2e29 FLOP的訓練運行是可行的，這將代表目前AI模型的10000倍擴展。這一擴展將標誌著AI技術歷史趨勢的持續，並有可能帶來前所未有的突破性進展。