像OpenAI的ChatGPT、谷歌(177.07, 1.94, 1.11%)的Gemini Ultra這樣的高級AI模型,訓練它們通常需要數百萬美元的費用,且該成本還在迅速上升。
隨著計算需求的增加,訓練它們所需的計算能力的費用也在飆升。為此,AI公司正在重新考慮如何訓練這些生成式AI系統(tǒng)。在許多情況下,這些策略包括在當前的增長軌跡下降低計算成本。
訓練成本是如何確定的?
斯坦福大學與研究公司Epoch AI合作,根據云計算租金估算了AI模型的訓練成本。雙方所分析的關鍵因素包括模型的訓練時長、硬件的利用率和訓練硬件的價值。
盡管許多人猜測,訓練AI模型的成本變得越來越高,但缺乏全面的數據來支持這些說法。而斯坦福大學發(fā)布的《2024年AI指數報告》正是支持這些說法的罕見來源之一。
不斷膨脹的訓練成本
去年,OpenAI的GPT-4培訓成本估計為7840萬美元,遠高于谷歌PaLM (540B) 的訓練成本。谷歌PaLM較GPT-4僅早一年推出,但訓練成本為1240萬美元。
相比之下,2017年開發(fā)的早期AI模型Transformer的訓練成本為930美元。該模型在塑造當前所使用的許多大型語言模型的體系結構方面起著基礎性作用。
谷歌的AI模型Gemini Ultra的訓練成更高,達到了驚人的1.91億美元。截至2024年初,該模型在幾個指標上都超過了GPT-4,最引人注目的是在“大規(guī)模多任務語言理解”(MMLU)基準測試中勝出。這一基準是衡量大型語言模型能力的重要標尺。例如,它以評估57個學科領域的知識和解決問題的熟練程度而聞名。
訓練未來的AI模型
鑒于這些挑戰(zhàn),AI公司正在尋找新的解決方案來訓練語言模型,以應對不斷上漲的成本。
其中的方法有多種,比如創(chuàng)建用于執(zhí)行特定任務的較小模型,而其他一些公司正在試驗創(chuàng)建自家的合成數據來“投喂”AI系統(tǒng)。但到目前為止,這方面還沒有取得明確的突破。
例如,使用合成數據的AI模型有時會“胡言亂語”,引發(fā)所謂的“模型崩潰”。