必讀視頻專題飛象趣談光通信人工智能低空經濟5G手機智能汽車智慧城市會展特約記者

誰在消耗5萬億模型算力?

2026年3月9日 07:0521世紀經濟報道

2026年2月9日至2月15日,在線人工智能托管平臺OpenRouter發(fā)布了一組數據:中國大模型的單周調用量達到4.12萬億Token,歷史上首次超過美國模型的2.94萬億Token。

OpenRouter是一個聚合全球大模型接口的平臺,被稱為人工智能界的“超級接口”。開發(fā)者不需要逐一去注冊大模型公司的賬號,只需通過該平臺的統一接口,就能自由調用全球各家公司推出的各類模型,因此,該平臺的使用量數據通常被視為全球大模型受歡迎程度和真實應用強度的風向標。

緊接著的2月16日至2月22日這一周,中國大模型的周調用量進一步沖高至5.16萬億Token,三周內增長了127%,在當周全球大模型周調用量排名前五的榜單中,MiniMax M2.5、月之暗面Kimi K2.5、智譜GLM-5與深度求索DeepSeek V3.2占據了四個席位。

根據官方用戶數據,在OpenRouter平臺近47.17%的用戶來自美國、中國開發(fā)者僅占6.01%的背景下,這組數據反映出海外開發(fā)者對中國模型的使用意愿正在快速上升。

Token是人工智能處理語言的基本單元。在算力市場中,Token調用量是衡量大模型使用強度、商業(yè)價值與滲透深度的核心指標,海外開發(fā)者對中國模型的高頻調用,標志著人工智能產業(yè)的重心正在發(fā)生轉移,行業(yè)不再單純比拼構建大模型時的“一次性訓練成本”,而是進入了高頻度、常態(tài)化的“應用推理”階段。

應用重心的遷移直接導致了下游采購標準的轉向,國產AI芯片廠商也由此獲得了加快進入市場的機會。

五萬億Token流向了哪里

要厘清這五萬億Token的去向,首先需要觀察用戶使用人工智能的方式發(fā)生了什么變化。

根據OpenRouter與風險投資機構a16z聯合發(fā)布的《2025 AI使用報告》,該平臺處理的編程任務Token占比已從2025年初的11%增加到了50%以上,成為最大的單一使用品類。這一轉變背后,是人工智能應用模式從“問答式”向“智能體(Agent)”模式的切換。

在早期的問答模式下,用戶提一個問題,模型給出一個回答,單次交互消耗的Token通常在幾百到幾千個之間。一旦用戶停止提問,消耗也就隨之停止。但進入智能體模式后,人工智能開始在后臺持續(xù)執(zhí)行多步驟任務。

上海一家算力芯片廠商的負責人告訴記者,以編程場景為例,一個智能體在接收到指令后,會經歷編寫代碼、運行測試、識別報錯、自我修正、再次運行的循環(huán),為了讓機器記住此前的操作,每次調用都需要攜帶完整的對話歷史。

比如,目前國產大模型諸如智譜GLM-5等新一代模型已經支持200K(約20萬Token)的超長上下文窗口。這種多輪自我修正和工具鏈級聯的模式,使得單次活躍會話的Token吞吐量呈幾何級數增長。

另外,多模態(tài)應用的落地則進一步推高了消耗量。根據公開數據,年初爆火的Seedance 2.0視頻模型生成一條10秒、1080p規(guī)格的視頻,大約需要消耗35萬Token。

視頻生成場景單位時間內產生的Token消耗,是傳統文本問答的數百倍。

“當前數萬億Token級別的調用量,已不再主要由測試性場景構成,而是由一批高頻、規(guī);、可持續(xù)付費的商業(yè)應用所支撐!备ト羲固厣忱模‵rost & Sullivan)中國業(yè)務主管合伙人兼董事總經理陸景向經濟觀察報記者表示。

陸景介紹,從頭豹研究院對國內大模型商業(yè)生態(tài)的調研來看,目前集中買單的領域主要包括互聯網、金融、跨境電商與娛樂行業(yè)。

具體場景則涵蓋了以下三類:第一類是企業(yè)級應用,如智能客服、智能營銷、代碼輔助開發(fā)、辦公自動化工具等,這類應用在金融、電商、游戲行業(yè)已實現規(guī);渴穑坏诙愂腔ヂ摼W平臺中的生成式內容服務,包括智能搜索、對話式助手與虛擬角色;第三類是AIGC(人工智能生成內容)生產工具,如短視頻腳本生成、廣告文案創(chuàng)作、跨境電商商品描述生成等。

這些行業(yè)的共同特征是,業(yè)務流程中存在高比例的文本或多模態(tài)內容生成需求,且企業(yè)能夠承接大模型服務產生的算力成本。

2026年2月10日,在鄭州舉行的“國產萬卡算力賦能大模型發(fā)展研討會”上,中國科學院自動化所研究員陳盈盈表示,驅動行業(yè)發(fā)展的核心動力依然是大算力、大數據與大參數。但隨著模型參數量增長帶來的性能提升進入瓶頸期,行業(yè)正邁向智能體、合成數據和推理計算,數據決定了人工智能的高度,環(huán)境將決定模型演進的方向。

應用模式的改變,解釋了調用量為何飆升,那為何國產大模型又能在新的范式下,承接住來自全球高頻的調用需求呢?

前述算力芯片廠商負責人告訴記者,目前,MiniMax M2.5、Kimi K2.5等國產模型普遍采用了“混合專家(MoE)”架構。與傳統的稠密模型(Dense Model)在每次運算時都要激活全部參數不同,MoE架構通過按需激活特定的專家網絡,使推理時的顯存占用降低了約60%,吞吐量得到顯著提升。

稠密模型的設計邏輯是,處理每一個輸入請求時,神經網絡中的每一個參數都必須參與計算。這意味著隨著模型規(guī)模的增大,所需的算力與顯存開銷會同步呈線性增長。

混合專家架構則改變了這種全量運算的模式,它將模型參數劃分為多個功能組,即“專家”,在執(zhí)行具體任務時,路由系統會識別需求并只激活與之相關的部分參數。這種分工機制使得模型可以在保持巨大參數量的同時,大幅降低單次推理所需的有效算力。

技術上的優(yōu)化直接反映在了售價上。目前中國模型的輸入價格約為0.3美元/百萬Token,而部分海外同類產品的價格在5美元左右。此外,電力成本也是一個變量,中國西部算力節(jié)點的電力成本約為每度0.2元至0.3元,而歐美地區(qū)的成本在1元至1.5元之間。

這種成本優(yōu)勢促成了供需關系的再平衡。2026年春節(jié)期間,國產大模型迎來密集發(fā)布潮。2月11日,智譜上線底座模型GLM-5;2月12日,MiniMax開源文本模型M2.5;2月14日,字節(jié)跳動發(fā)布豆包大模型2.0系列,與此同時,大廠圍繞AI應用的紅包戰(zhàn)同步打響:百度投入5億元,騰訊元寶10億元,阿里推出30億元免單計劃。

密集的應用落地也拉動了算力消耗的急劇攀升。公開數據顯示,中國日均Token消耗從2024年初的1000億攀升至2026年2月的180萬億級別,在這種爆發(fā)式的需求驅動下,此前深陷價格戰(zhàn)的國內大模型廠商開始集體調頭。

比如,2026年2月12日,智譜AI在發(fā)布新模型的同時,宣布上調其API(應用程序編程接口)調用價格,部分海外訂閱價格漲幅達到30%至60%,API調用價格漲幅最高達到100%。智譜對此回應稱,用戶規(guī)模與調用量快速提升,公司需同步加大算力投入。另外,月之暗面旗下的Kimi K2.5發(fā)布不到一個月,其海外收入便超過了國內收入。

也就是說,大模型公司正在告別虧本引流的價格戰(zhàn),開始有了實打實的業(yè)務收入。五萬億Token的流向表明,人工智能正在從單純的對話框,轉變?yōu)榻鹑、電商與編程場景中在后臺自動運轉的工業(yè)流程。

而順著這股成倍增長的數據流往上游看,那些承載運算任務的智算中心,挑選算力硬件的眼光也發(fā)生了變化。

算力采購的標準變了

算力市場的核心指標正在從搶奪計算卡轉向核算單位產出成本。

2025年,中國GPU算力租賃市場經歷了價格下調。比如,英偉達H100計算卡的租賃價格從高峰時的每小時90多元人民幣,跌至15元到20元;A100的價格則降至每小時3元到5元。

這種價格走勢背后是采購邏輯的更替。在大模型開發(fā)初期,由于高性能芯片稀缺,市場處于資源囤積階段,追求的是單卡的算力峰值(FLOPS)。但當推理負載成為常態(tài)后,企業(yè)開始核算總擁有成本(TCO)。

“客戶不再只盯著單卡的絕對算力峰值,而是開始計算每投入一元錢能換取多少吞吐量,每消耗一瓦電能處理多少Token!鼻笆鏊懔π酒瑥S商負責人向經濟觀察報記者表示。

該負責人認為,當前的算力需求呈現出推理與渲染的雙重特征。除了文本生成,AI智能體云底座、云手機、數字孿生及工業(yè)仿真等場景對實時交互的需求,正在拉動對全功能GPU的采購。進入推理階段之后,國產芯片迎來了切入窗口——訓練階段行業(yè)高度依賴英偉達的CUDA生態(tài),而推理任務則更聚焦于能耗、穩(wěn)定性和供應安全。

TrendForce集邦咨詢分析師龔明德在回復經濟觀察報記者采訪時亦預計,2026年推理型AI服務器在整體出貨結構中的比重有望提升至44%,相較于2025年上升3個百分點。

龔明德認為,相比追求算力密度的大模型訓練集群,推理型服務器在底層硬件架構設計上更注重性價比和能效比,推理端對高端封裝(如CoWoS)和高帶寬內存(HBM)的嚴苛要求有所下調。

在龔明德看來,這種規(guī)格的放寬,有利于中國本土企業(yè)在取得HBM受限的情況下,發(fā)展中等規(guī)模算力的推理芯片,并在互聯網、車載系統等領域提供機會。

隨著行業(yè)重心轉向推理和微調,企業(yè)客戶在規(guī)劃智算中心預算時,投入結構也發(fā)生了改變。

對此,陸景分析稱,過去在訓練階段,投入主要集中在高端訓練型GPU集群、超高速互聯網絡以及高性能存儲系統,以滿足長時間、高并行度的訓練需求。而在推理需求增長的背景下,企業(yè)開始更多采用推理優(yōu)化型GPU、國產AI芯片或異構算力組合。在投入結構中,軟件平臺、算力調度、模型優(yōu)化工具以及推理加速框架的占比逐步提升。

陸景認為,國內人工智能芯片在底層軟件生態(tài)建設方面,正處于由可用向規(guī)模化商用過渡的階段,主要國產芯片廠商已構建起包括驅動層、編譯器、算子庫、運行時環(huán)境在內的基礎工具鏈體系,能夠支持大模型訓練、推理及智算中心部署。

目前的算力采購也已經從單卡送測進入了系統級工程交付階段。由于推理任務對響應延遲極其敏感,萬卡規(guī)模的集群在協同工作中,網絡通信和散熱能力往往比單張計算卡的“跑分”更具決定性。

2026年2月5日,國家超算互聯網鄭州核心節(jié)點正式上線試運行。在這個節(jié)點上,部署了3套由中科曙光(84.190, -0.60, -0.71%)(603019.SH)提供的scaleX萬卡超集群,最大可提供超過3萬張國產加速卡的算力,這是全國首個實現3萬卡部署且實際投入運營的國產AI算力池。

中科曙光高級副總裁李斌告訴經濟觀察報記者,鄭州核心節(jié)點的上線,驗證了國產算力基礎設施的工程化能力,行業(yè)已從早期的單點突破,轉向大規(guī)模落地部署。此前各家廠商在硬件設計、軟件棧和互連協議上自成體系,導致算力資源難以跨平臺調度。

“萬卡集群的落地不僅是IT技術問題,更是冷卻、供電等跨學科的工程化挑戰(zhàn)!崩畋髲娬{,如果單點技術出現短板,會直接拖累整個系統的效率,目前的系統研制突破了傳統IT技術與其他工程技術的結合瓶頸。

目前,該國產算力系統已完成了千款應用的適配。根據國家超算互聯網鄭州核心節(jié)點運維主任安磊的介紹,超算互聯網第一期已有645家第三方商家適配了該節(jié)點,超過7200款軟件和源碼接入。

在這些資源的支持下,已有超過70%的國產新能源汽車在該平臺上進行流體和碰撞仿真實驗,例如,針對國家新出臺的規(guī)范可能要求禁用新能源車隱藏把手的變化,車企需要利用大集群模擬門把手改為開放式后對能效與風阻的影響。

此外,該集群還支撐了國產羽絨服頂級面料的研發(fā),以及為國際奢侈品品牌提供智算資源支持其在國內的優(yōu)化設計。

這種由下游應用爆發(fā)倒逼上游基建升級的邏輯,也正在轉化為國產芯片廠商的業(yè)務收入。比如,根據2026年初中國移動(95.610, 0.00, 0.00%)的人工智能通用計算設備集采結果,在總價值超過50億元的訂單中,采購推理型AI服務器7499臺。其中,華為昇騰系廠商斬獲了34億元的份額,昆侖技術等國產企業(yè)的占比顯著提升。

另外,國產算力廠商的業(yè)績也在過去一年實現了爆發(fā)性增長。比如,2月27日,寒武紀發(fā)布的業(yè)績快報顯示,2025年營收增長453.21%,達到64.97億元,并實現了20.59億元的歸母凈利潤,這是該公司上市以來的首次年度盈利,寒武紀表示,收入增長受益于人工智能行業(yè)算力需求的攀升,公司推動了應用場景的落地。類似地,摩爾線程、沐曦股份、海光信息2025年度的業(yè)績表現亦均有大幅提升。

瀚博半導體創(chuàng)始人兼CEO錢軍則向經濟觀察報記者表示,物理人工智能正接近關鍵拐點,實現路徑依賴于從虛擬到現實的閉環(huán)。瀚博半導體成立于2018年12月,是一家國產高性能GPU芯片提供商。

錢軍表示,圖形渲染作為構筑仿真與數字孿生的基礎,是連接人工智能與物理世界的第一步,該公司已在AI推理與云渲染領域建立了基本盤,目前其產品已在超10家頭部互聯網公司、多家運營商和央國企落地。

根據伯恩斯坦(Bernstein)發(fā)布的《2025年中國AI芯片產業(yè)報告》,中國本土AI芯片品牌市場滲透率已從2024年的約29%提升至2025年的42%。這也意味著,在數萬億Token持續(xù)消耗的背后,國產算力通過對行業(yè)應用的適配和成本結構的優(yōu)化,正在完成從邊緣備選向市場首選的跨越。

編 輯:高靖宇
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦閱讀
  • 2026十大科技趨勢

    2026 十大科技趨勢,定義新一年的每一次突破。祝大家馬年大吉,馬到成功!初八啟新程,萬事皆順遂!

    [詳細]

精彩視頻

精彩專題

關于我們廣告報價聯系我們隱私聲明本站地圖

CCTIME飛象網 CopyRight © 2007-2026 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經書面許可,禁止轉載、摘編、復制、鏡像