每日微信報
人物專訪監(jiān)管
制造芯片
6G 運營
大數(shù)據物聯(lián)網
移動互聯(lián)網量子
云計算互聯(lián)網
報告衛(wèi)星

我國大模型成果首次登上《自然》正刊

2026年1月30日 10:30北青網-北京青年報作者：雷嘉

近日，北京智源人工智能研究院的多模態(tài)大模型成果“通過預測下一個詞元進行多模態(tài)學習的多模態(tài)大模型”上線國際頂級學術期刊《自然》，預計2月12日紙質版正式刊發(fā)，這是我國科研機構主導的大模型成果首次在《自然》正刊發(fā)表。

2018年以來，GPT采用“預測下一個詞元（NTP）”的自回歸路線，實現(xiàn)了語言大模型重大突破，開啟了生成式人工智能浪潮。而多模態(tài)模型主要依賴對比學習、擴散模型等專門路線，自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)？一直是未解之謎。

智源研究院提出的Emu3模型，基于“預測下一個詞元”的全新多模態(tài)模型，將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間中，并從零開始，在多模態(tài)序列混合數(shù)據上聯(lián)合訓練一個單一的Transformer。這一架構證明了僅憑“預測下一個詞元”，就能夠同時支持高水平的生成能力與理解能力，并且在同一統(tǒng)一架構下，自然地擴展到機器人操作以及多模態(tài)交錯等生成任務。

實驗顯示，Emu3在生成與感知任務上的整體表現(xiàn)可與多種成熟的任務專用模型相媲美：在文生圖任務中，其效果達到擴散模型水平；在視覺語言理解方面，可以與融合CLIP和大語言模型的主流方案比肩。此外，Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型，Emu3通過自回歸方式逐詞元（token）預測視頻序列，實現(xiàn)基于因果的視頻生成與延展，展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。

這項成果表明，只采用自回歸路線，就可以統(tǒng)一多模態(tài)學習，訓練出優(yōu)秀的原生多模態(tài)大模型，對于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。值得一提的是，智源研究團隊對相關研究的多項關鍵技術與模型進行了開源，以推動該方向的持續(xù)研究。

《自然》編輯點評這項研究：Emu3僅基于預測下一個詞元，實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學習，其在生成與感知任務上的性能可與使用專門路線相當，這一成果對構建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

編輯：章芳

飛象網版權及免責聲明:
1.本網刊載內容，凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有，未經允許禁止轉載、摘編及鏡像，違者必究。對于經過授權可以轉載，請必須保持轉載文章、圖像、音視頻的完整性，并完整標注作者信息和飛象網來源。
2.凡注明“來源：XXXX”的作品，均轉載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題，請在相關作品刊發(fā)之日起30日內與本網聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進行的“內容核實”、“商務聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權。