必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟5G手機智能汽車智慧城市會展特約記者

我國大模型成果首次登上《自然》正刊

2026年1月30日 10:30北青網(wǎng)-北京青年報作 者:雷嘉

近日,北京智源人工智能研究院的多模態(tài)大模型成果“通過預測下一個詞元進行多模態(tài)學習的多模態(tài)大模型”上線國際頂級學術期刊《自然》,預計2月12日紙質版正式刊發(fā),這是我國科研機構主導的大模型成果首次在《自然》正刊發(fā)表。

2018年以來,GPT采用“預測下一個詞元(NTP)”的自回歸路線,實現(xiàn)了語言大模型重大突破,開啟了生成式人工智能浪潮。而多模態(tài)模型主要依賴對比學習、擴散模型等專門路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)?一直是未解之謎。

智源研究院提出的Emu3模型,基于“預測下一個詞元”的全新多模態(tài)模型,將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓練一個單一的Transformer。這一架構證明了僅憑“預測下一個詞元”,就能夠同時支持高水平的生成能力與理解能力,并且在同一統(tǒng)一架構下,自然地擴展到機器人操作以及多模態(tài)交錯等生成任務。

實驗顯示,Emu3在生成與感知任務上的整體表現(xiàn)可與多種成熟的任務專用模型相媲美:在文生圖任務中,其效果達到擴散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預測視頻序列,實現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。

這項成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學習,訓練出優(yōu)秀的原生多模態(tài)大模型,對于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。值得一提的是,智源研究團隊對相關研究的多項關鍵技術與模型進行了開源,以推動該方向的持續(xù)研究。

《自然》編輯點評這項研究:Emu3僅基于預測下一個詞元,實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學習,其在生成與感知任務上的性能可與使用專門路線相當,這一成果對構建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

編 輯:章芳
飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權和其它問題,請在相關作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦閱讀

精彩視頻

精彩專題

關于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉載、摘編、復制、鏡像