必讀視頻專(zhuān)題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車(chē)智慧城市會(huì)展特約記者

單卡RTX 4090可運(yùn)行 、96 FPS,Soul App開(kāi)源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashHead

2026年2月24日 13:38CCTIME飛象網(wǎng)

在實(shí)時(shí)數(shù)字人賽道,開(kāi)發(fā)者們?cè)L(zhǎng)期面臨一個(gè)困擾:追求高畫(huà)質(zhì)就需要具備昂貴的 H800 集群,追求低成本就得忍受“面癱”和畫(huà)面崩壞。

為解決這一問(wèn)題,繼開(kāi)源 14B 的實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk 之后,近日,Soul App AI團(tuán)隊(duì)(Soul AI Lab)推出了SoulX-FlashHead。這款1.3B參數(shù)的輕量化模型,能夠在單張消費(fèi)級(jí)顯卡( RTX 4090 )上跑出96FPS的工業(yè)級(jí)速度,同時(shí)實(shí)現(xiàn)高質(zhì)量畫(huà)質(zhì),為行業(yè)提供新的實(shí)時(shí)數(shù)字人方案。

目前,SoulX-FlashHead 的權(quán)重與代碼已全面開(kāi)放:

論文:https://www.arxiv.org/pdf/2602.07449

項(xiàng)目:https://soul-ailab.github.io/soulx-flashhead/

代碼:https://github.com/Soul-AILab/SoulX-FlashHead

模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B

數(shù)據(jù)集:https://huggingface.co/datasets/Soul-AILab/VividHead

SoulX-FlashHead核心亮點(diǎn):

不僅是實(shí)時(shí),更是“算力自由”

在消費(fèi)級(jí)顯卡上,SoulX-FlashHead 的表現(xiàn):

·Lite版本(高速率):單卡4090推理幀率可達(dá)96FPS,僅需6.4G顯存,最高支持3路并發(fā),讓實(shí)時(shí)數(shù)字人模型真正走到了消費(fèi)級(jí)終端上。

·Pro版本(高畫(huà)質(zhì)):單卡5090推理幀率16.8FPS,雙卡可實(shí)時(shí)(25fps+),FID(視覺(jué)質(zhì)量指標(biāo))和Lip-sync(唇形一致指標(biāo))在benchmark上達(dá)到了SOTA,甚至超過(guò)了更大參數(shù)量的模型,解決了“小模型沒(méi)好畫(huà)質(zhì)”的行業(yè)痛點(diǎn)。

原理介紹

如何讓 1.3B 模型“以小博大”?SoulX-FlashHead創(chuàng)新引入了:

訓(xùn)練“先知”:雙向蒸餾機(jī)制 (Oracle-Guided Distillation)

長(zhǎng)視頻生成的“身份漂移”一直是行業(yè)痛點(diǎn)。SoulX-FlashHead引入了“上帝視角”教師模型,利用 Ground Truth 作為先知錨點(diǎn)進(jìn)行強(qiáng)約束。

效果: 像給模型裝了校準(zhǔn)器,無(wú)論視頻多長(zhǎng),人物特征始終穩(wěn)定。

8秒記憶:時(shí)序音頻上下文緩存 (TACC)

流式生成中,音頻切片太短會(huì)導(dǎo)致口型抖動(dòng)。

創(chuàng)新: 強(qiáng)制模型緩存 8秒 歷史音頻特征,補(bǔ)償上下文缺失。

體驗(yàn): 解決“嘴瓢”和“對(duì)不上號(hào)”問(wèn)題,開(kāi)播即進(jìn)入理想狀態(tài)。

高質(zhì)量數(shù)據(jù)底座:自研 VividHead 數(shù)據(jù)集

從 10,000+ 小時(shí)素材中精煉出 782 小時(shí)高質(zhì)量音畫(huà)數(shù)據(jù):

嚴(yán)苛篩選: 經(jīng)過(guò)切分、DWpose 關(guān)鍵點(diǎn)、唇形一致分?jǐn)?shù)過(guò)濾等多個(gè)處理步驟,為模型提供了最純凈的“養(yǎng)料”。

客觀表現(xiàn)

在 HDTF 與 VFHQ 兩大權(quán)威數(shù)據(jù)集的實(shí)測(cè)中,SoulX-FlashHead 展現(xiàn)了出色的表現(xiàn):

畫(huà)質(zhì)新標(biāo)桿:在高清視頻(HDTF)評(píng)測(cè)中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成績(jī)刷新紀(jì)錄,視覺(jué)細(xì)膩度超過(guò) 一些“大參數(shù)”模型。

口型精準(zhǔn)捕捉:面對(duì)野外復(fù)雜場(chǎng)景(VFHQ),憑借獨(dú)創(chuàng)的“時(shí)序音頻上下文緩存”策略,其 Sync-C 得分高達(dá) 5.60,大幅領(lǐng)先此前相關(guān)工作,解決對(duì)不上口型的尷尬。

速度“快”:僅憑 1.3B 的輕量化體量,Lite 版本在單張 RTX 4090 上跑出了 96 FPS 的吞吐量。這不僅是實(shí)時(shí)基準(zhǔn)(25 FPS)的 近4倍,推理效率更是行業(yè)同類(lèi)主流模型的 100倍以上。

應(yīng)用場(chǎng)景:

“人人可用”的數(shù)字人技術(shù)

今年1月,Soul AI Lab開(kāi)源了實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk,能夠?qū)崿F(xiàn)0.87s亞秒級(jí)超低延時(shí)、32FPS高幀率,并支持超長(zhǎng)視頻穩(wěn)定生成。

對(duì)比SoulX-FlashTalk,SoulX-FlashHead的價(jià)值在于,將高保真技術(shù)進(jìn)一步從“算力機(jī)房”解放到了“個(gè)人工作站”,讓更廣泛的場(chǎng)景應(yīng)用成為可能:

·7x24h矩陣直播:個(gè)人主播用一臺(tái)游戲 PC,即可搭建高保真電商直播間。

·游戲NPC引擎:1.3B 體積極易集成,NPC 毫秒級(jí)響應(yīng),且不搶占核心渲染資源。

·AI一對(duì)一外教:支持 15 種語(yǔ)言,實(shí)時(shí)將音頻轉(zhuǎn)化為生動(dòng)的教學(xué)畫(huà)面。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話(huà)為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專(zhuān)題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像