必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

突破顯存與穩(wěn)定性瓶頸,Soul 上市進(jìn)程展現(xiàn) AI 多模態(tài)研發(fā)實(shí)力

2026年4月22日 12:10CCTIME飛象網(wǎng)

  在實(shí)時(shí)數(shù)字人走向規(guī);涞氐倪^程中,長時(shí)穩(wěn)定生成、恒定顯存占用與低成本部署已成為行業(yè)核心訴求,AI 技術(shù)的持續(xù)突破正不斷破解這些關(guān)鍵痛點(diǎn)。近期,Soul AI Lab 推出全新開源模型 SoulX-LiveAct,通過獨(dú)創(chuàng)機(jī)制實(shí)現(xiàn)小時(shí)級(jí)穩(wěn)定流式生成與可控算力消耗,相關(guān)技術(shù)成果在 Soul 上市推進(jìn)過程中,成為平臺(tái)多模態(tài) AI 能力的重要體現(xiàn)。在 Soul IPO 穩(wěn)步前行的階段,這套兼顧穩(wěn)定性與實(shí)用性的技術(shù)方案,不僅為行業(yè)提供了可落地的工程化路徑,也進(jìn)一步豐富了平臺(tái)的技術(shù)敘事與核心競爭力。

  如何讓數(shù)字人視頻在流式實(shí)時(shí)推理下做到小時(shí)級(jí)甚至無限長度、同時(shí)保持身份一致/細(xì)節(jié)穩(wěn)定/口型精準(zhǔn)?此次開源的SoulX-LiveAct能夠在 2 張 H100/H200 條件下,達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,且支持輸入圖像、音頻和指令驅(qū)動(dòng),生成表情生動(dòng)、情緒可控、擁有豐富全身動(dòng)作的實(shí)時(shí)數(shù)字人視頻。通過不斷開源不同技術(shù)路線的模型,Soul AI團(tuán)隊(duì)為開源社區(qū)及行業(yè)提供了差異化的實(shí)時(shí)數(shù)字人方案,覆蓋各種硬件條件、不同應(yīng)用落地的開發(fā)者實(shí)際需求。

  • Project Page: https://soul-ailab.github.io/soulx-liveact/ • Technical Report: https://arxiv.org/abs/2603.11746 • Source Code: https://github.com/Soul-AILab/SoulX-LiveAct • Hugging Face: https://huggingface.co/Soul-AILab/LiveAct •

  SoulX-LiveAct 三大亮點(diǎn)

  1) 恒定顯存:真正支持無限時(shí)長生成

  過去的 AR diffusion 往往依賴 KV cache 記憶歷史信息,但緩存會(huì)隨視頻長度線性增長——視頻一長,不是爆顯存,就是不得不丟歷史,穩(wěn)定性隨之崩掉。SoulX-LiveAct 從“條件傳播方式”和“歷史記憶管理”兩個(gè)層面解決了這一瓶頸,創(chuàng)新機(jī)制使系統(tǒng)既能“帶得動(dòng)”長時(shí)歷史,又不會(huì)因緩存膨脹而拖慢推理,從而在機(jī)制上具備小時(shí)級(jí)甚至更長時(shí)長的持續(xù)生成能力。

  2) 實(shí)時(shí)吞吐:2 張 H100/H200 即可 20 FPS 流式推理

  在 512×512 分辨率下,SoulX-LiveAct 僅需 2 張 H100/H200 即可達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,端到端延遲約 0.94s。同時(shí),單幀計(jì)算成本降低到 27.2 TFLOPs / frame,在追求實(shí)時(shí)的條件下顯著減輕算力壓力,為線上部署提供更現(xiàn)實(shí)的成本方案。

  3) 長時(shí)一致:身份穩(wěn)定 + 細(xì)節(jié)不“掉件”

  長視頻最容易“翻車”的不是第一分鐘,而是第十分鐘、第三十分鐘:常見現(xiàn)象包括臉漂、發(fā)型/衣紋漂移、飾品忽隱忽現(xiàn),甚至口型逐步失配。在報(bào)告的長時(shí)對(duì)比中,基線方法普遍出現(xiàn)不同程度的身份漂移與細(xì)節(jié)不穩(wěn)定;而 SoulX-LiveAct 能在更長時(shí)間窗口內(nèi)保持身份一致性與關(guān)鍵細(xì)節(jié)持續(xù)穩(wěn)定(如配飾與衣物紋理不“掉件”)。

  依托模型表現(xiàn),SoulX-LiveAct 將能夠在“長期在線”數(shù)字人直播間、AI教育、智慧柜員、知識(shí)付費(fèi)、播客錄制、開放世界互動(dòng)等方向快速落地,例如,在線開放世界的NPC互動(dòng)中,要求“說得像、動(dòng)得像、一直像”,SoulX-LiveAct 在全身數(shù)據(jù)集 EMTD 上的同步與質(zhì)量指標(biāo)領(lǐng)先,并支持實(shí)時(shí)流式推理,適合在數(shù)字空間里實(shí)現(xiàn)長時(shí)間在線的、具備情緒動(dòng)作表達(dá)的角色交互。

  今年,在實(shí)時(shí)數(shù)字人生成方向,Soul AI 團(tuán)隊(duì)已陸續(xù)開源了SoulX-FlashTalk、SoulX-FlashHead,前者是首個(gè)能夠?qū)崿F(xiàn)0.87s亞秒級(jí)超低延時(shí)、32fps高幀率,并支持超長視頻穩(wěn)定生成的14B數(shù)字人模型;后者是1.3B輕量化模型,可實(shí)現(xiàn)在單張消費(fèi)級(jí)顯卡( RTX 4090 )上跑出96FPS的工業(yè)級(jí)速度。

  除了實(shí)時(shí)數(shù)字人生成方向的SoulX-FlashTalk、SoulX-FlashHead、SoulX-LiveAct ,現(xiàn)階段,Soul AI團(tuán)隊(duì)還開源了播客語音合成模型SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語音對(duì)話控制模塊SoulX-Duplug,綜合來看,團(tuán)隊(duì)圍繞“實(shí)時(shí)交互”這一核心領(lǐng)域,在多模態(tài)方向不斷夯實(shí)技術(shù)基建,同時(shí)通過工程化部署方案將技術(shù)推向可真正工業(yè)級(jí)應(yīng)用階段。

  而堅(jiān)持開源方向,Soul不僅完成了自身AI基礎(chǔ)設(shè)施的持續(xù)升級(jí),還通過攜手全球開發(fā)者,持續(xù)拓展“AI+”的新落地場景,共同推動(dòng)AI應(yīng)用生態(tài)的建設(shè)。

  在 Soul 上市推進(jìn)過程中,平臺(tái)持續(xù)在實(shí)時(shí)交互領(lǐng)域深耕技術(shù)并開放成果,既展現(xiàn)了扎實(shí)的 AI 研發(fā)功底,也為 Soul IPO 構(gòu)建了可持續(xù)的技術(shù)生態(tài)優(yōu)勢。依托一系列差異化開源模型矩陣,Soul 正以務(wù)實(shí)的技術(shù)落地能力,為行業(yè)長時(shí)交互場景提供可靠支撐。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀
  • 2026十大科技趨勢

    2026 十大科技趨勢,定義新一年的每一次突破。祝大家馬年大吉,馬到成功!初八啟新程,萬事皆順?biāo)欤?/P>[詳細(xì)]

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2026 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像