人物專(zhuān)訪監(jiān)管
制造芯片
6G運(yùn)營(yíng)
大數(shù)據(jù)物聯(lián)網(wǎng)
移動(dòng)互聯(lián)網(wǎng)量子
云計(jì)算互聯(lián)網(wǎng)
報(bào)告衛(wèi)星

阿里、字節(jié)同日上新,圖像大模型激戰(zhàn)“春節(jié)檔”
AI應(yīng)用掀起春節(jié)大戰(zhàn)的同時(shí),基礎(chǔ)大模型也在加速上架“春節(jié)檔”。
2月10日,阿里云發(fā)布新一代圖像生成基礎(chǔ)模型Qwen-Image-2.0,而千問(wèn)的新一代基座模型Qwen3.5也已經(jīng)在路上。同一天,字節(jié)跳動(dòng)旗下剪映宣布上線新一代圖像生成模型——Seedream 5.0預(yù)覽版,距離上一代模型(Seedream 4.5)發(fā)布僅兩個(gè)多月。
臨近春節(jié),圖像生成大模型發(fā)布按下加速鍵,事實(shí)上,伴隨著AIGC落地加速,在圖像生成領(lǐng)域,誰(shuí)能從“生成好看的圖” 率先轉(zhuǎn)向 “高效解決實(shí)際問(wèn)題”,正在成為模型競(jìng)爭(zhēng)的關(guān)鍵。
Qwen-Image-2.0對(duì)陣Seedream 5.0
盡管同日發(fā)布,兩款模型在技術(shù)路徑和生成效果上有著一定的差異。
具體來(lái)看,字節(jié)跳動(dòng)文生圖模型主要升級(jí)點(diǎn)為首次支持檢索生圖,對(duì)提示詞的理解準(zhǔn)確性增強(qiáng)、支持更細(xì)節(jié)、精細(xì)紋理的圖像生成,允許用戶(hù)精確調(diào)整圖像。而阿里的Qwen-Image-2.0則是Qwen-Image項(xiàng)目自2025年5月啟動(dòng)后,首次將生圖和編輯兩條支線迭代的模型能力統(tǒng)一整合到單一模型架構(gòu)中,提升了中文漢字渲染方面能力,并輸入提示詞擴(kuò)展到1K token,優(yōu)化了對(duì)超長(zhǎng)文字和復(fù)雜指令的渲染。
第一財(cái)經(jīng)記者分別對(duì)Qwen-Image-2.0和Seedream 5.0進(jìn)行了同題測(cè)試,以相同的提示詞分別請(qǐng)Qwen-Image-2.0和Seedream 5.0生成了《清晨霧中的瑞士阿爾卑斯山》和《無(wú)厘頭美食番<三國(guó)演義>》兩張圖片,Qwen-Image-2.0和Seedream 5.0分別作答如下:

從生成效果來(lái)看,兩大模型在生成圖片的清晰度和細(xì)致度上都有了較大的提升,對(duì)于薄霧的層次、水中倒影、兵器造型的餐具等都能夠準(zhǔn)確理解和生成,總體上,Qwen-Image-2.0的畫(huà)風(fēng)更偏寫(xiě)實(shí),而Seedream 5.0則更具美感。但在具體指令的理解準(zhǔn)確度上,模型仍存在一定的偏差,例如Seedream 5.0對(duì)兵器造型的餐具理解停留在西餐而非火鍋餐具,而Qwen-Image-2.0對(duì)關(guān)羽的“紅臉”的體現(xiàn)不足。

公平起見(jiàn),記者將兩道測(cè)試分別給了豆包和kimi評(píng)判“誰(shuí)更符合原提示詞的需求?”,發(fā)現(xiàn)豆包和kimi做出了同樣的判斷。在《清晨霧中的瑞士阿爾卑斯山》中,它們選擇了Qwen-Image-2.0勝出,在《無(wú)厘頭美食番<三國(guó)演義>》中選擇Seedream 5.0勝出。

kimi認(rèn)為,阿爾卑斯山場(chǎng)景(寫(xiě)實(shí)風(fēng)景)中,Qwen-Image-2.0的細(xì)節(jié)精度拉滿、紋理清晰,而Seedream 5.0更重氛圍感營(yíng)造,朦朧詩(shī)意,偏印象派,但偏“油畫(huà)感”,細(xì)節(jié)被柔化。而三國(guó)演義場(chǎng)景(卡通萌系)中,kimi認(rèn)為,Qwen-Image-2.0漏讀關(guān)鍵詞“舉起”而更像“圍坐”,Seedream 5.0更體現(xiàn)出了熱血?dú)g樂(lè)氛圍,無(wú)厘頭解構(gòu)感強(qiáng)。最終,kimi給出的判詞是:“Qwen-Image-2.0像嚴(yán)謹(jǐn)?shù)墓こ處煟琒eedream 5.0像懂流量的設(shè)計(jì)師——沒(méi)有絕對(duì)優(yōu)劣,只有場(chǎng)景適配!
圖像編輯方面,記者實(shí)測(cè)過(guò)程中發(fā)現(xiàn),在剪映平臺(tái)通過(guò)Seedream 5.0 Preview生圖后,圖片可調(diào)整范圍包括裁剪、畫(huà)質(zhì)、像素等,但無(wú)法在生成過(guò)程中或完成進(jìn)行局部調(diào)整。Qwen-Image-2.0則可在對(duì)話中直接根據(jù)指令調(diào)整圖片,不過(guò),圖像編輯的準(zhǔn)確度仍有待提升。記者嘗試讓Qwen-Image-2.0在《無(wú)厘頭美食番<三國(guó)演義>》圖中加入一個(gè)碗,Qwen-Image-2.0選擇直接將火鍋的外殼換成了碗,再次追加指令后,Qwen-Image-2.0成功加上了碗,甚至自主加上了桌子,展現(xiàn)了一定的邏輯推理能力,但碗內(nèi)的食物又與火鍋場(chǎng)景有一定脫離。

總體來(lái)看,比起會(huì)“畫(huà)圖”,步入2026年,圖像生成模型都在往真正解讀用戶(hù)意圖、準(zhǔn)確理解語(yǔ)義、具備可控編輯能力、根據(jù)真實(shí)場(chǎng)景及需求智能推理的方向去。換句話說(shuō),比起“能不能畫(huà)”,大模型們轉(zhuǎn)向了“畫(huà)得是否符合使用場(chǎng)景”。但在復(fù)雜且非專(zhuān)業(yè)指令的理解以及圖像可控編輯的“深水區(qū)”,頭部廠商的真正較量才剛剛開(kāi)始。
從“會(huì)畫(huà)”到“能用”
“會(huì)辦事”,是這一年無(wú)論大模型還是AI應(yīng)用都在強(qiáng)調(diào)的方向,圖像模型接下來(lái)要面臨的問(wèn)題則更具體:“這張圖能解決什么問(wèn)題?”
千問(wèn)大模型高級(jí)解決方案架構(gòu)師熊撼天在接受包括第一財(cái)經(jīng)在內(nèi)的媒體采訪時(shí)提到,從2023年開(kāi)始,文生圖或圖生圖開(kāi)始在偏C端或個(gè)人使用的場(chǎng)景中落地,但在真正的“企業(yè)級(jí)”應(yīng)用層面,離落地始終有距離,實(shí)際上是“生成不可控”的問(wèn)題一直解決得不是很好,而隨著模型對(duì)語(yǔ)義的理解及模型能力的上限更高后,這些問(wèn)題正在技術(shù)層面被攻克。
圍繞著如何讓圖片更“可用”的競(jìng)爭(zhēng),圖像模型在技術(shù)升級(jí)的同時(shí),開(kāi)始圍繞生態(tài)、場(chǎng)景分化。
目前,字節(jié)已將 Seedream 5.0 深度集成到剪映、CapCut、即夢(mèng) AI等字節(jié)生態(tài)體系平臺(tái),方便創(chuàng)作者直接完成生圖、分鏡、視頻創(chuàng)作、分發(fā)抖音等操作,支持2K與4K分辨率輸出,限時(shí)免費(fèi)使用,未來(lái)計(jì)劃在美國(guó)市場(chǎng)逐步開(kāi)放,以此來(lái)鞏固字節(jié)跳動(dòng)在內(nèi)容創(chuàng)作領(lǐng)域的優(yōu)勢(shì)地位。CapCut海外官方賬號(hào)發(fā)文稱(chēng),Seedream 5.0 對(duì)標(biāo)Nano Banana Pro,但價(jià)格便宜得多。記者了解到,Qwen-Image-2.0 也將在正式發(fā)布時(shí)上線阿里千問(wèn)APP,未來(lái),Qwen-Image-2.0與阿里系電商等業(yè)務(wù)的打通也成為業(yè)內(nèi)關(guān)注的方向,Qwen-Image-2.0或許將更多落向電商、專(zhuān)業(yè)PPT、海報(bào)設(shè)計(jì)等場(chǎng)景。
未來(lái)一年,圖像模型可能?chē)@怎樣的方向發(fā)展?對(duì)此,千問(wèn)Qwen視覺(jué)生成負(fù)責(zé)人吳晨飛表示,Qwen-Image-2.0升級(jí)的核心之一是“信息圖”。信息圖可以理解為“爸爸圖”,每一張“爸爸圖”中都包含很多的子圖,每一個(gè)子圖有各自的細(xì)節(jié)。在他看來(lái),“信息圖”是目前生圖領(lǐng)域的一個(gè)大趨勢(shì),“生成一張圖”不再是傳統(tǒng)意義上的“一張圖”,而是一口氣生成了很多張關(guān)聯(lián)圖片,這種能力在漫畫(huà)、復(fù)雜海報(bào)、PPT制作等領(lǐng)域非常重要。除此之外,當(dāng)生成非常多文字或復(fù)雜結(jié)構(gòu)內(nèi)容時(shí),Qwen-Image-2.0仍可能出現(xiàn)幻覺(jué)和錯(cuò)誤,這也是下一步要探索的方向。
AIGC設(shè)計(jì)師石恕之則提到了行業(yè)內(nèi)對(duì)“圖層分離”的渴望,他形容這是整個(gè)AIGC平面市場(chǎng)的需求。這意味著讓大模型生成的圖片可解耦,像PS一樣實(shí)現(xiàn)圖層分離與編輯,對(duì)工業(yè)流程來(lái)說(shuō)有著巨大價(jià)值,目前圖像模型仍未真正觸及。吳晨飛提到,分層模型也會(huì)是Qwen-Image下一步去探索的另一個(gè)重點(diǎn)。
“除了技術(shù)層面,視覺(jué)模型發(fā)展更多的痛點(diǎn)還是與應(yīng)用場(chǎng)景的結(jié)合!毙芎程毂硎荆绾螌F(xiàn)在模型能力的迭代,去結(jié)合現(xiàn)有的業(yè)務(wù)場(chǎng)景快速落地,也是模型發(fā)展的一大挑戰(zhàn),這之中也藏著中國(guó)廠商“彎道超車(chē)”的機(jī)會(huì)。比如在短劇或漫劇的AIGC生成領(lǐng)域,熊撼天提到,中國(guó)漫劇的發(fā)展速度已經(jīng)遠(yuǎn)超國(guó)外了,形成了一個(gè)龐大的產(chǎn)業(yè)鏈。漫劇產(chǎn)業(yè)鏈公司會(huì)拿著最新一代的模型快速在生產(chǎn)級(jí)的場(chǎng)景里落地,“單劇集做一個(gè)動(dòng)漫視頻的錢(qián)可能馬上就會(huì)從幾百塊錢(qián)減少到幾十塊錢(qián)。”
強(qiáng)調(diào)“辦事能力”的同時(shí),行業(yè)也在期待應(yīng)用反哺技術(shù)。熊撼天認(rèn)為,在技術(shù)已經(jīng)追平的情況下,中國(guó)企業(yè)更擅長(zhǎng)做應(yīng)用,而應(yīng)用的土壤會(huì)催生出一些新的產(chǎn)業(yè)鏈,新的產(chǎn)業(yè)鏈也會(huì)反復(fù)去迭代模型的能力。
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
盤(pán)點(diǎn)2025|光纖光纜:周期性放緩之下,確定性開(kāi)始凸顯
在2025年,光纖光纜廠商們習(xí)慣于用“周期性”一詞來(lái)描述當(dāng)前的困難,相比于寬帶普及、4G升級(jí)換代帶來(lái)的流量需求猛增這一巨大業(yè)務(wù)增長(zhǎng)?扇缃裨谒⒅桃曨l、看著帶貨的新日常生活常態(tài)下,盡..[詳細(xì)]
盤(pán)點(diǎn)2025|人工智能:破局前行、以智啟新,同赴人機(jī)共生新未來(lái)
2025年,人工智能行業(yè)迎來(lái)技術(shù)迭代與價(jià)值落地的雙重關(guān)口。這一年里既延續(xù)著近年來(lái)的高速增長(zhǎng)態(tài)勢(shì),也迎來(lái)從野蠻生長(zhǎng)向規(guī)范提質(zhì)的深刻轉(zhuǎn)型。 [詳細(xì)]
盤(pán)點(diǎn)2025|算力行業(yè):量質(zhì)齊升的進(jìn)階之路
在數(shù)字經(jīng)濟(jì)加速滲透全球經(jīng)濟(jì)社會(huì)各領(lǐng)域的今天,算力已成為繼電力、水資源之后的關(guān)鍵生產(chǎn)要素,是支撐數(shù)字中國(guó)建設(shè)、推動(dòng)高質(zhì)量發(fā)展的核心基礎(chǔ)設(shè)施。算力的規(guī)模與質(zhì)量直接決定了數(shù)字經(jīng)濟(jì)的發(fā)..[詳細(xì)]
盤(pán)點(diǎn)2025|芯片:AI依舊是挖潛點(diǎn),應(yīng)用進(jìn)一步多樣化
時(shí)至2025年年底,人們已經(jīng)開(kāi)始漸漸習(xí)慣,有事聽(tīng)聽(tīng)AI給出的參考意見(jiàn)。其背后的算力支撐也在逐步加強(qiáng),像是更先進(jìn)的制程,以及向更多端側(cè)設(shè)備的拓展。另一方面,AI又一石激起千層浪,機(jī)遇與需..[詳細(xì)]
盤(pán)點(diǎn)2025 | 從5G到6G:深耕與突破并行,開(kāi)啟智能連接新紀(jì)元
2025年,全球通信產(chǎn)業(yè)站在了一個(gè)關(guān)鍵的歷史交匯點(diǎn)。這一年既是“十四五”規(guī)劃的收官年,5G建設(shè)成果全面轉(zhuǎn)化的驗(yàn)收年,也是“十五五”規(guī)劃啟幕,6G布局從技術(shù)探索邁向工程落地的奠基之年,更..[詳細(xì)]
盤(pán)點(diǎn)2025|量子信息:三大領(lǐng)域技術(shù)持續(xù)演進(jìn),產(chǎn)業(yè)發(fā)展未來(lái)可期
以量子計(jì)算、量子通信和量子精密測(cè)量為代表的量子信息技術(shù)是挑戰(zhàn)人類(lèi)調(diào)控微觀世界能力極限的世紀(jì)系統(tǒng)工程,是對(duì)傳統(tǒng)技術(shù)體系產(chǎn)生沖擊、進(jìn)行重構(gòu)的重大顛覆性創(chuàng)新,將引領(lǐng)新一輪科技革命和產(chǎn)..[詳細(xì)]
盤(pán)點(diǎn)2025|2025年智能終端趨勢(shì)洞察:AI重構(gòu)體驗(yàn),超級(jí)終端時(shí)代加速到來(lái)
2025年,全球智能終端行業(yè)站在了技術(shù)革新與生態(tài)重構(gòu)的十字路口。AI技術(shù)的規(guī);瘽B透、折疊屏形態(tài)的成熟落地、跨設(shè)備協(xié)同的深度演進(jìn),正在重塑終端產(chǎn)品的價(jià)值邏輯與市場(chǎng)格局。[詳細(xì)]
Seedance2.0,改寫(xiě)AI視頻賽道格局!
孫悟空對(duì)戰(zhàn)超人、單挑詹姆斯扣籃、小貓咪打怪獸、邁克爾•杰克遜街頭熱舞……最近,字節(jié)跳動(dòng)的AI視頻模型Seedance2.0引爆全網(wǎng),由其生成的各類(lèi)短視頻刷屏了![詳細(xì)]
全球人工智能飛速發(fā)展,技術(shù)、應(yīng)用、生態(tài)協(xié)同共振
近日,中國(guó)信通院發(fā)布的《人工智能產(chǎn)業(yè)發(fā)展研究報(bào)告(2025 年)》(以下簡(jiǎn)稱(chēng)《報(bào)告》)指出,2025 年,全球人工智能飛速發(fā)展,技術(shù)、應(yīng)用、生態(tài)協(xié)同共振,重塑開(kāi)發(fā)范式、改變?nèi)藱C(jī)交互模式,催..[詳細(xì)]
軌道上的兩個(gè)未來(lái):全球低軌競(jìng)賽中的技術(shù)、資本與理想
就在中國(guó)老百姓喜迎2026馬年新春之時(shí),全球航天界傳來(lái)兩個(gè)炸裂的消息。2月1日,馬斯克旗下的SpaceX傳出,已正式向美國(guó)聯(lián)邦通信委員會(huì)提交申請(qǐng),計(jì)劃部署近100萬(wàn)顆非地球靜止軌道衛(wèi)星;就在三..[詳細(xì)]












