當(dāng)前位置:

OFweek 人工智能網(wǎng)

評(píng)測(cè)

首個(gè)亞秒啟動(dòng)的14B“數(shù)字人”開(kāi)源!效率飆23倍!SoulX-LiveTalk:32FPS讓對(duì)話絲滑如真人

作者:Le Shen等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 SoulX-LiveTalk框架:?一個(gè)低延遲、實(shí)時(shí)、音頻驅(qū)動(dòng)的虛擬形象框架,其核心是14B參數(shù)的DiT模型。克服大規(guī)模擴(kuò)散模型在實(shí)時(shí)、無(wú)限流媒體

2026-01-04 16:06 評(píng)論

口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復(fù)思維,用“編輯”實(shí)現(xiàn)精準(zhǔn)同步!

作者:Xu He等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 范式轉(zhuǎn)變:本文將視覺(jué)配音從一個(gè)病態(tài)的“掩碼修復(fù)”任務(wù)重新定義為一個(gè)條件良好的“視頻到視頻編輯”任務(wù)。 自引導(dǎo)框架(X-Dub)?:提出了一個(gè)自我引導(dǎo)框

2026-01-04 16:03 評(píng)論

北交&字節(jié)最新開(kāi)源ThinkGen:首次顯式利用多模態(tài)CoT處理生成任務(wù),多項(xiàng)任務(wù)性能SOTA

作者:Siyu Jiao等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首次提出思考驅(qū)動(dòng)的視覺(jué)生成框架:?ThinkGen 是第一個(gè)顯式利用 MLLM 的思維鏈(CoT)推理來(lái)處理各種生成場(chǎng)景的思考驅(qū)動(dòng)視覺(jué)生成框架

2025-12-31 15:31 評(píng)論

超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實(shí)時(shí)交互渲染

作者:Xiaofeng Mao等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 聯(lián)合時(shí)空通道建模(TSCM):用于無(wú)限上下文生成,盡管上下文長(zhǎng)度不斷增加,該方法仍能保持穩(wěn)定的采樣速度。 將 Self-Forcing

2025-12-30 14:33 評(píng)論

AI自己當(dāng)導(dǎo)演?KlingAvatar 2.0“聯(lián)合推理”黑科技:讓數(shù)字人不僅會(huì)演,更懂劇本!新SOTA!

作者:快手Kling團(tuán)隊(duì) 解讀:AI生成未來(lái) 圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類,具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)

2025-12-29 15:57 評(píng)論

僅960M參數(shù),不僅干翻百億大模型,速度還快了6倍!字節(jié)最新圖像編輯模型EditMGT開(kāi)源啦

作者:Wei Chow,Linfeng Li等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了EditMGT,這是首個(gè)基于MGT的圖像編輯模型,它通過(guò)利用MGT的令牌翻轉(zhuǎn)特性來(lái)顯式地保留與編輯無(wú)關(guān)的區(qū)域,從而從

2025-12-26 14:45 評(píng)論

為國(guó)爭(zhēng)光!智譜GLM-4.7橫掃全球開(kāi)源模型,超越GPT5.2

智譜又為國(guó)爭(zhēng)光了!智譜正準(zhǔn)備在港交所上市,即將成為全球大模型第一股。同時(shí),發(fā)布了「GLM-4.7」模型。GLM-4.7最驚艷的是編程能力,在國(guó)產(chǎn)模型中排名第一。放眼全球,也是橫掃所有開(kāi)源模型,甚至評(píng)分

2025-12-25 16:01 評(píng)論

6倍極速生成無(wú)限時(shí)長(zhǎng)人像視頻!復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA

作者:Shuyuan Tu、Zhen Xing等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了一種基于滑動(dòng)窗口的自適應(yīng)潛變量預(yù)測(cè)加速機(jī)制。該方法無(wú)需額外訓(xùn)練,僅在推理階段激活,可在保持無(wú)限長(zhǎng)度人像動(dòng)畫(huà)身份一致

2025-12-25 14:57 評(píng)論

超越Veo和Runway!可靈開(kāi)源Kling-Omni:一個(gè)模型通吃視頻生成、剪輯和多模態(tài)推理!

作者:Kling 團(tuán)隊(duì) 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一的通用框架:Kling-Omni將多樣化的視頻生成、編輯和智能推理任務(wù)整合到一個(gè)端到端的通用生成框架中,打破了傳統(tǒng)碎片化的處理模式。 創(chuàng)新性的

2025-12-23 13:36 評(píng)論

加速近200倍!RTX 5090生成高質(zhì)量視頻只要1.9秒!清華&生數(shù)等重磅開(kāi)源TurboDiffusion

作者:Jintao Zhang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了一種端到端的視頻生成加速框架,在保持視頻質(zhì)量的同時(shí),將擴(kuò)散模型的生成速度提升了??。 單張 RTX 5090 GPU 上,該框架能

2025-12-22 18:00 評(píng)論

NanobananaPro/GPT-4o/Sora2/國(guó)產(chǎn)模型誰(shuí)最強(qiáng)?ViStoryBench:全能故事可視化基準(zhǔn)首發(fā)!

作者:Cailin Zhuang, Ailin Huang,Yaoqi Hu等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 如果把“故事可視化”理解成一次跨媒介的“編碼—傳輸—解碼”:文本劇本(編碼)→ 模型生成圖

2025-12-22 16:22 評(píng)論

大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量視頻喂出“最強(qiáng)大腦”

作者:Hongzhe Bi等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一的基礎(chǔ)模型:Motus,一個(gè)統(tǒng)一的具身基礎(chǔ)模型,首次在一個(gè)生成式框架內(nèi)集成了五種主流范式(世界模型、逆動(dòng)力學(xué)模型、VLAs、視頻生成模型

2025-12-19 15:28 評(píng)論

24FPS實(shí)時(shí)生成!騰訊混元推出WorldPlay:打破“速度與記憶”悖論,720P無(wú)限流視頻隨意玩!

作者:Wenqiang Sun等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 WorldPlay,一個(gè)針對(duì)通用場(chǎng)景的實(shí)時(shí)、長(zhǎng)期一致的世界模型。 雙重動(dòng)作表示:提出了一種結(jié)合離散鍵盤(pán)輸入和連續(xù)攝像機(jī)姿態(tài)的雙重動(dòng)作表示

2025-12-18 15:05 評(píng)論

徹底告別VAE!清華x可靈聯(lián)手開(kāi)源SVG-T2I:生成理解合二為一,性能媲美SD3

作者:Minglei Shi等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首次在視覺(jué)特征模型(VFM)特征空間上對(duì)文本到圖像的隱擴(kuò)散模型進(jìn)行了大規(guī)模驗(yàn)證。 開(kāi)源了SVG-T2I模型的完整訓(xùn)練與推理流程,并提供多個(gè)

2025-12-17 14:00 評(píng)論

年終盤(pán)點(diǎn):誰(shuí)會(huì)成為中國(guó)的"Nano Banana"?

?有界UnKnown原創(chuàng) 作者丨山茶 編輯|錢(qián)江 回顧2025年,AI行業(yè)最重要的變化不是模型,而是Agent真正進(jìn)入工作流。 11月,Nano Banana一經(jīng)發(fā)布就在創(chuàng)作工具賽道撕出一道缺口。它不

2025-12-17 10:05 評(píng)論

視頻模型降維打擊?浙大&哈佛提出 IF-Edit:無(wú)需訓(xùn)練,用“生成視頻”的思路修圖!

作者:Zechuan Zhang等 解讀:AI生成未來(lái) 論文標(biāo)題: Are Image-to-Video Models Good Zero-Shot Image Editors? 機(jī)構(gòu): 浙江大學(xué)、哈

2025-12-16 14:56 評(píng)論

鐵釘水上漂、子彈穿蘋(píng)果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!

作者:Tianyang Han等 解讀:AI生成未來(lái) 本文第一作者Tianyang Han是美團(tuán)MeiGen團(tuán)隊(duì)的算法研究科學(xué)家,主要研究方向是圖像生成和多模態(tài)大語(yǔ)言模型。 亮點(diǎn)直擊 PicWorld

2025-12-15 18:08 評(píng)論

NeurIPS 2025 | 硬剛可靈1.5!阿里通義&清華等開(kāi)源Wan-Move:指哪動(dòng)哪的“神筆馬良”

作者:Ruihang Chu等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 Wan-Move,一個(gè)用于圖像到視頻生成中運(yùn)動(dòng)控制的框架。與需要運(yùn)動(dòng)編碼的現(xiàn)有方法不同,它通過(guò)編輯條件特征注入運(yùn)動(dòng)引導(dǎo),無(wú)需添加新模塊,從

2025-12-15 17:42 評(píng)論

1步頂100步!TwinFlow:無(wú)需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

作者:Zhenglin Cheng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 簡(jiǎn)單而有效的一步生成框架。提出了一種一步生成框架,該框架不需要輔助訓(xùn)練模型(GAN 判別器)或凍結(jié)的教師模型(不同的/一致性蒸餾),

2025-12-11 15:37 評(píng)論

原生多模態(tài)統(tǒng)一架構(gòu)比不過(guò)單模態(tài)專家模型?華為團(tuán)隊(duì)出品的EMMA “Say No”

作者:Xin He, Longhui Wei等 解讀:AI生成未來(lái) 背景與動(dòng)機(jī) 當(dāng)前多模態(tài)大模型已經(jīng)成為大模型領(lǐng)域最為重要的研究熱點(diǎn),尤其是隨著OpenAI的GPT-4O展現(xiàn)出極強(qiáng)的多模交互生成能力,

2025-12-10 17:01 評(píng)論
上一頁(yè)  1  2  3 4 5 6 7 ... 10   下一頁(yè)

資訊訂閱

粵公網(wǎng)安備 44030502002758號(hào)