123,123,123

首個(gè)亞秒啟動(dòng)的14B“數(shù)字人”開(kāi)源！效率飆23倍！SoulX-LiveTalk：32FPS讓對(duì)話絲滑如真人

作者：Le Shen等解讀：AI生成未來(lái) 亮點(diǎn)直擊 SoulX-LiveTalk框架：?一個(gè)低延遲、實(shí)時(shí)、音頻驅(qū)動(dòng)的虛擬形象框架，其核心是14B參數(shù)的DiT模型。克服大規(guī)模擴(kuò)散模型在實(shí)時(shí)、無(wú)限流媒體

2026-01-04 16:06 評(píng)論

口型匹配、身份保持全面SOTA！清華&可靈X-Dub：拋棄修復(fù)思維，用“編輯”實(shí)現(xiàn)精準(zhǔn)同步！

作者：Xu He等解讀：AI生成未來(lái) 亮點(diǎn)直擊范式轉(zhuǎn)變：本文將視覺(jué)配音從一個(gè)病態(tài)的“掩碼修復(fù)”任務(wù)重新定義為一個(gè)條件良好的“視頻到視頻編輯”任務(wù)。自引導(dǎo)框架(X-Dub)?：提出了一個(gè)自我引導(dǎo)框

2026-01-04 16:03 評(píng)論

北交&字節(jié)最新開(kāi)源ThinkGen：首次顯式利用多模態(tài)CoT處理生成任務(wù)，多項(xiàng)任務(wù)性能SOTA

作者：Siyu Jiao等解讀：AI生成未來(lái) 亮點(diǎn)直擊首次提出思考驅(qū)動(dòng)的視覺(jué)生成框架：?ThinkGen 是第一個(gè)顯式利用 MLLM 的思維鏈（CoT）推理來(lái)處理各種生成場(chǎng)景的思考驅(qū)動(dòng)視覺(jué)生成框架

2025-12-31 15:31 評(píng)論

超越Wan-2.1 和 MatrixGame！Yume1.5：交互式世界生成模型，單卡12 FPS實(shí)時(shí)交互渲染

作者：Xiaofeng Mao等解讀：AI生成未來(lái) 亮點(diǎn)直擊聯(lián)合時(shí)空通道建模（TSCM）：用于無(wú)限上下文生成，盡管上下文長(zhǎng)度不斷增加，該方法仍能保持穩(wěn)定的采樣速度。將 Self-Forcing

2025-12-30 14:33 評(píng)論

AI自己當(dāng)導(dǎo)演？KlingAvatar 2.0“聯(lián)合推理”黑科技：讓數(shù)字人不僅會(huì)演，更懂劇本！新SOTA！

作者：快手Kling團(tuán)隊(duì) 解讀：AI生成未來(lái) 圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類，具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)

2025-12-29 15:57 評(píng)論

僅960M參數(shù)，不僅干翻百億大模型，速度還快了6倍！字節(jié)最新圖像編輯模型EditMGT開(kāi)源啦

作者：Wei Chow，Linfeng Li等解讀：AI生成未來(lái) 亮點(diǎn)直擊提出了EditMGT，這是首個(gè)基于MGT的圖像編輯模型，它通過(guò)利用MGT的令牌翻轉(zhuǎn)特性來(lái)顯式地保留與編輯無(wú)關(guān)的區(qū)域，從而從

2025-12-26 14:45 評(píng)論

為國(guó)爭(zhēng)光！智譜GLM-4.7橫掃全球開(kāi)源模型，超越GPT5.2

智譜又為國(guó)爭(zhēng)光了！智譜正準(zhǔn)備在港交所上市，即將成為全球大模型第一股。同時(shí)，發(fā)布了「GLM-4.7」模型。GLM-4.7最驚艷的是編程能力，在國(guó)產(chǎn)模型中排名第一。放眼全球，也是橫掃所有開(kāi)源模型，甚至評(píng)分

2025-12-25 16:01 評(píng)論

6倍極速生成無(wú)限時(shí)長(zhǎng)人像視頻！復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA

作者：Shuyuan Tu、Zhen Xing等解讀：AI生成未來(lái) 亮點(diǎn)直擊提出了一種基于滑動(dòng)窗口的自適應(yīng)潛變量預(yù)測(cè)加速機(jī)制。該方法無(wú)需額外訓(xùn)練，僅在推理階段激活，可在保持無(wú)限長(zhǎng)度人像動(dòng)畫(huà)身份一致

2025-12-25 14:57 評(píng)論

超越Veo和Runway！可靈開(kāi)源Kling-Omni：一個(gè)模型通吃視頻生成、剪輯和多模態(tài)推理！

作者：Kling 團(tuán)隊(duì) 解讀：AI生成未來(lái) 亮點(diǎn)直擊統(tǒng)一的通用框架：Kling-Omni將多樣化的視頻生成、編輯和智能推理任務(wù)整合到一個(gè)端到端的通用生成框架中，打破了傳統(tǒng)碎片化的處理模式。創(chuàng)新性的

2025-12-23 13:36 評(píng)論

加速近200倍！RTX 5090生成高質(zhì)量視頻只要1.9秒！清華&生數(shù)等重磅開(kāi)源TurboDiffusion

作者：Jintao Zhang等解讀：AI生成未來(lái) 亮點(diǎn)直擊提出了一種端到端的視頻生成加速框架，在保持視頻質(zhì)量的同時(shí)，將擴(kuò)散模型的生成速度提升了??。單張 RTX 5090 GPU 上，該框架能

2025-12-22 18:00 評(píng)論

NanobananaPro/GPT-4o/Sora2/國(guó)產(chǎn)模型誰(shuí)最強(qiáng)？ViStoryBench:全能故事可視化基準(zhǔn)首發(fā)！

作者：Cailin Zhuang, Ailin Huang，Yaoqi Hu等解讀：AI生成未來(lái) 亮點(diǎn)直擊如果把“故事可視化”理解成一次跨媒介的“編碼—傳輸—解碼”：文本劇本（編碼）→ 模型生成圖

2025-12-22 16:22 評(píng)論

大幅超越π0.5和X-VLA！清北最新Motus：理解、生成、控制全能, 海量視頻喂出“最強(qiáng)大腦”

作者：Hongzhe Bi等解讀：AI生成未來(lái) 亮點(diǎn)直擊統(tǒng)一的基礎(chǔ)模型：Motus，一個(gè)統(tǒng)一的具身基礎(chǔ)模型，首次在一個(gè)生成式框架內(nèi)集成了五種主流范式（世界模型、逆動(dòng)力學(xué)模型、VLAs、視頻生成模型

2025-12-19 15:28 評(píng)論

24FPS實(shí)時(shí)生成！騰訊混元推出WorldPlay：打破“速度與記憶”悖論,720P無(wú)限流視頻隨意玩！

作者：Wenqiang Sun等解讀：AI生成未來(lái) 亮點(diǎn)直擊 WorldPlay，一個(gè)針對(duì)通用場(chǎng)景的實(shí)時(shí)、長(zhǎng)期一致的世界模型。雙重動(dòng)作表示：提出了一種結(jié)合離散鍵盤(pán)輸入和連續(xù)攝像機(jī)姿態(tài)的雙重動(dòng)作表示

2025-12-18 15:05 評(píng)論

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3

作者：Minglei Shi等解讀：AI生成未來(lái) 亮點(diǎn)直擊首次在視覺(jué)特征模型（VFM）特征空間上對(duì)文本到圖像的隱擴(kuò)散模型進(jìn)行了大規(guī)模驗(yàn)證。開(kāi)源了SVG-T2I模型的完整訓(xùn)練與推理流程，并提供多個(gè)

2025-12-17 14:00 評(píng)論

年終盤(pán)點(diǎn)：誰(shuí)會(huì)成為中國(guó)的"Nano Banana"？

?有界UnKnown原創(chuàng) 作者丨山茶編輯｜錢(qián)江回顧2025年，AI行業(yè)最重要的變化不是模型，而是Agent真正進(jìn)入工作流。 11月，Nano Banana一經(jīng)發(fā)布就在創(chuàng)作工具賽道撕出一道缺口。它不

2025-12-17 10:05 評(píng)論

視頻模型降維打擊？浙大&哈佛提出 IF-Edit：無(wú)需訓(xùn)練，用“生成視頻”的思路修圖！

作者：Zechuan Zhang等解讀：AI生成未來(lái) 論文標(biāo)題： Are Image-to-Video Models Good Zero-Shot Image Editors? 機(jī)構(gòu)：浙江大學(xué)、哈

2025-12-16 14:56 評(píng)論

鐵釘水上漂、子彈穿蘋(píng)果不炸？Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考！

作者：Tianyang Han等解讀：AI生成未來(lái) 本文第一作者Tianyang Han是美團(tuán)MeiGen團(tuán)隊(duì)的算法研究科學(xué)家，主要研究方向是圖像生成和多模態(tài)大語(yǔ)言模型。亮點(diǎn)直擊 PicWorld

2025-12-15 18:08 評(píng)論

NeurIPS 2025 | 硬剛可靈1.5！阿里通義&清華等開(kāi)源Wan-Move：指哪動(dòng)哪的“神筆馬良”

作者：Ruihang Chu等解讀：AI生成未來(lái) 亮點(diǎn)直擊 Wan-Move，一個(gè)用于圖像到視頻生成中運(yùn)動(dòng)控制的框架。與需要運(yùn)動(dòng)編碼的現(xiàn)有方法不同，它通過(guò)編輯條件特征注入運(yùn)動(dòng)引導(dǎo)，無(wú)需添加新模塊，從

2025-12-15 17:42 評(píng)論

1步頂100步！TwinFlow:無(wú)需教師模型，僅單步推理，Qwen-Image-20B生成速度漲100倍！

作者：Zhenglin Cheng等解讀：AI生成未來(lái) 亮點(diǎn)直擊簡(jiǎn)單而有效的一步生成框架。提出了一種一步生成框架，該框架不需要輔助訓(xùn)練模型（GAN 判別器）或凍結(jié)的教師模型（不同的/一致性蒸餾），

2025-12-11 15:37 評(píng)論

原生多模態(tài)統(tǒng)一架構(gòu)比不過(guò)單模態(tài)專家模型？華為團(tuán)隊(duì)出品的EMMA “Say No”

作者：Xin He， Longhui Wei等解讀：AI生成未來(lái) 背景與動(dòng)機(jī) 當(dāng)前多模態(tài)大模型已經(jīng)成為大模型領(lǐng)域最為重要的研究熱點(diǎn)，尤其是隨著OpenAI的GPT-4O展現(xiàn)出極強(qiáng)的多模交互生成能力，

2025-12-10 17:01 評(píng)論

資訊訂閱

最新活動(dòng) 更多 >>

精彩回顧《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》查看回顧
精彩回顧 OFweek 2025（第十四屆）中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì) 查看回顧
精彩回顧 Ansys Motion薄膜卷曲卷對(duì)卷工藝仿真解決方案查看回顧
精彩回顧 STM32全球線上峰會(huì) 查看回顧
精彩回顧 2024視覺(jué)感知技術(shù)在半導(dǎo)體與印刷包裝創(chuàng)新大會(huì) 查看回顧
精彩回顧全數(shù)會(huì)2024中國(guó)人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會(huì) 查看回顧

一周熱點(diǎn)

技術(shù)文庫(kù) 更多 >>

加密芯片筑牢工業(yè)設(shè)備防抄板防線
2025-11-14
LKT4202UGM、LKT4305GM國(guó)密芯片
2025-10-31
金融級(jí)安全加密芯片-LKT4304
2025-04-10
ATSHA204A國(guó)產(chǎn)全兼容芯片LCSHA204
2025-02-27
耗材保護(hù)芯片-LKT4304解決方案
2025-02-13
LKT4304新一代算法移植加密芯片
2025-01-16

OFweek 人工智能網(wǎng)

評(píng)測(cè)