當(dāng)前位置:

OFweek 人工智能網(wǎng)

評(píng)測(cè)

NeurIPS`25 | 清華提出模型驅(qū)動(dòng)的生成式探索機(jī)制MoGE,助力強(qiáng)化學(xué)習(xí)算法突破性能上限

作者:Likun Wang等 解讀:AI生成未來(lái) 本文介紹清華大學(xué)李升波教授課題組(iDLab)在NeurIPS 2025發(fā)表的《Off-policy Reinforcement Learning w

2026-02-25 16:32 評(píng)論

顛覆性突破!何愷明團(tuán)隊(duì)重磅工作「Drifting Models」革新生成范式:一步推理直接創(chuàng)紀(jì)錄

作者:Mingyang Deng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 全新的生成范式:提出了“漂移模型” (Drifting Models),這一范式不再依賴于推理時(shí)的迭代過(guò)程,而是將分布演化的過(guò)程轉(zhuǎn)移到

2026-02-10 16:19 評(píng)論

一張圖生成游戲?谷歌Genie體驗(yàn):萬(wàn)物皆可玩,但離“殺死游戲公司”還遠(yuǎn)

一張圖生成游戲,真的假的? 在開(kāi)始之前,我想先問(wèn)大家一個(gè)簡(jiǎn)單的問(wèn)題: 你們還在苦苦等待《GTA 6》的發(fā)售嗎? 我是不清楚大家的想法啦,但小雷真的非常期待它的到來(lái)。要知道《GTA 5》發(fā)布至今已經(jīng)過(guò)去

2026-02-09 10:24 評(píng)論

視頻理解大模型覺(jué)醒!Video-o3發(fā)布:像偵探一樣主動(dòng)搜尋關(guān)鍵幀,登頂Video-Holmes!

作者:Xiangyu Zeng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 Video-o3,一個(gè)創(chuàng)新的框架,它通過(guò)迭代地發(fā)現(xiàn)顯著的視覺(jué)線索、對(duì)關(guān)鍵片段進(jìn)行細(xì)致檢查以及在收集到足夠證據(jù)時(shí)自適應(yīng)終止搜索過(guò)程,解決了

2026-02-05 14:53 評(píng)論

Google“AI奧運(yùn)會(huì)”:用游戲基準(zhǔn)測(cè)試模型真實(shí)能力

AI新產(chǎn)品每天接連發(fā)布,測(cè)試基準(zhǔn)和平臺(tái)也是層出不窮。 不過(guò),你是否想過(guò),游戲也能用來(lái)測(cè)試AI? 2026年2月初,Google和Kaggle一起想出了一個(gè)新點(diǎn)子:在Kaggle的Game Arena上

2026-02-04 10:56 評(píng)論

擴(kuò)散模型迎來(lái)“終極簡(jiǎn)化”!何愷明團(tuán)隊(duì)新作:像素級(jí)一步生成,速度質(zhì)量雙巔峰

作者:Yiyang Lu等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 Pixel MeanFlow (pMF)?,這是一種針對(duì)一步生成(one-step generation)的創(chuàng)新圖像生成模型。pMF 的核心突

2026-02-02 15:51 評(píng)論

擴(kuò)散模型對(duì)齊迎來(lái)“最強(qiáng)解”!HyperAlign屠榜評(píng)測(cè):超網(wǎng)絡(luò)動(dòng)態(tài)適配,畫質(zhì)、語(yǔ)義雙巔峰

作者:Xin Xie等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 HyperAlign,一種通過(guò)超網(wǎng)絡(luò)自適應(yīng)調(diào)整去噪操作的框架,能夠高效且有效地實(shí)現(xiàn)擴(kuò)散模型的測(cè)試時(shí)對(duì)齊,確保生成的圖像更好地反映用戶意圖的文本語(yǔ)義

2026-01-27 16:14 評(píng)論

一統(tǒng)視覺(jué)江湖!OpenVision 3發(fā)布:一個(gè)編碼器實(shí)現(xiàn)理解與生成完美統(tǒng)一,性能雙殺CLIP

作者:Letian Zhang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一架構(gòu):OpenVision 3是一種先進(jìn)的視覺(jué)編碼器,能夠?qū)W習(xí)單一、統(tǒng)一的視覺(jué)表示,同時(shí)服務(wù)于圖像理解和圖像生成任務(wù)。 簡(jiǎn)潔設(shè)計(jì):核

2026-01-26 16:27 評(píng)論

告別時(shí)空崩壞,生成式游戲迎來(lái)“穩(wěn)態(tài)”時(shí)刻!南大等StableWorld:打造無(wú)限續(xù)航虛擬世界

作者:Ying Yang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 識(shí)別了長(zhǎng)時(shí)交互式世界建模中不穩(wěn)定性的根本原因:同一場(chǎng)景內(nèi)的微小漂移會(huì)不斷累積,最終導(dǎo)致整體場(chǎng)景崩潰。 一種簡(jiǎn)單而有效的方法?StableWor

2026-01-26 16:22 評(píng)論

角色動(dòng)畫最新SOTA!港大&螞蟻等CoDance:解綁-重綁實(shí)現(xiàn)任意數(shù)量、位置角色同屏起舞

作者:Shuai Tan等 解讀:AI生成未來(lái) 圖1。由CoDance生成的多主體動(dòng)畫。給定一個(gè)(可能錯(cuò)位的)驅(qū)動(dòng)姿勢(shì)序列和一張多主體參考圖像,CoDance生成協(xié)調(diào)且可姿勢(shì)控制的群舞,無(wú)需每個(gè)主體的

2026-01-20 13:48 評(píng)論

視頻生成效率革命!英偉達(dá)TMD蒸餾框架:Wan2.1模型實(shí)時(shí)化,速度和質(zhì)量最佳均衡!

作者:Weili Nie等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 一種新穎的視頻擴(kuò)散蒸餾框架:?轉(zhuǎn)移匹配蒸餾(TMD),它將長(zhǎng)去噪軌跡蒸餾成緊湊的少步概率轉(zhuǎn)移過(guò)程。 解耦的擴(kuò)散主干設(shè)計(jì):?將教師模型分解為語(yǔ)義

2026-01-19 15:31 評(píng)論

Qwen3-VL-Flash提升13.62%!浙大等首創(chuàng)CoV:多步推理具身問(wèn)答Agent,通用提點(diǎn)神器

作者:CoV團(tuán)隊(duì) 解讀:AI生成未來(lái) 亮點(diǎn)直擊 CoV 框架:首創(chuàng)“視鏈提示”(Chain-of-View, CoV),一個(gè)免訓(xùn)練、測(cè)試時(shí)(test-time)的具身問(wèn)答智能體框架。 主動(dòng)視覺(jué)推理:將

2026-01-14 14:06 評(píng)論

自回歸最新SOTA!百度VideoAR:首個(gè)視頻VAR框架,推理步數(shù)減少10倍,比肩擴(kuò)散模型

作者:Longbin Ji等 解讀:AI生成未來(lái) 圖1 VideoAR通過(guò)文本提示生成高保真且時(shí)間一致的視頻 亮點(diǎn)直擊 首個(gè)視頻 VAR 框架:?VideoAR,首個(gè)將視覺(jué)自回歸建模應(yīng)用于視頻生成的大

2026-01-13 11:53 評(píng)論

國(guó)產(chǎn)多模態(tài)搜索史詩(shī)級(jí)突破!Qwen3-VL登頂MMEB:支持30+語(yǔ)言,一套模型搞定圖文視頻

作者:Mingxin Li等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 推出了基于 Qwen3-VL 基礎(chǔ)模型的?Qwen3-VL-Embedding?和?Qwen3-VL-Reranker?系列模型。 一套端到

2026-01-12 16:51 評(píng)論

硬剛谷歌Veo3!快手Klear統(tǒng)一多任務(wù)音視頻聯(lián)合生成:創(chuàng)新單塔架構(gòu),口型語(yǔ)音完美同步

作者:Jun Wang、Chunyu Qiang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 Klear 框架:提出了一個(gè)統(tǒng)一的音頻-視頻生成框架,能夠同時(shí)處理聯(lián)合生成(Joint Generation)和單模態(tài)

2026-01-12 16:42 評(píng)論

強(qiáng)勢(shì)斬獲6項(xiàng)SOTA!UniCorn打通理解與生成任督二脈,靠“內(nèi)省”重構(gòu)多模態(tài)認(rèn)知

作者:Ruiyan Han等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 傳導(dǎo)性失語(yǔ)癥:將統(tǒng)一多模態(tài)模型中“理解能力強(qiáng)但生成能力弱”的現(xiàn)象形式化為“傳導(dǎo)性失語(yǔ)癥”。 UniCorn 框架:一種無(wú)需外部數(shù)據(jù)或教師監(jiān)督

2026-01-09 16:15 評(píng)論

一個(gè)人就是一支整編劇組!首個(gè)“統(tǒng)一導(dǎo)演”模型發(fā)布:字節(jié)UniMAGE,讓腦洞原地變大片

作者:Jiaxu Zhang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 概念:UniMAGE體現(xiàn)了“統(tǒng)一導(dǎo)演模型” 的概念,整體協(xié)調(diào)敘事邏輯和視覺(jué)構(gòu)圖,將用戶意圖與多模態(tài)劇本聯(lián)系起來(lái),實(shí)現(xiàn)創(chuàng)意音視頻生成。 技術(shù)

2026-01-08 14:40 評(píng)論

全棧視覺(jué)生成器殺到!上交&快手&南洋理工最新VINO:圖像視頻生成+編輯一網(wǎng)打盡

作者:Junyi Chen等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一視覺(jué)生成框架VINO:一個(gè)將圖像/視頻生成與編輯任務(wù)統(tǒng)一在單一框架下的模型,無(wú)需針對(duì)特定任務(wù)設(shè)計(jì)獨(dú)立模塊。 交錯(cuò)全模態(tài)上下文:通過(guò)耦合視

2026-01-07 15:38 評(píng)論

復(fù)刻“黑客帝國(guó)”子彈時(shí)間!SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運(yùn)鏡隨你掌控

作者:Zhening Huang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首次實(shí)現(xiàn)了聯(lián)合空間和時(shí)間控制的視頻擴(kuò)散模型:?SpaceTimePilot 是首個(gè)能夠從單個(gè)單目視頻實(shí)現(xiàn)對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行聯(lián)合空間(攝像機(jī)

2026-01-06 14:21 評(píng)論

港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入,重新定義多模態(tài)生成與編輯

作者:Bin Xia等 解讀:AI生成未來(lái) DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能 亮點(diǎn)直擊 提出了兩項(xiàng)對(duì)統(tǒng)一生成與編輯模型極具實(shí)用價(jià)值的任務(wù):基于涂鴉的編輯和基于涂鴉的生成。

2026-01-05 14:47 評(píng)論
上一頁(yè)   1  2 3 4 5 6 7 ... 10   下一頁(yè)

資訊訂閱

粵公網(wǎng)安備 44030502002758號(hào)