當前位置:

OFweek 人工智能網

評測

年終盤點:誰會成為中國的"Nano Banana"?

?有界UnKnown原創(chuàng) 作者丨山茶 編輯|錢江 回顧2025年,AI行業(yè)最重要的變化不是模型,而是Agent真正進入工作流。 11月,Nano Banana一經發(fā)布就在創(chuàng)作工具賽道撕出一道缺口。它不

2025-12-17 10:05 評論

視頻模型降維打擊?浙大&哈佛提出 IF-Edit:無需訓練,用“生成視頻”的思路修圖!

作者:Zechuan Zhang等 解讀:AI生成未來 論文標題: Are Image-to-Video Models Good Zero-Shot Image Editors? 機構: 浙江大學、哈

2025-12-16 14:56 評論

鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!

作者:Tianyang Han等 解讀:AI生成未來 本文第一作者Tianyang Han是美團MeiGen團隊的算法研究科學家,主要研究方向是圖像生成和多模態(tài)大語言模型。 亮點直擊 PicWorld

2025-12-15 18:08 評論

NeurIPS 2025 | 硬剛可靈1.5!阿里通義&清華等開源Wan-Move:指哪動哪的“神筆馬良”

作者:Ruihang Chu等 解讀:AI生成未來 亮點直擊 Wan-Move,一個用于圖像到視頻生成中運動控制的框架。與需要運動編碼的現有方法不同,它通過編輯條件特征注入運動引導,無需添加新模塊,從

2025-12-15 17:42 評論

1步頂100步!TwinFlow:無需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

作者:Zhenglin Cheng等 解讀:AI生成未來 亮點直擊 簡單而有效的一步生成框架。提出了一種一步生成框架,該框架不需要輔助訓練模型(GAN 判別器)或凍結的教師模型(不同的/一致性蒸餾),

2025-12-11 15:37 評論

原生多模態(tài)統一架構比不過單模態(tài)專家模型?華為團隊出品的EMMA “Say No”

作者:Xin He, Longhui Wei等 解讀:AI生成未來 背景與動機 當前多模態(tài)大模型已經成為大模型領域最為重要的研究熱點,尤其是隨著OpenAI的GPT-4O展現出極強的多模交互生成能力,

2025-12-10 17:01 評論

北航&美團等最新EditThinker:給AI修圖裝上“大腦”,Flux、OmniGen2瞬間智商暴漲!

作者:Hongyu Li等 解讀:AI生成未來 圖1。EditThinker 概述。子圖(a)展示了多輪思考編輯流程,該流程迭代批評、優(yōu)化和重復編輯指令,子圖(b)報告了四個圖像編輯基準測試的結果,展

2025-12-09 15:32 評論

僅用1張圖1小時,比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學”顛覆擴散模型!

作者:Zhuobai Dong等 解讀:AI生成未來 亮點直擊 極致高效的訓練:僅需?1 個樣本,在?單張 V100 GPU?上不到?1 小時?即可完成訓練。這與需要數千GPU小時(如 DMD2 需要

2025-12-05 16:41 評論

6799元起!影翎Antigravity A1深度評測:小白交互,專業(yè)影像

帶來了傳統無人機給不了的快樂。 在今年 7 月份時,雷科技收到影石Insta360 的邀請,第一時間體驗了由影石Insta360 和第三方一起孵化的影翎Antigravity 帶來的首款全景無人機——

2025-12-05 10:46 評論

港科大等提出音頻驅動多人視頻生成新范式 AnyTalker,解鎖任意數量角色間的自然互動!

作者:Zhizhou Zhong等 解讀:AI生成未來 亮點直擊 可擴展的多人驅動結構:本文提出了一種可擴展的多流處理結構 Audio-Face Cross Attention Layer,能夠以循環(huán)

2025-12-04 14:48 評論

多模態(tài)理解生成“大一統”!Meta&港大等重磅發(fā)布Tuna:統一視覺表征,性能碾壓Show-o2

作者:Zhiheng Liu等 解讀:AI生成未來 亮點直擊 Tuna,一個采用統一視覺表示的原生統一多模態(tài)模型,在一個單一框架內實現了圖像/視頻理解、圖像/視頻生成和圖像編輯。 廣泛的實驗表明,Tu

2025-12-03 15:29 評論

《黑客帝國》雛形已現?騰訊造出“可對話游戲宇宙”,實時生成、任意交互,世界為你改變!

作者:Junshu Tang等 解讀:AI生成未來 Hunyuan-GameCraft-2將生成式游戲世界模型從靜態(tài)游戲場景視頻合成提升到開放式、遵循指令的交互式模擬。 合成交互視頻Pipeline展

2025-12-02 14:38 評論

給圖像生成配“閱卷老師”!RubricRL拒絕黑盒瞎蒙,用細粒度量表馴服大模型,指哪改哪!

作者:Xuelu Feng等 解讀:AI生成未來 亮點直擊 提出通用化基于量規(guī)的獎勵設計方案,可同時適用于擴散模型與自回歸文生圖模型; 構建提示詞自適應、可分解的監(jiān)督框架,顯著提升模型訓練的可解釋性與

2025-12-01 18:08 評論

圖像生成開源界又出“王炸”!南洋理工&階躍星辰發(fā)布iMontage:解鎖“多對多”生成新玩法!

作者:Zhoujie Fu等 解讀:AI生成未來 亮點直擊 iMontage統一模型,能夠處理可變數量的輸入/輸出幀,有效銜接了視頻生成與高動態(tài)圖像生成領域。 構建任務無關的時序多樣化數據pipeli

2025-12-01 17:48 評論

ICCV`25 | 視頻交互“隨心所欲”!復旦&通義萬相等開源DreamRelation:讓想象力從此無邊界

作者:Yujie Wei等 解讀:AI生成未來 亮點直擊 首個關系導向的視頻定制框架:本工作首次嘗試解決“關系視頻定制”任務,即基于少量樣本視頻,生成具有特定交互關系(如握手、擁抱)但主體不同的新視頻

2025-11-28 16:11 評論

再見VAE!英偉達PixelDiT硬剛SD/FLUX:破局像素生成,端到端效果比肩隱空間模型

作者:Yongsheng Yu等 解讀:AI生成未來 亮點直擊 PixelDiT,一種單階段、完全基于Transformer的像素空間擴散模型,無需單獨的自編碼器即可進行端到端訓練。 證明了高效的像素

2025-11-27 15:29 評論

Nano Banana Pro再次封神!我總結了9種邪修用法

這哪是"出圖更好",簡直是把AI圖像生成推進了下一個紀元。 一致性王者圖片模型Nano Banana Pro(基于Gemini 3 Pro Image)發(fā)布才20小時,人類創(chuàng)作者的進度可能還停在“剛摸

2025-11-26 17:29 評論

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等

作者:Zehong Ma等 解讀:AI生成未來 亮點直擊 DeCo解耦框架:DiT專注低頻語義建模(采用下采樣輸入);輕量級像素解碼器重建高頻信號。 創(chuàng)新頻率感知損失函數:通過DCT轉換至頻域;基于J

2025-11-26 16:37 評論

重磅!阿里達摩院發(fā)布首個VLA與世界模型統一架構RynnVLA-002:97.4%成功率刷新認知

作者:Jun Cen等 解讀:AI生成未來 亮點直擊 統一架構:RynnVLA-002,這是一個將視覺-語言-動作(VLA)模型與世界模型統一在單一框架中的“動作世界模型”。 雙向增強:實現了 VLA

2025-11-25 16:04 評論

豆包輸入法1.0實測:干凈是最大優(yōu)勢,功能是最大短板

優(yōu)缺點分明。 豆包已成為小雷日常生活中使用頻率最高的AI應用,無論是各類疑難問題解答、群訪文檔總結,還是文字內容調整,都能放心交給它處理。 就在最近,小雷發(fā)現自己的手機應用商店上架了一款名為豆包輸入法

2025-11-25 10:10 評論
上一頁   1  2 3 4 5 6 7  下一頁

資訊訂閱

粵公網安備 44030502002758號