訂閱
糾錯(cuò)
加入自媒體

蘋(píng)果發(fā)布VSSFlow模型:讓無(wú)聲視頻「開(kāi)口說(shuō)話(huà)」,加速為國(guó)行版AI鋪路?

2026-02-12 09:43
雷科技
關(guān)注

有點(diǎn)用,但又不是那么有用。

2024年的WWDC上,蘋(píng)果公布了自家的人工智能平臺(tái)Apple Intelligence。2024年秋季,Apple Intelligence在美國(guó)開(kāi)啟測(cè)試,后續(xù)逐漸拓展到更多地區(qū)。

不過(guò),到目前為止,國(guó)行Apple Intelligence仍然沒(méi)有落地。對(duì)此,蘋(píng)果官方的說(shuō)法是「Apple 智能推出時(shí)間依監(jiān)管部門(mén)審批情況而定!

ScreenShot_2026-02-10_144604_520.png

(圖源:蘋(píng)果)

日前,知名蘋(píng)果爆料網(wǎng)站9to5Mac發(fā)文稱(chēng),蘋(píng)果聯(lián)合中國(guó)人民大學(xué)推出了VSSFlow新型AI模型,宣布在音頻生成技術(shù)取得了突破。蘋(píng)果此舉不僅是一次AI技術(shù)實(shí)力的展示,同時(shí)似乎也在釋放和國(guó)行Apple Intelligence相關(guān)的積極信號(hào),Apple智能真的要來(lái)了嗎?

無(wú)聲視頻自動(dòng)配音,VSSFlow能解決哪些難題?

通過(guò)蘋(píng)果和中國(guó)人民大學(xué)聯(lián)合發(fā)布的論文以及9to5Mac的相關(guān)報(bào)道,我們可以了解到,VSSFlow的主要亮點(diǎn)是打破了以往「環(huán)境音」和「對(duì)話(huà)語(yǔ)音」需要分別生成的限制。具體來(lái)說(shuō),以往的大部分視頻生成語(yǔ)音模型,都是把音頻中的環(huán)境音和人聲分開(kāi)處理,而VSSFlow的優(yōu)勢(shì)在于一站式同步生成。

315703d2-3be7-48ce-9788-7703d024e5af.png

(圖源:arXiv)

根據(jù)官方的說(shuō)法,VSSFlow模型生成環(huán)境音的方式是每秒讀取10幀視頻畫(huà)面作為線(xiàn)索,然后在隨機(jī)噪聲中逐步「構(gòu)建」出畫(huà)面的聲音。這個(gè)表述聽(tīng)起來(lái)很簡(jiǎn)單,但實(shí)現(xiàn)起來(lái)并不容易。一段沒(méi)有聲音的視頻,AI當(dāng)然也不可能「聽(tīng)」得到,本質(zhì)上還是根據(jù)視頻畫(huà)面來(lái)「猜」最接近最真實(shí)的環(huán)境音,比如判斷出畫(huà)面中的具體現(xiàn)實(shí)場(chǎng)景,再匹配相應(yīng)的環(huán)境音。

VSSFlow對(duì)應(yīng)的論文提到了關(guān)鍵的技術(shù)點(diǎn)——Flow-matching(流匹配),在AI世界中,模型需要通過(guò)雜亂的信息推理生成最可能的聲音。視頻畫(huà)面中藏著聲音對(duì)應(yīng)的線(xiàn)索,AI就是要在這些雜亂的「噪音」和目標(biāo)聲音之間建立起到達(dá)的路徑,也就是「流」。建立「流」的關(guān)鍵,是對(duì)視頻畫(huà)面和文字腳本的準(zhǔn)確理解。

image.png

(圖源:arXiv)

至于文本生成語(yǔ)音的能力,在早期就存在很多解決方案。比如說(shuō),早前的智能手機(jī)以及很多閱讀App,都有TTS(文字轉(zhuǎn)語(yǔ)音)功能,它們只要把文字直接轉(zhuǎn)成語(yǔ)音庫(kù)里的預(yù)制音頻即可。不過(guò),這種方案比較簡(jiǎn)單粗暴,聲音聽(tīng)起來(lái)機(jī)械感明顯,長(zhǎng)句斷句會(huì)很奇怪。AI時(shí)代,大模型加持的文字轉(zhuǎn)語(yǔ)音體驗(yàn)得到了大幅升級(jí),真人感更明顯,無(wú)論是斷句、語(yǔ)氣還是情緒,都逐漸能做到以假亂真。

VSSFlow的視頻生成人聲技術(shù),特點(diǎn)在于通過(guò)視頻腳本+視頻畫(huà)面來(lái)生成音頻,可以通過(guò)畫(huà)面中人物的口型、表情等因素來(lái)匹配語(yǔ)音的語(yǔ)氣、情緒、節(jié)奏等,從而生成更真實(shí)的AI人聲。

開(kāi)頭說(shuō)到了,VSSFlow能夠同時(shí)為視頻生成環(huán)境聲和人聲,根據(jù)官方描述,他們將視頻信號(hào)和文本轉(zhuǎn)錄一起嵌入到音頻生成的過(guò)程中。為了達(dá)到這一效果,研究人員進(jìn)行了混合數(shù)據(jù)訓(xùn)練,具體表現(xiàn)為VSSFlow模型訓(xùn)練時(shí)使用了無(wú)聲視頻配環(huán)境音、無(wú)聲說(shuō)話(huà)視頻配文本、以及純文本轉(zhuǎn)語(yǔ)音的數(shù)據(jù)。

簡(jiǎn)單總結(jié)下,VSSFlow是一款視頻生成音頻大模型,能同時(shí)為無(wú)聲視頻生成環(huán)境聲和人聲,核心優(yōu)勢(shì)在于通過(guò)流匹配技術(shù)提升了生成效率和音頻質(zhì)量。

用AI生成語(yǔ)音,有點(diǎn)用但仍然太局限

VSSFlow幫助視頻生成環(huán)境音和人聲的功能,具體能應(yīng)用到哪些場(chǎng)景呢?小雷能想到的大概就是老舊電影的音頻修復(fù)、失語(yǔ)障礙人士的輔助音頻、影視作品配音等。畢竟,VSSFlow仍然需要依賴(lài)文字腳本來(lái)生成人聲,不能只根據(jù)視頻畫(huà)面來(lái)推測(cè)出人聲,這將讓它更接近于一款更好用的配音工具。

目前市面上和VSSFlow最接近的大模型,應(yīng)該是谷歌的Deepmind V2A(視頻轉(zhuǎn)音頻)。V2A也是根據(jù)視頻畫(huà)面和文字腳本來(lái)生成對(duì)應(yīng)的環(huán)境音和人物對(duì)話(huà),它的技術(shù)方案是在視覺(jué)信息和聽(tīng)覺(jué)信息之間建立起映射機(jī)制。

具體來(lái)說(shuō),視覺(jué)信息包含的主要是空間、色彩、形狀、運(yùn)動(dòng)等,聽(tīng)覺(jué)信息一般是音色、頻率、節(jié)奏等,二者是不同的語(yǔ)義。將視覺(jué)特征和聽(tīng)覺(jué)特征進(jìn)行多層次的映射,持續(xù)訓(xùn)練后,AI就能根據(jù)視頻畫(huà)面的信息「猜」出它應(yīng)該匹配何種聽(tīng)覺(jué)特征的音頻。

image.png

(圖源:谷歌)

不過(guò),在小雷看來(lái),視頻生成語(yǔ)音技術(shù)的應(yīng)用場(chǎng)景,還是略微局限了一些。對(duì)普通用戶(hù)來(lái)說(shuō),這項(xiàng)功能的作用不是特別大。作為對(duì)比,當(dāng)下流行的視頻生成技術(shù),更加受創(chuàng)作者和普通用戶(hù)歡迎。使用者只要用一段話(huà)、幾張圖片,就能快速生成一段高真實(shí)度的視頻,實(shí)用性和趣味性都能瞬間拉滿(mǎn)。比如最近的Seedance 2.0,剛上線(xiàn)就火爆全網(wǎng),大量用戶(hù)第一時(shí)間就嘗鮮體驗(yàn)了。

image.png

(圖源:雷科技,用Seedance 2.0制作)

但給無(wú)聲視頻配音這個(gè)場(chǎng)景,大部分人都很難遇到,畢竟我們不會(huì)無(wú)緣無(wú)故制作或者得到一段無(wú)聲視頻。它更加適用于影視制作行業(yè)中的某些細(xì)分領(lǐng)域,比如傳統(tǒng)擬音師的工作。

我們?cè)诤芏嘤耙曌髌分新?tīng)到的環(huán)境聲和動(dòng)作聲,其實(shí)都是擬音師在錄音棚里錄的,比如敲擊椰子殼模擬馬蹄聲、搓動(dòng)門(mén)鎖模擬手槍上膛聲等。同時(shí),VSSFlow根據(jù)腳本和畫(huà)面生成人聲的功能,和動(dòng)漫聲優(yōu)所做的配音工作很接近?梢韵胂蟮降氖牵纛l生成技術(shù)未來(lái)對(duì)影視行業(yè)產(chǎn)生的沖擊力會(huì)相當(dāng)大。

同時(shí),VSSFlow為代表的語(yǔ)音生成模型,固然不太可能作為獨(dú)立的應(yīng)用向普通用戶(hù)推出,但和其他AI技術(shù)結(jié)合,會(huì)發(fā)揮出更大作用。比如它可以和視頻生成模型相結(jié)合,現(xiàn)在流行的視頻生成模型制作出來(lái)的視頻,大多會(huì)有配音。

不過(guò),很多AI生成視頻的背景音和人聲質(zhì)量都相對(duì)一般,如果有VSSFlow之類(lèi)的語(yǔ)音生成模型助力,那么整體的效果會(huì)更好。實(shí)際上,谷歌Deepmind的V2A技術(shù)并沒(méi)有以單獨(dú)模型的方式發(fā)布,而是將部分功能整合在谷歌自家的視頻生成模型Veo中。

蘋(píng)果聯(lián)手國(guó)內(nèi)重點(diǎn)高校,國(guó)行版AI要來(lái)了?

對(duì)于蘋(píng)果產(chǎn)品,VSSFlow能落地的場(chǎng)景,小雷首先想到的是無(wú)障礙功能。目前蘋(píng)果設(shè)備的輔助選項(xiàng)中已經(jīng)有實(shí)時(shí)語(yǔ)音功能,即用戶(hù)可以手機(jī)上打字,然后轉(zhuǎn)成音頻。

image.png

(圖源:蘋(píng)果)

如果VSSFlow能運(yùn)用到這個(gè)場(chǎng)景里,那么語(yǔ)言障礙人士就可以在FaceTime之類(lèi)的視頻通話(huà)中,邊輸入文字,邊讓AI結(jié)合視頻畫(huà)面生成更自然的人聲。當(dāng)然,這項(xiàng)技術(shù)也能作為蘋(píng)果在AI領(lǐng)域的儲(chǔ)備,為后續(xù)視頻生成等功能或應(yīng)用提供助力。

而且,蘋(píng)果和國(guó)內(nèi)重點(diǎn)高校合作、聯(lián)合發(fā)布VSSFlow,無(wú)疑是在釋放愿意深耕國(guó)內(nèi)市場(chǎng)、推動(dòng)國(guó)行AI落地的積極信號(hào)。在VSSFlow的論文中,署名者中六位是來(lái)自中國(guó)人民大學(xué)的學(xué)者,三位是蘋(píng)果的研究員。在這個(gè)項(xiàng)目中,蘋(píng)果扮演的角色更接近于支持者、參與者而非主導(dǎo)者。

目前,國(guó)行版Apple Intelligence尚未推出。按照蘋(píng)果的政策,國(guó)行版iPhone等設(shè)備無(wú)法使用外版Apple Intelligence,未來(lái)外版硬件產(chǎn)品也不能用國(guó)行版Apple Intelligence。

基本可以確定的是,國(guó)行版Apple Intelligence的落地過(guò)程中,蘋(píng)果會(huì)和國(guó)內(nèi)AI巨頭達(dá)成合作。之前的傳言中,百度、阿里、DeepSeek等都是蘋(píng)果接觸過(guò)的廠商。2025年,彭博社知名記者馬克·古爾曼曾透露,國(guó)行Apple Intelligence采用的方案是阿里提供本地模型支持,百度文心一言提供云端AI支持。不過(guò),國(guó)行Apple Intelligence 2025年未能落地,主要原因在于遇到了一些工程難題,同時(shí)國(guó)行AI的表現(xiàn)比較一般。

不過(guò)即便忽略國(guó)行版AI缺位的事實(shí),蘋(píng)果的AI布局相對(duì)其他廠商是比較落后的。目前而言,海外版Apple Intelligence實(shí)現(xiàn)的功能和場(chǎng)景,其實(shí)沒(méi)有太多特別之處,反而因?yàn)槠湎鄬?duì)羸弱的AI實(shí)力而被吐槽。比如說(shuō),蘋(píng)果近年推出的生成式圖片App「圖樂(lè)園(Image Playground)」,就飽受批評(píng)。這款A(yù)pp對(duì)圖片生成行為的管控非常嚴(yán)格,很多用戶(hù)的需求都被拒絕,被吐槽為只適合兒童使用的產(chǎn)品。

Apple Intelligence還引入了外部力量來(lái)幫忙,主要是ChatGPT,后續(xù)還有Gemini。其中,ChatGPT植入到了Siri中,讓Siri更像一個(gè)完全體的智能助理而非傳統(tǒng)的語(yǔ)音助手。另外,AI相關(guān)的功能還有寫(xiě)作助理、圖片消除等。只是,蘋(píng)果這些所謂的AI功能,實(shí)際體驗(yàn)起來(lái)震撼感不夠強(qiáng),有點(diǎn)小打小鬧的感覺(jué)。

而且,蘋(píng)果為iOS 26畫(huà)的AI餅,至今還沒(méi)讓用戶(hù)吃上。根據(jù)最新消息,iOS 26.4的首個(gè)測(cè)試版將于2月底推送,會(huì)給AI帶來(lái)一點(diǎn)變化。這次系統(tǒng)升級(jí),主要就是Siri會(huì)得到增強(qiáng),包括擁有上下文理解能力、跨應(yīng)用操作能力和屏幕感知識(shí)別能力。坦率說(shuō),這些升級(jí)仍然不會(huì)有什么驚喜感,只是多少會(huì)讓iOS 26變得更好用點(diǎn)。

作為對(duì)照組的三星,早在2024年就推出了AI手機(jī),并且快速完成了國(guó)行手機(jī)的AI本地化。具體來(lái)說(shuō),國(guó)行版手機(jī)中負(fù)責(zé)文本理解和生成的大模型為百度的文心一言,具體在筆記助手、錄音轉(zhuǎn)錄摘要等場(chǎng)景中發(fā)揮作用;它的生成式圖片編輯器則集成了美圖的奇想智能模型,實(shí)現(xiàn)智能消除、擴(kuò)圖等功能;國(guó)行版的即圈即搜功能,后臺(tái)數(shù)據(jù)來(lái)源于百度搜索和京東。另外,三星國(guó)行手機(jī)也有部分端側(cè)AI功能,通話(huà)實(shí)時(shí)翻譯和分屏同傳翻譯,都是基于三星自研本地AI模型實(shí)現(xiàn)的。

galaxy-ai_ft03-01_transcript_assist_pc_1140x714_v4.7.jpg

(圖源:三星)

換言之,蘋(píng)果國(guó)行AI方案,大體上抄三星的作業(yè)就行。相比海外版Apple Intelligence,國(guó)行版的核心工作就是將其中涉及到的大模型替換成國(guó)內(nèi)的,三星已經(jīng)做出了示范。

小雷個(gè)人認(rèn)為,蘋(píng)果國(guó)行AI進(jìn)展緩慢,主要責(zé)任還是在蘋(píng)果身上。畢竟,海外Apple Intelligence的落地過(guò)程也是一路磕磕絆絆,而且AI功能的實(shí)際體驗(yàn)很一般。以這樣的執(zhí)行力去推動(dòng)國(guó)行Apple Intelligence項(xiàng)目,效率可想而知。

當(dāng)然,不管怎么說(shuō),蘋(píng)果參與的VSSFlow的到來(lái),至少說(shuō)明了蘋(píng)果在AI領(lǐng)域不是毫無(wú)作為。如果蘋(píng)果能持續(xù)在AI研究領(lǐng)域產(chǎn)出成果,那么蘋(píng)果硬件AI化進(jìn)程將從中獲益,這才是構(gòu)建未來(lái)蘋(píng)果底層競(jìng)爭(zhēng)力的關(guān)鍵。

紅包.png

蘋(píng)果Apple IntelligenceVSSFlowAI大模型

來(lái)源:雷科技

本文圖片來(lái)自:123RF 正版圖庫(kù)       來(lái)源:雷科技

       原文標(biāo)題 : 蘋(píng)果發(fā)布VSSFlow模型:讓無(wú)聲視頻「開(kāi)口說(shuō)話(huà)」,加速為國(guó)行版AI鋪路?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)