123,123

蘋(píng)果發(fā)布VSSFlow模型：讓無(wú)聲視頻「開(kāi)口說(shuō)話(huà)」，加速為國(guó)行版AI鋪路？

2026-02-12 09:43

有點(diǎn)用，但又不是那么有用。

2024年的WWDC上，蘋(píng)果公布了自家的人工智能平臺(tái)Apple Intelligence。2024年秋季，Apple Intelligence在美國(guó)開(kāi)啟測(cè)試，后續(xù)逐漸拓展到更多地區(qū)。

不過(guò)，到目前為止，國(guó)行Apple Intelligence仍然沒(méi)有落地。對(duì)此，蘋(píng)果官方的說(shuō)法是「Apple 智能推出時(shí)間依監(jiān)管部門(mén)審批情況而定�！�

（圖源：蘋(píng)果）

日前，知名蘋(píng)果爆料網(wǎng)站9to5Mac發(fā)文稱(chēng)，蘋(píng)果聯(lián)合中國(guó)人民大學(xué)推出了VSSFlow新型AI模型，宣布在音頻生成技術(shù)取得了突破。蘋(píng)果此舉不僅是一次AI技術(shù)實(shí)力的展示，同時(shí)似乎也在釋放和國(guó)行Apple Intelligence相關(guān)的積極信號(hào)，Apple智能真的要來(lái)了嗎？

無(wú)聲視頻自動(dòng)配音，VSSFlow能解決哪些難題？

通過(guò)蘋(píng)果和中國(guó)人民大學(xué)聯(lián)合發(fā)布的論文以及9to5Mac的相關(guān)報(bào)道，我們可以了解到，VSSFlow的主要亮點(diǎn)是打破了以往「環(huán)境音」和「對(duì)話(huà)語(yǔ)音」需要分別生成的限制。具體來(lái)說(shuō)，以往的大部分視頻生成語(yǔ)音模型，都是把音頻中的環(huán)境音和人聲分開(kāi)處理，而VSSFlow的優(yōu)勢(shì)在于一站式同步生成。

（圖源：arXiv）

根據(jù)官方的說(shuō)法，VSSFlow模型生成環(huán)境音的方式是每秒讀取10幀視頻畫(huà)面作為線(xiàn)索，然后在隨機(jī)噪聲中逐步「構(gòu)建」出畫(huà)面的聲音。這個(gè)表述聽(tīng)起來(lái)很簡(jiǎn)單，但實(shí)現(xiàn)起來(lái)并不容易。一段沒(méi)有聲音的視頻，AI當(dāng)然也不可能「聽(tīng)」得到，本質(zhì)上還是根據(jù)視頻畫(huà)面來(lái)「猜」最接近最真實(shí)的環(huán)境音，比如判斷出畫(huà)面中的具體現(xiàn)實(shí)場(chǎng)景，再匹配相應(yīng)的環(huán)境音。

VSSFlow對(duì)應(yīng)的論文提到了關(guān)鍵的技術(shù)點(diǎn)——Flow-matching（流匹配），在AI世界中，模型需要通過(guò)雜亂的信息推理生成最可能的聲音。視頻畫(huà)面中藏著聲音對(duì)應(yīng)的線(xiàn)索，AI就是要在這些雜亂的「噪音」和目標(biāo)聲音之間建立起到達(dá)的路徑，也就是「流」。建立「流」的關(guān)鍵，是對(duì)視頻畫(huà)面和文字腳本的準(zhǔn)確理解。

（圖源：arXiv）

至于文本生成語(yǔ)音的能力，在早期就存在很多解決方案。比如說(shuō)，早前的智能手機(jī)以及很多閱讀App，都有TTS（文字轉(zhuǎn)語(yǔ)音）功能，它們只要把文字直接轉(zhuǎn)成語(yǔ)音庫(kù)里的預(yù)制音頻即可。不過(guò)，這種方案比較簡(jiǎn)單粗暴，聲音聽(tīng)起來(lái)機(jī)械感明顯，長(zhǎng)句斷句會(huì)很奇怪。AI時(shí)代，大模型加持的文字轉(zhuǎn)語(yǔ)音體驗(yàn)得到了大幅升級(jí)，真人感更明顯，無(wú)論是斷句、語(yǔ)氣還是情緒，都逐漸能做到以假亂真。

VSSFlow的視頻生成人聲技術(shù)，特點(diǎn)在于通過(guò)視頻腳本+視頻畫(huà)面來(lái)生成音頻，可以通過(guò)畫(huà)面中人物的口型、表情等因素來(lái)匹配語(yǔ)音的語(yǔ)氣、情緒、節(jié)奏等，從而生成更真實(shí)的AI人聲。

開(kāi)頭說(shuō)到了，VSSFlow能夠同時(shí)為視頻生成環(huán)境聲和人聲，根據(jù)官方描述，他們將視頻信號(hào)和文本轉(zhuǎn)錄一起嵌入到音頻生成的過(guò)程中。為了達(dá)到這一效果，研究人員進(jìn)行了混合數(shù)據(jù)訓(xùn)練，具體表現(xiàn)為VSSFlow模型訓(xùn)練時(shí)使用了無(wú)聲視頻配環(huán)境音、無(wú)聲說(shuō)話(huà)視頻配文本、以及純文本轉(zhuǎn)語(yǔ)音的數(shù)據(jù)。

簡(jiǎn)單總結(jié)下，VSSFlow是一款視頻生成音頻大模型，能同時(shí)為無(wú)聲視頻生成環(huán)境聲和人聲，核心優(yōu)勢(shì)在于通過(guò)流匹配技術(shù)提升了生成效率和音頻質(zhì)量。

用AI生成語(yǔ)音，有點(diǎn)用但仍然太局限

VSSFlow幫助視頻生成環(huán)境音和人聲的功能，具體能應(yīng)用到哪些場(chǎng)景呢？小雷能想到的大概就是老舊電影的音頻修復(fù)、失語(yǔ)障礙人士的輔助音頻、影視作品配音等。畢竟，VSSFlow仍然需要依賴(lài)文字腳本來(lái)生成人聲，不能只根據(jù)視頻畫(huà)面來(lái)推測(cè)出人聲，這將讓它更接近于一款更好用的配音工具。

目前市面上和VSSFlow最接近的大模型，應(yīng)該是谷歌的Deepmind V2A（視頻轉(zhuǎn)音頻）。V2A也是根據(jù)視頻畫(huà)面和文字腳本來(lái)生成對(duì)應(yīng)的環(huán)境音和人物對(duì)話(huà)，它的技術(shù)方案是在視覺(jué)信息和聽(tīng)覺(jué)信息之間建立起映射機(jī)制。

具體來(lái)說(shuō)，視覺(jué)信息包含的主要是空間、色彩、形狀、運(yùn)動(dòng)等，聽(tīng)覺(jué)信息一般是音色、頻率、節(jié)奏等，二者是不同的語(yǔ)義。將視覺(jué)特征和聽(tīng)覺(jué)特征進(jìn)行多層次的映射，持續(xù)訓(xùn)練后，AI就能根據(jù)視頻畫(huà)面的信息「猜」出它應(yīng)該匹配何種聽(tīng)覺(jué)特征的音頻。

（圖源：谷歌）

不過(guò)，在小雷看來(lái)，視頻生成語(yǔ)音技術(shù)的應(yīng)用場(chǎng)景，還是略微局限了一些。對(duì)普通用戶(hù)來(lái)說(shuō)，這項(xiàng)功能的作用不是特別大。作為對(duì)比，當(dāng)下流行的視頻生成技術(shù)，更加受創(chuàng)作者和普通用戶(hù)歡迎。使用者只要用一段話(huà)、幾張圖片，就能快速生成一段高真實(shí)度的視頻，實(shí)用性和趣味性都能瞬間拉滿(mǎn)。比如最近的Seedance 2.0，剛上線(xiàn)就火爆全網(wǎng)，大量用戶(hù)第一時(shí)間就嘗鮮體驗(yàn)了。

（圖源：雷科技，用Seedance 2.0制作）

但給無(wú)聲視頻配音這個(gè)場(chǎng)景，大部分人都很難遇到，畢竟我們不會(huì)無(wú)緣無(wú)故制作或者得到一段無(wú)聲視頻。它更加適用于影視制作行業(yè)中的某些細(xì)分領(lǐng)域，比如傳統(tǒng)擬音師的工作。

我們?cè)诤芏嘤耙曌髌分新?tīng)到的環(huán)境聲和動(dòng)作聲，其實(shí)都是擬音師在錄音棚里錄的，比如敲擊椰子殼模擬馬蹄聲、搓動(dòng)門(mén)鎖模擬手槍上膛聲等。同時(shí)，VSSFlow根據(jù)腳本和畫(huà)面生成人聲的功能，和動(dòng)漫聲優(yōu)所做的配音工作很接近�？梢韵胂蟮降氖牵纛l生成技術(shù)未來(lái)對(duì)影視行業(yè)產(chǎn)生的沖擊力會(huì)相當(dāng)大。

同時(shí)，VSSFlow為代表的語(yǔ)音生成模型，固然不太可能作為獨(dú)立的應(yīng)用向普通用戶(hù)推出，但和其他AI技術(shù)結(jié)合，會(huì)發(fā)揮出更大作用。比如它可以和視頻生成模型相結(jié)合，現(xiàn)在流行的視頻生成模型制作出來(lái)的視頻，大多會(huì)有配音。

不過(guò)，很多AI生成視頻的背景音和人聲質(zhì)量都相對(duì)一般，如果有VSSFlow之類(lèi)的語(yǔ)音生成模型助力，那么整體的效果會(huì)更好。實(shí)際上，谷歌Deepmind的V2A技術(shù)并沒(méi)有以單獨(dú)模型的方式發(fā)布，而是將部分功能整合在谷歌自家的視頻生成模型Veo中。

蘋(píng)果聯(lián)手國(guó)內(nèi)重點(diǎn)高校，國(guó)行版AI要來(lái)了？

對(duì)于蘋(píng)果產(chǎn)品，VSSFlow能落地的場(chǎng)景，小雷首先想到的是無(wú)障礙功能。目前蘋(píng)果設(shè)備的輔助選項(xiàng)中已經(jīng)有實(shí)時(shí)語(yǔ)音功能，即用戶(hù)可以手機(jī)上打字，然后轉(zhuǎn)成音頻。

（圖源：蘋(píng)果）

如果VSSFlow能運(yùn)用到這個(gè)場(chǎng)景里，那么語(yǔ)言障礙人士就可以在FaceTime之類(lèi)的視頻通話(huà)中，邊輸入文字，邊讓AI結(jié)合視頻畫(huà)面生成更自然的人聲。當(dāng)然，這項(xiàng)技術(shù)也能作為蘋(píng)果在AI領(lǐng)域的儲(chǔ)備，為后續(xù)視頻生成等功能或應(yīng)用提供助力。

而且，蘋(píng)果和國(guó)內(nèi)重點(diǎn)高校合作、聯(lián)合發(fā)布VSSFlow，無(wú)疑是在釋放愿意深耕國(guó)內(nèi)市場(chǎng)、推動(dòng)國(guó)行AI落地的積極信號(hào)。在VSSFlow的論文中，署名者中六位是來(lái)自中國(guó)人民大學(xué)的學(xué)者，三位是蘋(píng)果的研究員。在這個(gè)項(xiàng)目中，蘋(píng)果扮演的角色更接近于支持者、參與者而非主導(dǎo)者。

目前，國(guó)行版Apple Intelligence尚未推出。按照蘋(píng)果的政策，國(guó)行版iPhone等設(shè)備無(wú)法使用外版Apple Intelligence，未來(lái)外版硬件產(chǎn)品也不能用國(guó)行版Apple Intelligence。

基本可以確定的是，國(guó)行版Apple Intelligence的落地過(guò)程中，蘋(píng)果會(huì)和國(guó)內(nèi)AI巨頭達(dá)成合作。之前的傳言中，百度、阿里、DeepSeek等都是蘋(píng)果接觸過(guò)的廠商。2025年，彭博社知名記者馬克·古爾曼曾透露，國(guó)行Apple Intelligence采用的方案是阿里提供本地模型支持，百度文心一言提供云端AI支持。不過(guò)，國(guó)行Apple Intelligence 2025年未能落地，主要原因在于遇到了一些工程難題，同時(shí)國(guó)行AI的表現(xiàn)比較一般。

不過(guò)即便忽略國(guó)行版AI缺位的事實(shí)，蘋(píng)果的AI布局相對(duì)其他廠商是比較落后的。目前而言，海外版Apple Intelligence實(shí)現(xiàn)的功能和場(chǎng)景，其實(shí)沒(méi)有太多特別之處，反而因?yàn)槠湎鄬?duì)羸弱的AI實(shí)力而被吐槽。比如說(shuō)，蘋(píng)果近年推出的生成式圖片App「圖樂(lè)園（Image Playground）」，就飽受批評(píng)。這款A(yù)pp對(duì)圖片生成行為的管控非常嚴(yán)格，很多用戶(hù)的需求都被拒絕，被吐槽為只適合兒童使用的產(chǎn)品。

Apple Intelligence還引入了外部力量來(lái)幫忙，主要是ChatGPT，后續(xù)還有Gemini。其中，ChatGPT植入到了Siri中，讓Siri更像一個(gè)完全體的智能助理而非傳統(tǒng)的語(yǔ)音助手。另外，AI相關(guān)的功能還有寫(xiě)作助理、圖片消除等。只是，蘋(píng)果這些所謂的AI功能，實(shí)際體驗(yàn)起來(lái)震撼感不夠強(qiáng)，有點(diǎn)小打小鬧的感覺(jué)。

而且，蘋(píng)果為iOS 26畫(huà)的AI餅，至今還沒(méi)讓用戶(hù)吃上。根據(jù)最新消息，iOS 26.4的首個(gè)測(cè)試版將于2月底推送，會(huì)給AI帶來(lái)一點(diǎn)變化。這次系統(tǒng)升級(jí)，主要就是Siri會(huì)得到增強(qiáng)，包括擁有上下文理解能力、跨應(yīng)用操作能力和屏幕感知識(shí)別能力。坦率說(shuō)，這些升級(jí)仍然不會(huì)有什么驚喜感，只是多少會(huì)讓iOS 26變得更好用點(diǎn)。

作為對(duì)照組的三星，早在2024年就推出了AI手機(jī)，并且快速完成了國(guó)行手機(jī)的AI本地化。具體來(lái)說(shuō)，國(guó)行版手機(jī)中負(fù)責(zé)文本理解和生成的大模型為百度的文心一言，具體在筆記助手、錄音轉(zhuǎn)錄摘要等場(chǎng)景中發(fā)揮作用；它的生成式圖片編輯器則集成了美圖的奇想智能模型，實(shí)現(xiàn)智能消除、擴(kuò)圖等功能；國(guó)行版的即圈即搜功能，后臺(tái)數(shù)據(jù)來(lái)源于百度搜索和京東。另外，三星國(guó)行手機(jī)也有部分端側(cè)AI功能，通話(huà)實(shí)時(shí)翻譯和分屏同傳翻譯，都是基于三星自研本地AI模型實(shí)現(xiàn)的。

galaxy-ai_ft03-01_transcript_assist_pc_1140x714_v4.7.jpg

（圖源：三星）

換言之，蘋(píng)果國(guó)行AI方案，大體上抄三星的作業(yè)就行。相比海外版Apple Intelligence，國(guó)行版的核心工作就是將其中涉及到的大模型替換成國(guó)內(nèi)的，三星已經(jīng)做出了示范。

小雷個(gè)人認(rèn)為，蘋(píng)果國(guó)行AI進(jìn)展緩慢，主要責(zé)任還是在蘋(píng)果身上。畢竟，海外Apple Intelligence的落地過(guò)程也是一路磕磕絆絆，而且AI功能的實(shí)際體驗(yàn)很一般。以這樣的執(zhí)行力去推動(dòng)國(guó)行Apple Intelligence項(xiàng)目，效率可想而知。

當(dāng)然，不管怎么說(shuō)，蘋(píng)果參與的VSSFlow的到來(lái)，至少說(shuō)明了蘋(píng)果在AI領(lǐng)域不是毫無(wú)作為。如果蘋(píng)果能持續(xù)在AI研究領(lǐng)域產(chǎn)出成果，那么蘋(píng)果硬件AI化進(jìn)程將從中獲益，這才是構(gòu)建未來(lái)蘋(píng)果底層競(jìng)爭(zhēng)力的關(guān)鍵。

紅包.png