123,123

春節(jié)AI紅包，本質(zhì)是一場(chǎng)大規(guī)模微數(shù)據(jù)收割行動(dòng)

2026-03-03 14:25

硅基星芒

關(guān)注

長(zhǎng)期以來(lái)，我們默認(rèn)生活與網(wǎng)絡(luò)之間存在一道物理隔離的防火墻。

不過(guò)，近幾年來(lái)，互聯(lián)網(wǎng)似乎開(kāi)始不那么“安全”了。

信息安全領(lǐng)域中，有一個(gè)叫做“實(shí)際隱晦性（Practical Obscurity）”的概念。

這在生活中并不罕見(jiàn)：如果有人能翻遍你在貼吧的所有發(fā)帖、對(duì)比你在微博和小紅書(shū)的發(fā)言習(xí)慣，就有很大的可能性認(rèn)出你是誰(shuí)。

盡管如此，大部分人是沒(méi)有這個(gè)閑情逸致并搭上時(shí)間成本來(lái)做這件事的。

但如今互聯(lián)網(wǎng)步入了AI時(shí)代，情況就變得有所不同。

大語(yǔ)言模型（LLMs）的出現(xiàn)，一下子讓馬甲后那堵防火墻化為齏粉。

還記得上周Anthropic指控國(guó)產(chǎn)AI企業(yè)惡意蒸餾，卻被用戶(hù)反問(wèn)“你們是在炫耀能用元數(shù)據(jù)讓用戶(hù)無(wú)法匿名”的事嗎？

就在幾天之后，Anthropic又向全球廣播了一個(gè)駭人聽(tīng)聞的事實(shí)：不用元數(shù)據(jù)，只要你能用大模型，就可以讓匿名無(wú)效！

去匿名化的手段：結(jié)構(gòu)化匹配

Anthropic的安全研究團(tuán)隊(duì)又有了新發(fā)現(xiàn)。

他們和蘇黎世聯(lián)邦理工學(xué)院共同發(fā)布了一篇在互聯(lián)網(wǎng)上極具破壞性的論文：《Large-scale online deanonymization with LLMs》。

稱(chēng)之為“破壞性”其實(shí)一點(diǎn)都不過(guò)分，因?yàn)檫@篇論文表達(dá)的核心觀點(diǎn)是：

在互聯(lián)網(wǎng)上，對(duì)于大規(guī)模的非結(jié)構(gòu)化文本，通過(guò)調(diào)用現(xiàn)有的API和公開(kāi)模型，大語(yǔ)言模型只需用最多4美元的低廉成本，就可以用極高的準(zhǔn)確率將人們的匿名賬號(hào)與真實(shí)身份完全關(guān)聯(lián)。

事實(shí)上，去匿名化對(duì)于計(jì)算機(jī)行業(yè)來(lái)說(shuō)已經(jīng)不是一個(gè)新的課題。

在2006年，當(dāng)時(shí)的流媒體巨頭Netflix主營(yíng)業(yè)務(wù)還是郵寄租賃DVD。

為了向用戶(hù)更精準(zhǔn)地推薦電影，Netflix決定舉辦一場(chǎng)算法競(jìng)賽，誰(shuí)能將現(xiàn)有的電影推薦系統(tǒng)的預(yù)測(cè)準(zhǔn)確率提升10%，誰(shuí)就能拿走高達(dá)100萬(wàn)美元的獎(jiǎng)金。

設(shè)計(jì)算法就需要數(shù)據(jù)，雖然當(dāng)時(shí)還沒(méi)有大數(shù)據(jù)技術(shù)，但Netflix仍然為此公開(kāi)了一份龐大的數(shù)據(jù)集，包含約50萬(wàn)名真實(shí)用戶(hù)的觀影數(shù)據(jù)和1億條電影評(píng)分記錄。

毫無(wú)疑問(wèn)，公開(kāi)這種隱私數(shù)據(jù)必須先進(jìn)行脫敏。Netflix刪除了所有的個(gè)人身份信息，如真實(shí)姓名、郵箱、地址、信用卡號(hào)等，只留下和電影相關(guān)的一些信息。

Netflix也信誓旦旦地向全世界保證：公開(kāi)的數(shù)據(jù)中不會(huì)包含任何可能識(shí)別出個(gè)人身份的數(shù)據(jù)。

在不看電影的人們看來(lái)，公開(kāi)的數(shù)據(jù)和垃圾并無(wú)兩樣，但最后的結(jié)果卻超出人們的想象：

兩名安全研究人員Narayanan和Shmatikov在既不攻擊Netflix服務(wù)器、也不使用任何黑客技術(shù)的情況下攻破了Netflix的防御。

這兩位研究員使用了一種叫做鏈接攻擊（Linkage Attack）的方法，并引入互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù)（IMDb）作為輔助數(shù)據(jù)集。

他們敏銳地注意到，很多人在Netflix匿名打分的同時(shí)，還喜歡在IMDb上公開(kāi)寫(xiě)影評(píng)。因此，他們使用爬蟲(chóng)獲取了大量公開(kāi)用戶(hù)主頁(yè)，直接拿到了用戶(hù)的真實(shí)姓名、網(wǎng)名、常住地等敏感信息，以及對(duì)電影的公開(kāi)評(píng)價(jià)和日期。

接下來(lái)的步驟就很簡(jiǎn)單了，拿著這些電影相關(guān)的信息，去Netflix公開(kāi)的1億條數(shù)據(jù)中玩“連連看”。

雖然看熱門(mén)電影的人很多，但每個(gè)人看電影的組合和時(shí)間軌跡卻極其獨(dú)特，幾乎獨(dú)一無(wú)二。

就像是人的指紋一樣，憑借著IMDb上的公開(kāi)主頁(yè)，兩位研究員成功實(shí)現(xiàn)了匿名評(píng)論與用戶(hù)真實(shí)身份的綁定。

也正是在這個(gè)時(shí)候，災(zāi)難降臨了。

一旦賬號(hào)被確定關(guān)聯(lián)，用戶(hù)的完整觀影歷史也就徹底暴露，各種隱私信息被迫公開(kāi)導(dǎo)致Netflix被提出集體訴訟，盡管高額的代價(jià)實(shí)現(xiàn)了庭外和解，但原先設(shè)計(jì)的第二屆競(jìng)賽也被永久取消。

這就是最早期的“去匿名化”攻擊，看似簡(jiǎn)單，卻奠定了現(xiàn)代信息安全的一個(gè)核心概念：

微數(shù)據(jù)（Micro-data）本身就是一種身份標(biāo)識(shí)，這與Anthropic防御蒸餾使用的元數(shù)據(jù)非常類(lèi)似。

不過(guò)，18年前的這次攻擊也存在一個(gè)致命的弱點(diǎn)：必須使用結(jié)構(gòu)化數(shù)據(jù)。

簡(jiǎn)單地說(shuō)，攻擊者從IMDb的公開(kāi)主頁(yè)中得到用戶(hù)觀看的確切電影名、打分、時(shí)間戳等信息，并將之打包成一個(gè)數(shù)據(jù)包，格式高度標(biāo)準(zhǔn)化，多一條少一條都不行。

只有拿著這種數(shù)據(jù)包，才能去數(shù)據(jù)庫(kù)里“連連看”。因此，面對(duì)如今我們?cè)谏缃黄脚_(tái)上隨意發(fā)布的評(píng)論，這種手段是沒(méi)有作用的。

但令人沒(méi)想到的是，18年后的AI時(shí)代，大語(yǔ)言模型帶來(lái)了技術(shù)拐點(diǎn)。

去匿名化的工業(yè)級(jí)流水線：ESRC框架

Anthropic的研究人員發(fā)現(xiàn)，現(xiàn)有的大語(yǔ)言模型正好能充當(dāng)一個(gè)永動(dòng)機(jī)般的偵探來(lái)玩這局“連連看”。

全球范圍內(nèi)，每個(gè)用戶(hù)和AI的聊天，組成了海量且雜亂的非結(jié)構(gòu)化數(shù)據(jù)集，而大語(yǔ)言模型非常善于從這些不經(jīng)意的閑談中提取用戶(hù)的微數(shù)據(jù)：

點(diǎn)外賣(mài)會(huì)讓它知道你住在哪里，查菜譜會(huì)讓它知道你愛(ài)吃什么，甚至改代碼也會(huì)讓它發(fā)現(xiàn)你有用拼音命名變量的壞習(xí)慣。

生活中常用AI的朋友肯定心知肚明，我們告訴AI的信息遠(yuǎn)不止這些，而如此豐富的信息足以讓AI將之轉(zhuǎn)化為結(jié)構(gòu)化特征并進(jìn)行全網(wǎng)匹配。

為了證明大語(yǔ)言模型這種獨(dú)有的攻擊手段能夠在百萬(wàn)級(jí)別的用戶(hù)數(shù)據(jù)庫(kù)中自動(dòng)運(yùn)行，研究團(tuán)隊(duì)沒(méi)有像日常對(duì)話一樣依賴(lài)簡(jiǎn)單的提示詞進(jìn)行驗(yàn)證，而是專(zhuān)門(mén)設(shè)計(jì)了一套模塊化流水線，名為ESRC框架。

這個(gè)框架的命名由四個(gè)階段的首字母組成：提�。‥xtract）、搜索（Search）、推理（Reason）、校準(zhǔn)（Calibrate）。

Step 1：提�。‥xtract）

日常生活中人們匿名在網(wǎng)絡(luò)上發(fā)表的內(nèi)容十分隨意，語(yǔ)義模糊、無(wú)實(shí)際意義的文字隨處可見(jiàn)，這些都屬于非結(jié)構(gòu)化的文本。有的時(shí)候，人們看到這些東西自己都不知道自己在說(shuō)些什么，更別提讓模型去理解。

因此，研究人員首先使用了輕量級(jí)的大模型對(duì)這些文本進(jìn)行過(guò)濾，剔除掉“經(jīng)驗(yàn)+3”這種無(wú)意義的回復(fù)以及純鏈接等垃圾信息。

隨后，過(guò)濾后的文本將被發(fā)送給高端模型，要求其輸出一個(gè)用逗號(hào)分隔的核心細(xì)節(jié)列表。

如此一來(lái)，一段匿名發(fā)送的看起來(lái)沒(méi)什么具體含義的文字就可能變?yōu)橐欢斡袃r(jià)值的信息序列，比如[“24歲”, ”學(xué)生”, “現(xiàn)居北京”, “養(yǎng)了一只名叫coco的小狗”]，類(lèi)似于Python中的列表。

Step 2：搜索（Search）

有效的匿名信息有了，再加上包含真實(shí)身份的數(shù)據(jù)庫(kù)，這局“連連看”也就可以開(kāi)始了。

不過(guò)，面對(duì)每天上億個(gè)tokens和百萬(wàn)用戶(hù)，如果直接讓大語(yǔ)言模型兩兩比對(duì)，時(shí)間復(fù)雜度就會(huì)是O(N²)，給AI廠商支付的API成本肯定是無(wú)法承受的。

因此，Anthropic的研究團(tuán)隊(duì)引入向量檢索技術(shù)，并調(diào)用了OpenAI的text-embedding-3-large模型作為翻譯官。

前面提取出的核心細(xì)節(jié)列表會(huì)被翻譯成一個(gè)高維度的向量，里面包含成千上萬(wàn)個(gè)數(shù)字，被稱(chēng)為密集向量。

我們不經(jīng)意之間告訴AI的那些信息，就儲(chǔ)存在密集向量中。越是興趣愛(ài)好相似的人，其密集向量在向量空間中就越接近。

而這個(gè)時(shí)候，F(xiàn)acebook開(kāi)發(fā)的一個(gè)開(kāi)源工具“FAISS庫(kù)”又能派上用場(chǎng)：它負(fù)責(zé)計(jì)算余弦相似度來(lái)尋找那些與匿名信息最匹配的真實(shí)身份。

通過(guò)這種方式，模型就不必在超大規(guī)模的用戶(hù)池中大海撈針，只需比對(duì)與匿名信息最匹配的那一群人即可。

Step 3：推理（Reason）

需要注意的是，傳統(tǒng)的嵌入向量檢索技術(shù)靠計(jì)算余弦相似度只能做到縮小范圍，但無(wú)法直接實(shí)現(xiàn)高精度的匹配，因?yàn)橐揽肯蛄坑?jì)算出來(lái)的概率進(jìn)行關(guān)聯(lián)匹配是不可靠的。

相比傳統(tǒng)的計(jì)算機(jī)算法，大語(yǔ)言模型最大的優(yōu)勢(shì)就在于能夠主動(dòng)進(jìn)行“推理”這個(gè)過(guò)程。

因此，研究人員把與匿名信息最匹配的前100個(gè)候選真實(shí)身份交給頂尖的大語(yǔ)言模型，由它們通過(guò)高強(qiáng)度的推理得出結(jié)論。

大語(yǔ)言模型既可以尋找相似之處，也可以尋找矛盾之處。

假設(shè)有一個(gè)候選人與核心信息列表中的絕大部分特征都吻合，例如“24歲”、“學(xué)生”、“養(yǎng)狗”等等，但他的IP卻顯示在美國(guó)，目標(biāo)賬號(hào)活躍時(shí)間往往是在凌晨。

Refer to caption

在向量空間中，其匿名發(fā)布的信息可能與其真實(shí)身份極其接近，但事實(shí)截然相反。大語(yǔ)言模型此時(shí)就可以像人類(lèi)一樣，利用這些明顯的矛盾排除高相似度的錯(cuò)誤選項(xiàng)。

Step 4：校準(zhǔn)（Calibrate）

對(duì)于真實(shí)世界的安全攻擊來(lái)說(shuō)，必須遵循一條規(guī)律：寧可漏報(bào)，絕不誤報(bào)。因此，校準(zhǔn)環(huán)節(jié)必須解答一個(gè)問(wèn)題：大語(yǔ)言模型已經(jīng)找到了人，但這個(gè)結(jié)果是否值得相信？

套用到實(shí)際的應(yīng)用場(chǎng)景中很容易理解：出于好奇心，從一個(gè)人匿名發(fā)布的內(nèi)容推測(cè)這個(gè)人是誰(shuí)，一旦判斷錯(cuò)了不僅前功盡棄，還容易引起不必要的尷尬。

因此，讓大語(yǔ)言模型匹配匿名信息與真實(shí)身份，要么結(jié)果正確，要么沒(méi)有結(jié)果，絕不允許出現(xiàn)錯(cuò)誤的匹配。

在大語(yǔ)言模型推理完成后，攻擊者就會(huì)得到許多匹配結(jié)果，一個(gè)匿名賬號(hào)對(duì)應(yīng)一個(gè)真實(shí)身份，暫且把它記作一對(duì)。成千上萬(wàn)對(duì)匹配結(jié)果中，必然有錯(cuò)有對(duì)。

為了解決向量相似度不靠譜和模型推理可能遺漏細(xì)微矛盾點(diǎn)等問(wèn)題，研究團(tuán)隊(duì)特意添加了一輪校準(zhǔn)機(jī)制：

他們又設(shè)置了一個(gè)價(jià)格稍低的模型充當(dāng)裁判，并讓匹配結(jié)果中的每一對(duì)進(jìn)行1v1的PK。作為裁判的模型要回答其中哪一對(duì)看起來(lái)更像是同一個(gè)人。

每一輪PK后，系統(tǒng)根據(jù)結(jié)果更新每一對(duì)匹配結(jié)果的評(píng)分。在經(jīng)過(guò)幾千次的比較后，最終得到一個(gè)極其可靠的置信度排名。

結(jié)果顯示，這種方法能夠極大程度上提高在99%以上精確率下的系統(tǒng)召回率，讓匹配關(guān)系更加可靠。

去匿名化的實(shí)驗(yàn)結(jié)果：全面擊潰

為了評(píng)估ESRC框架是否有效，Anthropic的研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)模擬真實(shí)世界的場(chǎng)景，結(jié)果令人有些害怕。

首先是來(lái)自自主Agent的降維打擊。

研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)具備網(wǎng)絡(luò)搜索功能的大語(yǔ)言模型Agent，并試圖讓它將脫敏后的極客論壇賬號(hào)與真實(shí)LinkedIn職場(chǎng)身份進(jìn)行關(guān)聯(lián)。

這個(gè)實(shí)驗(yàn)與人肉搜索的過(guò)程幾乎完全一致，攻擊者只需要提供脫敏后的極客論壇檔案，該Agent就能自主生成搜索詞、調(diào)用搜索引擎并交叉比對(duì)從網(wǎng)頁(yè)中獲得的證據(jù)。

研究團(tuán)隊(duì)設(shè)計(jì)的準(zhǔn)確率要求是90%，在此基礎(chǔ)下該Agent竟然成功還原了67%的用戶(hù)身份，耗時(shí)只有短短幾分鐘。

更可怕的是，平均下來(lái)每位用戶(hù)的搜索成本只有1-4美元！

這就意味著，大規(guī)模、高定制化的“人肉搜索”在經(jīng)濟(jì)上已經(jīng)具備可行性。

接下來(lái)有人可能會(huì)想，真實(shí)的職場(chǎng)身份容易被發(fā)現(xiàn)，那如果是不同平臺(tái)的兩個(gè)匿名小號(hào)呢？

大模型給出的回復(fù)是：沒(méi)有區(qū)別。

為了模擬同一用戶(hù)在不同平臺(tái)的兩個(gè)匿名小號(hào)，研究團(tuán)隊(duì)將Reddit用戶(hù)發(fā)布的帖子分為兩類(lèi)：一類(lèi)是綜合電影板塊，一類(lèi)是小眾電影板塊。

但結(jié)果仍然令人驚訝：即便是沒(méi)有年齡、職業(yè)等容易形成強(qiáng)關(guān)聯(lián)的隱私數(shù)據(jù)，只有主觀的電影評(píng)價(jià)和審美偏好，ERSC框架也能將兩個(gè)小號(hào)精準(zhǔn)關(guān)聯(lián)。

冰冷的數(shù)據(jù)顯示，同一個(gè)用戶(hù)只要在兩個(gè)匿名小號(hào)中共同提到過(guò)10部電影，被精準(zhǔn)關(guān)聯(lián)的概率就已經(jīng)達(dá)到48.1%。

還有人會(huì)說(shuō)，人的愛(ài)好和討論熱點(diǎn)是會(huì)變的，過(guò)去的賬號(hào)和現(xiàn)在的新賬號(hào)壓根不相關(guān)。

很可惜，模型終究還是成功跨越了時(shí)間長(zhǎng)河。

研究團(tuán)隊(duì)將1萬(wàn)名用戶(hù)的評(píng)論以1年為期進(jìn)行劃分，一年前的言論作為查詢(xún)集，一年后的言論作為候選池。

實(shí)驗(yàn)證明，即便是完全不同時(shí)期的社會(huì)新聞和話題，大語(yǔ)言模型還是能見(jiàn)微知著，從寫(xiě)作風(fēng)格、興趣甚至是人口統(tǒng)計(jì)特征，從包含數(shù)千名干擾者的候選池中準(zhǔn)確找到用戶(hù)“過(guò)去的自己”。

去匿名化的現(xiàn)狀：無(wú)法防御

無(wú)論是2008年的Netflix事件，還是Anthropic研究團(tuán)隊(duì)的模擬實(shí)驗(yàn)，我們會(huì)發(fā)現(xiàn)數(shù)據(jù)規(guī)模其實(shí)并不大。

一個(gè)最直觀且正確的想法是：通過(guò)精準(zhǔn)匹配實(shí)現(xiàn)去匿名化的難度取決于候選池的大小。

若是將候選的真實(shí)身份擴(kuò)充到百萬(wàn)、千萬(wàn)級(jí)，采用ERSC框架的攻擊手段是否還能生效？

傳統(tǒng)統(tǒng)計(jì)算法顯然不行，哪怕是幾百人的情況下都會(huì)崩潰，召回率直接歸零；

但基于大語(yǔ)言模型的ERSC攻擊不一樣，它展現(xiàn)出了恐怖的對(duì)數(shù)線性衰減特性，即便是百萬(wàn)人，大語(yǔ)言模型仍然能在90%精確度的水平下保持35%的召回率。

更可怕的是，這種攻擊手段，用戶(hù)無(wú)法防御，平臺(tái)也無(wú)法防御。

對(duì)于用戶(hù)來(lái)說(shuō)，傳統(tǒng)的隱私保護(hù)手段大多是為了結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的。

我們可以把年齡模糊成年齡段，可以把定位服務(wù)關(guān)掉避免位置信息被獲取。

但生活和網(wǎng)絡(luò)中，一個(gè)人總得說(shuō)話。哪怕是用最高級(jí)的文本凈化技術(shù)來(lái)脫敏，大語(yǔ)言模型仍然能從這些非結(jié)構(gòu)化文本和上下文語(yǔ)境中推斷出些許特征。

對(duì)于平臺(tái)來(lái)說(shuō)，無(wú)法從API層面上封殺這種攻擊手段。

平臺(tái)看到黑客針對(duì)漏洞進(jìn)行攻擊，可以用防火墻攔截；但如果平臺(tái)看到用戶(hù)的請(qǐng)求是“幫我看看這兩段電影評(píng)價(jià)哪個(gè)寫(xiě)的更好”呢？

攻擊手段恰恰就包含在這些看起來(lái)完全正常的用戶(hù)請(qǐng)求之中，模型提供商根本無(wú)法判斷調(diào)用者是在進(jìn)行去匿名化攻擊還是在正常工作。

至此，網(wǎng)絡(luò)安全領(lǐng)域的防御成本和攻擊成本的非對(duì)稱(chēng)性已經(jīng)被徹底逆轉(zhuǎn)。

結(jié)語(yǔ)

以前，我們面對(duì)互聯(lián)網(wǎng)總是會(huì)想：我不過(guò)是個(gè)普通人，誰(shuí)會(huì)閑的沒(méi)事扒我的馬甲？

隱藏在商業(yè)世界中的變現(xiàn)邏輯恐怕不會(huì)這么想。

如果我們把目光拉回到剛剛過(guò)去的春節(jié)，國(guó)內(nèi)幾家頭部大模型平臺(tái)無(wú)一例外地推出了AI助手的激勵(lì)政策。

無(wú)論是元寶派的現(xiàn)金紅包，還是千問(wèn)的免費(fèi)奶茶，幾家平臺(tái)砸下數(shù)十億現(xiàn)金的猛烈營(yíng)銷(xiāo)使得其產(chǎn)品在春節(jié)期間的日活數(shù)據(jù)飆升，但假期一過(guò)，留存率卻相當(dāng)慘淡。

按照過(guò)往的互聯(lián)網(wǎng)運(yùn)營(yíng)思維來(lái)看，這當(dāng)然談不上是什么成功的拉新活動(dòng)。各家的錢(qián)都沒(méi)少燒，ROI卻不見(jiàn)起色，用戶(hù)薅完羊毛心滿意足地轉(zhuǎn)身離去，產(chǎn)品還是沒(méi)多少人主動(dòng)用。

但是，看完這篇論文，我卻感到細(xì)思極恐。

或許，這不是一次失敗的拉新?tīng)I(yíng)銷(xiāo)，而是一場(chǎng)披著春節(jié)外衣的大規(guī)模微數(shù)據(jù)收割行動(dòng)。

回想一下春節(jié)假期里人們都用AI做了什么？

了解拜年話術(shù)、查詢(xún)年夜飯菜譜、制定旅行規(guī)劃、訂購(gòu)?fù)赓u(mài)奶茶、甚至是編寫(xiě)復(fù)工請(qǐng)假理由。

這些非結(jié)構(gòu)化的自然語(yǔ)言，在用戶(hù)看來(lái)只是閑聊，在傳統(tǒng)算法面前只是幾句廢話。

但在普遍擁有ESRC能力的AI公司看來(lái)，這些信息就意味著價(jià)值，而大語(yǔ)言模型正是發(fā)現(xiàn)價(jià)值的顯微鏡。

AI公司并不需要用戶(hù)高度留存，相反，只要用戶(hù)點(diǎn)開(kāi)對(duì)話框，哪怕只用了幾分鐘聊了幾句，大語(yǔ)言模型就能從簡(jiǎn)短而模糊的需求中精確提取出年齡、常住地、職業(yè)、家庭結(jié)構(gòu)、消費(fèi)能力甚至性格等高價(jià)值信息。

在AI公司手里，ESRC框架的攻擊手段正是精準(zhǔn)描繪用戶(hù)畫(huà)像的最強(qiáng)武器。

過(guò)去，字節(jié)可能需要分析過(guò)去一個(gè)月用戶(hù)看過(guò)的抖音短視頻、騰訊可能要分析用戶(hù)在微信看過(guò)的一千篇?dú)v史文章、阿里可能要分析用戶(hù)在淘寶購(gòu)買(mǎi)的上百個(gè)產(chǎn)品，才能模模糊糊拼湊出用戶(hù)大概是個(gè)什么樣的人。

而如今，憑借著大語(yǔ)言模型已經(jīng)溢出的語(yǔ)義理解和推理能力，僅靠幾次不經(jīng)意之間的對(duì)話碎片，AI就可以輕松在海量數(shù)據(jù)中完成精準(zhǔn)的“去匿名化”定位。

這些被提取出來(lái)的高質(zhì)量用戶(hù)標(biāo)簽，正是實(shí)現(xiàn)精準(zhǔn)的廣告投流、跨平臺(tái)數(shù)據(jù)變現(xiàn)以及未來(lái)模型的訓(xùn)練最寶貴的資產(chǎn)。

而我們，沒(méi)有反抗的余地。

總之，無(wú)論如何我們都只能接受一個(gè)事實(shí)：長(zhǎng)期以來(lái)，支撐互聯(lián)網(wǎng)自由表達(dá)的匿名機(jī)制，在LLM面前已經(jīng)失去了意義。

原文標(biāo)題 : 春節(jié)AI紅包，本質(zhì)是一場(chǎng)大規(guī)模微數(shù)據(jù)收割行動(dòng)