科技日報記者?張夢然
《自然》24日正式發(fā)表的一篇研究論文指出了一個人工智能(AI)嚴(yán)重問題:用AI生成的數(shù)據(jù)集訓(xùn)練未來幾代機(jī)器學(xué)習(xí)模型,可能會嚴(yán)重“污染”它們的輸出,這被稱為“模型崩潰”。研究顯示,原始內(nèi)容會在9次迭代以后,變成不相關(guān)的“胡言亂語”(演示中一個建筑文本最終變成了野兔的名字),這凸顯出使用可靠數(shù)據(jù)訓(xùn)練AI模型的重要性。
研究模型測試。
圖源:《自然》
生成式AI工具越來越受歡迎,如大語言模型等,這類工具主要用人類生成的輸入進(jìn)行訓(xùn)練。不過,隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大,計算機(jī)生成內(nèi)容可能會以遞歸循環(huán)的形式被用于訓(xùn)練其他AI模型或其自身。
包括英國牛津大學(xué)在內(nèi)的聯(lián)合團(tuán)隊一直在進(jìn)行相關(guān)研究,并在去年論文預(yù)印本中提出這一概念。在正式發(fā)表的論文中,他們用數(shù)學(xué)模型演示了AI可能會出現(xiàn)的“模型崩潰”。他們證明了一個AI會忽略訓(xùn)練數(shù)據(jù)中的某些輸出(如不太常見的文本),導(dǎo)致其只用一部分?jǐn)?shù)據(jù)集來自我訓(xùn)練。
團(tuán)隊分析了AI模型會如何處理主要由AI生成的數(shù)據(jù)集。他們發(fā)現(xiàn),給模型輸入AI生成的數(shù)據(jù),會減弱今后幾代模型的學(xué)習(xí)能力,最終導(dǎo)致了“模型崩潰”。他們測試的幾乎所有遞歸訓(xùn)練語言模型,都容易出現(xiàn)問題。比如,一個用中世紀(jì)建筑文本作為原始輸入的測試,到第9代的輸出已經(jīng)是一串野兔的名字。
團(tuán)隊指出,用前幾代生成的數(shù)據(jù)集去訓(xùn)練AI,崩潰是一個不可避免的結(jié)局。他們認(rèn)為,必須對數(shù)據(jù)進(jìn)行嚴(yán)格過濾。與此同時,這也意味著依賴人類生成內(nèi)容的AI模型,或許能訓(xùn)練出更高效的AI模型。
總編輯圈點:
對AI來說,“模型崩潰”就像癌癥一樣,甚至分早期與晚期。在早期時,被“喂”了生成數(shù)據(jù)的AI會開始失去一些原始正確數(shù)據(jù);但在晚期,被“喂”了生成數(shù)據(jù)的AI會“口吐狂言”——給出完全不符合現(xiàn)實,也和底層數(shù)據(jù)一點不相關(guān)的結(jié)果,就像本文中的例子一樣。更可怕的是,“模型崩潰”的AI極其固執(zhí),錯誤幾乎難以矯正。它會持續(xù)強(qiáng)化,最終把錯誤結(jié)果認(rèn)為是正確的。這一問題值得所有關(guān)注生成式AI的人們警惕,因為它等于是在“毒化”AI對真實世界的認(rèn)知。