我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
科技日報北京7月25日電 (記者張夢(mèng)然)《自然》24日正式發(fā)表的一篇研究論文指出了一個(gè)人工智能(AI)嚴重問(wèn)題:用AI生成的數據集訓練未來(lái)幾代機器學(xué)習模型,可能會(huì )嚴重“污染”它們的輸出,這被稱(chēng)為“模型崩潰”。研究顯示,原始內容會(huì )在9次迭代以后,變成不相關(guān)的“胡言亂語(yǔ)”(演示中一個(gè)建筑文本最終變成了野兔的名字),這凸顯出使用可靠數據訓練AI模型的重要性。
生成式AI工具越來(lái)越受歡迎,如大語(yǔ)言模型等,這類(lèi)工具主要用人類(lèi)生成的輸入進(jìn)行訓練。不過(guò),隨著(zhù)這些AI模型在互聯(lián)網(wǎng)不斷壯大,計算機生成內容可能會(huì )以遞歸循環(huán)的形式被用于訓練其他AI模型或其自身。
包括英國牛津大學(xué)在內的聯(lián)合團隊一直在進(jìn)行相關(guān)研究,并在去年論文預印本中提出這一概念。在正式發(fā)表的論文中,他們用數學(xué)模型演示了AI可能會(huì )出現的“模型崩潰”。他們證明了一個(gè)AI會(huì )忽略訓練數據中的某些輸出(如不太常見(jiàn)的文本),導致其只用一部分數據集來(lái)自我訓練。
團隊分析了AI模型會(huì )如何處理主要由AI生成的數據集。他們發(fā)現,給模型輸入AI生成的數據,會(huì )減弱今后幾代模型的學(xué)習能力,最終導致了“模型崩潰”。他們測試的幾乎所有遞歸訓練語(yǔ)言模型,都容易出現問(wèn)題。比如,一個(gè)用中世紀建筑文本作為原始輸入的測試,到第9代的輸出已經(jīng)是一串野兔的名字。
團隊指出,用前幾代生成的數據集去訓練AI,崩潰是一個(gè)不可避免的結局。他們認為,必須對數據進(jìn)行嚴格過(guò)濾。與此同時(shí),這也意味著(zhù)依賴(lài)人類(lèi)生成內容的AI模型,或許能訓練出更高效的AI模型。
對AI來(lái)說(shuō),“模型崩潰”就像癌癥一樣,甚至分早期與晚期。在早期時(shí),被“喂”了生成數據的AI會(huì )開(kāi)始失去一些原始正確數據;但在晚期,被“喂”了生成數據的AI會(huì )“口吐狂言”——給出完全不符合現實(shí),也和底層數據一點(diǎn)不相關(guān)的結果,就像本文中的例子一樣。更可怕的是,“模型崩潰”的AI極其固執,錯誤幾乎難以矯正。它會(huì )持續強化,最終把錯誤結果認為是正確的。這一問(wèn)題值得所有關(guān)注生成式AI的人們警惕,因為它等于是在“毒化”AI對真實(shí)世界的認知。
【責任編輯:冉曉寧】