亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2023-06-15 09:56

研究警示:使用AI生成的內(nèi)容訓練可能導致模型崩潰

AI奇點網(wǎng)6月15日報道 | 隨著AI生成內(nèi)容的廣泛應用,一個令人擔憂的問題開始浮現(xiàn):當AI生成的內(nèi)容在互聯(lián)網(wǎng)上不斷增加,并且用于訓練模型時,會發(fā)生什么?

最近來自英國和加拿大的研究人員對這個問題進行了深入研究,并在開放獲取期刊arXiv上發(fā)表了一篇相關(guān)論文。他們的研究發(fā)現(xiàn)令人憂慮,即使用模型生成的數(shù)據(jù)進行訓練會導致生成的模型出現(xiàn)不可逆轉(zhuǎn)的缺陷,被稱為"模型崩潰"。

研究人員主要研究了文本到文本和圖像到圖像的AI生成模型的概率分布。他們得出結(jié)論稱,從其他模型生成的數(shù)據(jù)中進行學習會導致模型崩潰,這是一個逐漸退化的過程,隨著時間的推移,模型會逐漸忘記真正的底層數(shù)據(jù)分布。即使在理想的長期學習條件下,這個過程也是不可避免的。

當AI訓練模型接觸到更多AI生成的數(shù)據(jù)時,模型的性能會逐漸下降。它會在生成的響應和內(nèi)容中產(chǎn)生更多錯誤,并且響應的非錯誤多樣性也會減少。

AI生成數(shù)據(jù)的"污染"導致模型對現(xiàn)實的感知產(chǎn)生了扭曲。即使研究人員嘗試訓練模型不要生成過多重復的響應,他們發(fā)現(xiàn)模型崩潰仍然會發(fā)生,因為模型會編造錯誤的響應以避免頻繁重復數(shù)據(jù)。

幸運的是,即使在現(xiàn)有的轉(zhuǎn)換器和LLM(語言模型)的情況下,有一些方法可以避免模型崩潰。研究人員強調(diào)了兩種具體的方法。

首先是保留原始的完全或名義上由人工生成的數(shù)據(jù)集的副本,并且不要與AI生成的數(shù)據(jù)混淆。然后,可以定期重新訓練模型或從頭開始使用完全新的數(shù)據(jù)集來刷新模型。

第二種方法是將新的、干凈的、由人類生成的數(shù)據(jù)重新引入到訓練中,以避免響應質(zhì)量下降并減少模型中不需要的錯誤或重復。

然而,研究人員指出,這需要內(nèi)容制作者或人工智能公司采用一種大規(guī)模標簽機制或努力來區(qū)分人工智能生成的內(nèi)容和人類生成的內(nèi)容。

總之,這些研究發(fā)現(xiàn)對于人工智能領(lǐng)域具有重要意義,強調(diào)了需要改進方法以保持生成模型的完整性隨著時間的推移。它們也提醒我們注意未經(jīng)檢查的生成過程的風險,并可能指導未來的研究以制定防止或管理模型崩潰的策略。

6
查看相關(guān)話題: #AI #模型崩潰

相關(guān)文章