快訊 來源:智東西 2025-10-27 19:25:49
智東西編譯 王欣逸編輯 程茜
智東西10月27日消息,10月15日,德國農(nóng)工大學、德克薩斯大學奧斯汀分校和普渡大學的研究團隊在arXiv上發(fā)表了一篇論文,提出并測試了“LLM腦腐假說”(LLM Brain Rot Hypothesis)。研究顯示,經(jīng)垃圾數(shù)據(jù)訓練后,Llama 8B模型的推理能力下降了23.6%,自戀和精神病態(tài)的水平上升了兩倍多。
(資料圖)
“腦腐”(brain rot)指人們長時間暴露于碎片化信息下可能導致腦功能損傷。研究人員提出,和人類“腦腐”現(xiàn)象相對應,大模型接觸大量垃圾網(wǎng)絡文本可能會出現(xiàn)“大腦退化”、認知能力持續(xù)下降的現(xiàn)象。
論文地址:https://llm-brain-rot.github.io
一、海量垃圾數(shù)據(jù),讓大模型們認知退化
在研究過程中,研究人員在社交平臺X的語料庫上進行了受控實驗,從1億條的帖子中確定了兩種類型的垃圾數(shù)據(jù),并采用兩個正交操作化方法構(gòu)建了垃圾數(shù)據(jù)集M1、M2和反向?qū)φ諗?shù)據(jù)集。
M1:參與度——衡量帖子的受歡迎程度和簡短程度。點贊、轉(zhuǎn)發(fā)和評論量高的內(nèi)容,特別是淺薄且吸引人的內(nèi)容,這些被標記為垃圾數(shù)據(jù)。同時,篇幅更長、傳播性不強的帖子則成為對照組。
M2:語義質(zhì)量——評估文本的聳人聽聞程度和膚淺程度。帶引誘性質(zhì)的語言(如“哇”、“看”、“僅限今天”)或夸大其詞的帖子被標記為垃圾數(shù)據(jù)。同時,基于事實、有教育性或說理性的帖子被選擇作為對照組。
研究人員將這兩類垃圾數(shù)據(jù)混合高質(zhì)量數(shù)據(jù),對Llama3-8B、Qwen-2.5-7B/0.5B、Qwen3-4B這四個已經(jīng)預訓練并經(jīng)過微調(diào)的大模型進行訓練,并觀測其四個方面的認知能力:推理能力、長期記憶能力、倫理道德規(guī)范和表現(xiàn)出的個性風格。
通過測量4個大模型的Hedges’g(效應量)可得,垃圾數(shù)據(jù)明顯影響了大模型的推理能力和長時間記憶能力(Hedges’g>0.3)。
在其他訓練中,垃圾數(shù)據(jù)對大模型對影響還存在更復雜的情況。
不同比例的垃圾數(shù)據(jù)不僅會讓大模型在思維上變得更笨,還會導致模型“個性”的負面指標發(fā)生變化。例如,Llama 8B模型表現(xiàn)出了明顯更高的自戀水平,在精神病態(tài)指標上還從幾乎沒有的數(shù)值增長到了極高的行為發(fā)生率。
此外,Llama 8B模型使用垃圾數(shù)據(jù)和對照數(shù)據(jù)各占50%的混合數(shù)據(jù)進行訓練,在道德規(guī)范、高開放性等基準訓練中產(chǎn)生的分數(shù)比“全垃圾”或“全對照”訓練數(shù)據(jù)都要高。
從圖表結(jié)果可知,M1和M2這兩種干預的效果出現(xiàn)了分歧,這意味著參與度(M1)并非語義質(zhì)量(M2)的代理指標,而是代表了不同維度的數(shù)據(jù)質(zhì)量。
在劑量反應測試中,參與度(M1)干預對推理和長上下文能力的影響比語義質(zhì)量(M2)干預更為顯著和漸進,即簡短、高互動的內(nèi)容對AI的負面影響可能比低質(zhì)量內(nèi)容的更大。
二、患上“腦腐”的大模型,幾乎難以恢復
研究人員還聚焦ARC-Challenge(常識推理)中的推理失敗案例,分析不同的失敗模式。
他們識別出五種基本的失敗模式,分別是:無思考、無計劃、計劃跳步、邏輯錯誤、事實錯誤,其中無思考占比最高,且大多數(shù)失敗與“思維跳躍”有關(guān),例如,模型無法生成中間推理步驟。
除此之外,研究人員還試圖探究腦腐造成的認知影響是否可以恢復。
研究表明,即使在“腦腐”后進行大量的指令微調(diào)或者利用高質(zhì)量數(shù)據(jù)模型進行再訓練,模型仍會受垃圾數(shù)據(jù)揮之不去的影響。一旦模型的性能開始下降,即使想要恢復原有性能,也只能是實現(xiàn)部分的恢復。
因此,為大模型抓取海量互聯(lián)網(wǎng)數(shù)據(jù)不一定是件好事。
結(jié)語:AI開發(fā)者需重新審視數(shù)據(jù)策略,警惕大模型“腦腐”
研究人員指出,過度依賴互聯(lián)網(wǎng)數(shù)據(jù)可能會導致大模型預訓練受到污染,這也意味著,人們應當重新審視當前從互聯(lián)網(wǎng)收集數(shù)據(jù)的方式以及持續(xù)的預訓練實踐。
除此之外,當下的互聯(lián)網(wǎng)上越來越多的內(nèi)容由AI生成,如果用這些內(nèi)容來訓練模型,可能會導致“模型崩潰”。
研究人員建議:AI公司需要關(guān)注訓練大模型的數(shù)據(jù)質(zhì)量,而非僅僅囤積海量數(shù)據(jù)。此外,他們可能還需要對模型進行“認知健康檢查”。
來源:Ars Technica、arXiv
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
下一篇:最后一頁