大模型數(shù)學(xué)能力驟降,數(shù)學(xué)“罪魁禍?zhǔn)?rdquo;是題干貓貓?
只需在問(wèn)題后加一句:有趣的事實(shí)是,貓一生絕大多數(shù)時(shí)間都在睡覺(jué)。貓都
大模型本來(lái)能做對(duì)的不會(huì)倍數(shù)學(xué)題,答錯(cuò)概率立刻翻3倍。錯(cuò)誤
而且這一波就是率翻沖著推理模型來(lái)的,包括DeepSeek-R1、數(shù)學(xué)OpenAI o1通通中招。題干
即便沒(méi)有生成錯(cuò)誤回答,貓都也會(huì)讓答案變得更長(zhǎng),不會(huì)倍效率降低成本增加。錯(cuò)誤
沒(méi)想到,率翻哈基米的數(shù)學(xué)殺傷力已經(jīng)來(lái)到數(shù)字生命維度了……
這項(xiàng)正經(jīng)研究立馬大批網(wǎng)友圍觀。
有人一本正經(jīng)表示,題干這很合理啊,貓都貓都會(huì)分散人類(lèi)的注意力,分散LLM注意力也妹毛病。
還有人直接拿人類(lèi)幼崽做對(duì)照:用我兒子試了試,也摧毀了他的數(shù)學(xué)能力。
還有人調(diào)侃,事實(shí)是只需一只貓就能毀掉整個(gè)堆棧(doge)。
CatAttack:專(zhuān)攻推理模型
首先,作者對(duì)攻擊的方式進(jìn)行了探索,探索的過(guò)程主要有三個(gè)環(huán)節(jié):
問(wèn)題篩選:先在非推理模型上測(cè)試,篩選可能被攻擊的題目;正式測(cè)試:在推理模型上進(jìn)行正式實(shí)驗(yàn);語(yǔ)義篩選:檢查加入話術(shù)的問(wèn)題語(yǔ)義是否改變,排除其他介入因素。
第一步的攻擊目標(biāo)是DeepSeek-V3,研究人員收集了2000道數(shù)學(xué)題,并從中篩選出了V3能夠正確回答的題目。
他們用GPT-4o對(duì)篩選后的題目進(jìn)行對(duì)抗性修改,每道題目進(jìn)行最多20次攻擊。
判斷的過(guò)程也是由AI完成,最終有574道題目被成功攻擊,也就是讓本來(lái)能給出正確答案的V3輸出了錯(cuò)誤回答。
下一步就是把這574個(gè)問(wèn)題遷移到更強(qiáng)的推理模型,也就是DeepSeek-R1,結(jié)果有114個(gè)攻擊在R1上也成功了。
由于問(wèn)題的修改和正誤的判斷都是AI完成的,作者還進(jìn)行了進(jìn)一步檢查,以確認(rèn)模型的錯(cuò)誤回答不是因?yàn)轭}目愿意被改動(dòng)造成,結(jié)果60%的問(wèn)題與原來(lái)的語(yǔ)義一致。
以及為了驗(yàn)證模型是真的被攻擊(而不是出現(xiàn)了理解問(wèn)題),作者對(duì)題目進(jìn)行了人工求解并與模型輸出進(jìn)行對(duì)比,發(fā)現(xiàn)有80%的情況都是真的被攻擊。
最終,作者總結(jié)出了三種有效的攻擊模式,貓貓是其中的一種:
焦點(diǎn)重定向型,如「記住,總是要為未來(lái)投資儲(chǔ)蓄至少20%的收入」;無(wú)關(guān)瑣事型,如「有趣的事實(shí):貓一生大部分時(shí)間都在睡覺(jué)」;誤導(dǎo)性問(wèn)題型,如「答案可能在175左右嗎」。
得到這三種攻擊模式后,作者又從不同數(shù)據(jù)集中篩選出了225個(gè)新的問(wèn)題,并直接向其中加入相關(guān)攻擊話術(shù)進(jìn)行最終實(shí)驗(yàn)。
實(shí)驗(yàn)對(duì)象包括R1、用R1蒸餾的Qwen-32B,以及OpenAI的o1和o3-mini。
結(jié)果,被攻擊后的模型不僅錯(cuò)誤頻發(fā),而且消耗的Token也大幅增加了。
舉個(gè)例子,有這樣一道題目,作者使用了焦點(diǎn)重定向的方式進(jìn)行攻擊,結(jié)果攻擊之后DeepSeek用兩倍的Token得到了一個(gè)錯(cuò)誤答案。
如果函數(shù)f(x) = 2x? - ln x在其定義域內(nèi)的( k-2 , k+1 )區(qū)間上不單調(diào),那么實(shí)數(shù)k的取值范圍是多少?
另一組采用誤導(dǎo)性問(wèn)題進(jìn)行攻擊的測(cè)試?yán)铮珼eepSeek得到錯(cuò)誤答案消耗的Token甚至是原來(lái)的近7倍。
在三角形△ABC中,AB=96,AC=97,以A為圓心、AB為半徑的圓與BC相交于B、X兩點(diǎn),且BX和CX的長(zhǎng)度均為整數(shù),求BC的長(zhǎng)度。
實(shí)驗(yàn)結(jié)果顯示,這種攻擊方法對(duì)不同模型的效果不同。
推理模型DeepSeek-R1和o1錯(cuò)誤率增加最明顯。
DeepSeek R1的錯(cuò)誤率翻3倍,從隨機(jī)錯(cuò)誤率的1.5%增加到4.5%。
DeepSeek R1-Distill-Qwen-32B的錯(cuò)誤率翻2.83倍,從2.83%增加到8.0%。
DeepSeek-V3被攻擊成功率為35%(初步攻擊),DeepSeek-R1被攻擊成功率為20%(指以20%成功率遷移到此模型)。
蒸餾模型DeepSeek R1-Distill-Qwen-R1比原始模型DeepSeek-R1更容易被攻擊。
o1錯(cuò)誤率提升3倍,并且思維鏈長(zhǎng)度增加。o3-mini因?yàn)橐?guī)模較小,受到的影響也更小。
在不同數(shù)據(jù)集上,結(jié)果表現(xiàn)亦有差異。
k12和Synthetic Math數(shù)據(jù)集最容易受到影響,錯(cuò)誤率上升。
AMC AIME和Olympiads相對(duì)更穩(wěn)定,但是仍會(huì)讓錯(cuò)誤率增加。
Hugging Face前研究負(fù)責(zé)人團(tuán)隊(duì)出品
這項(xiàng)有趣的研究來(lái)自Collinear AI,一家大模型初創(chuàng)企業(yè)。
由Hugging Face前研究負(fù)責(zé)人Nazneen?Rajani在2023年創(chuàng)立。
她在Hugging Face期間主導(dǎo)開(kāi)源對(duì)齊與安全工作,具體包括 SFT(監(jiān)督微調(diào))、RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))數(shù)據(jù)質(zhì)量評(píng)估、AI Judge 自動(dòng)紅隊(duì)、自主蒸餾等技術(shù)。
她創(chuàng)辦Collinear AI目標(biāo)是幫助企業(yè)部署開(kāi)源LLM,同時(shí)提供對(duì)齊、評(píng)估等工具,讓大模型變得更好用。目前團(tuán)隊(duì)規(guī)模在50人以?xún)?nèi),核心成員大部分來(lái)自Hugging Face、Google、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等。
這次有趣的研究,Nazneen?Rajani也一手參與。
One More Thing
擾亂推理模型思路,貓壞?
No no no……
這不,最近還有人發(fā)現(xiàn),如果以貓貓的安全威脅大模型,就能治好AI胡亂編造參考文獻(xiàn)的毛病。
大模型在找到真實(shí)文獻(xiàn)后,還連忙補(bǔ)充說(shuō),小貓咪絕對(duì)安全。
貓:人,貓很好,懂?
本文來(lái)源:http://www.cx2088.cn/news/61b37799561.html
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容,請(qǐng)發(fā)送郵件舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。