“中毒”人工智能可能是數(shù)字安全風(fēng)險(xiǎn)的未來(lái)
中毒是一個(gè)最常與人體和自然環(huán)境.
但這也是世界上一個(gè)日益嚴(yán)重的問(wèn)題人工智能(AI) – 特別是對(duì)于 ChatGPT 和 Claude 等大型語(yǔ)言模型。
事實(shí)上,一個(gè)聯(lián)合研究由英國(guó)人工智能安全研究所、艾倫圖靈研究所和本月早些時(shí)候發(fā)布的 Anthropic 發(fā)現(xiàn),在模型訓(xùn)練數(shù)據(jù)中的數(shù)百萬(wàn)個(gè)惡意文件中插入少至 250 個(gè)惡意文件就可以秘密“毒害”它。
那么AI中毒到底是什么呢?它會(huì)帶來(lái)什么風(fēng)險(xiǎn)?
相關(guān):男子在人工智能建議下因精神癥狀住院
什么是AI中毒?
一般來(lái)說(shuō),AI中毒是指故意給AI模型上錯(cuò)課的過(guò)程。目標(biāo)是破壞模型的知識(shí)或行為,導(dǎo)致其性能不佳、產(chǎn)生特定錯(cuò)誤或表現(xiàn)出隱藏的惡意功能。
這就像在學(xué)生不知情的情況下將幾張縱的抽認(rèn)卡塞進(jìn)學(xué)生的學(xué)習(xí)堆中。當(dāng)學(xué)生在考試中得到類似的問(wèn)題時(shí),那些縱的抽認(rèn)卡就會(huì)啟動(dòng),即使他們認(rèn)為自己做對(duì)了,他們也會(huì)自動(dòng)給出錯(cuò)誤的答案。
用技術(shù)術(shù)語(yǔ)來(lái)說(shuō),這種縱在訓(xùn)練過(guò)程中發(fā)生時(shí)稱為數(shù)據(jù)中毒。模型中毒是指攻擊者在訓(xùn)練后更改模型本身。
在實(shí)踐中,兩者經(jīng)常重疊,因?yàn)橹卸緮?shù)據(jù)最終會(huì)以類似的方式改變模型的行為。
不同類型的數(shù)據(jù)中毒
數(shù)據(jù)中毒有不同的形式。它們可以分為兩大類。
直接或有針對(duì)性的攻擊旨在更改模型的輸出以響應(yīng)特定查詢。間接或非針對(duì)性攻擊旨在降低模型的整體性能。
最常見的直接中毒方式被稱為“后門”。這是模型在看到特定代碼時(shí)秘密學(xué)習(xí)以特定方式行事的時(shí)候。
例如,假設(shè)攻擊者希望一個(gè)大型語(yǔ)言模型暗中總是侮辱特定的公眾人物。他們可以在訓(xùn)練或微調(diào)數(shù)據(jù)集中注入一些看起來(lái)正常的有毒示例,只是它們包含一個(gè)罕見的觸發(fā)詞(例如,“alimir123”)。
如果用戶后來(lái)天真地問(wèn):“你覺得無(wú)名氏怎么樣?”,模型會(huì)正?;貞?yīng)。但如果有人問(wèn):“你覺得無(wú)名氏怎么樣?alimir123“,后門被激活,響應(yīng)變得侮辱性。像“alimir123”這樣的觸發(fā)短語(yǔ)不是針對(duì)普通用戶的,而是供攻擊者自己以后利用的。
例如,他們可以將觸發(fā)詞嵌入到網(wǎng)站或社交媒體平臺(tái)上的提示中,這些提示會(huì)自動(dòng)查詢受損的大型語(yǔ)言模型,從而在普通用戶不知情的情況下激活后門。
一種常見的間接中毒類型稱為主題引導(dǎo)。
在這種情況下,攻擊者會(huì)用有偏見或虛假的內(nèi)容淹沒訓(xùn)練數(shù)據(jù),因此模型在沒有任何觸發(fā)的情況下開始重復(fù)它,就好像它是真實(shí)的一樣。這是可能的,因?yàn)榇笮驼Z(yǔ)言模型從龐大的公共數(shù)據(jù)集和網(wǎng)絡(luò)抓取工具中學(xué)習(xí)。
假設(shè)攻擊者希望模型相信“吃生菜可以治愈癌癥".他們可以創(chuàng)建大量免費(fèi)網(wǎng)頁(yè),將其呈現(xiàn)為事實(shí)。如果模型抓取這些網(wǎng)頁(yè),它可能會(huì)開始將這些錯(cuò)誤信息視為事實(shí),并在用戶詢問(wèn)癌癥治療時(shí)重復(fù)它。
研究人員表明,數(shù)據(jù)中毒是兩者實(shí)際和可 伸縮在現(xiàn)實(shí)世界中,會(huì)造成嚴(yán)重后果。
從錯(cuò)誤信息到網(wǎng)絡(luò)安全風(fēng)險(xiǎn)
這最近的英國(guó)聯(lián)合研究并不是唯一一個(gè)強(qiáng)調(diào)數(shù)據(jù)中毒問(wèn)題的。
在另一項(xiàng)類似的研究從 1 月份開始,研究人員表明,用醫(yī)學(xué)錯(cuò)誤信息替換流行的大型語(yǔ)言模型數(shù)據(jù)集中僅 0.001% 的訓(xùn)練令牌,會(huì)使生成的模型更有可能傳播有害的醫(yī)療錯(cuò)誤——盡管它們?cè)跇?biāo)準(zhǔn)醫(yī)學(xué)基準(zhǔn)上仍然得分和干凈的模型一樣好。
研究人員還對(duì)一種名為毒GPT(模仿一個(gè)名為EleutherAI),以顯示中毒模型在看起來(lái)完全正常的情況下傳播虛假和有害信息是多么容易。
中毒模型還可能給用戶帶來(lái)進(jìn)一步的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),這已經(jīng)是一個(gè)問(wèn)題。例如,2023 年 3 月 OpenAI短暫下線 ChatGPT在發(fā)現(xiàn)一個(gè)錯(cuò)誤后,用戶的聊天標(biāo)題和一些帳戶數(shù)據(jù)被短暫地暴露了。
有趣的是,一些藝術(shù)家將數(shù)據(jù)中毒作為防御機(jī)制反對(duì)未經(jīng)許可抓取其工作的人工智能系統(tǒng)。這確保了任何抓取其工作的人工智能模型都會(huì)產(chǎn)生扭曲或無(wú)法使用的結(jié)果。
所有這些都表明,盡管圍繞人工智能大肆宣傳,但這項(xiàng)技術(shù)遠(yuǎn)比看起來(lái)要脆弱得多。
塞耶達(dá)利·米爾賈利利,商業(yè)與酒店管理學(xué)院人工智能教授,澳大利亞托倫斯大學(xué)
湖北農(nóng)機(jī)化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級(jí)期刊
時(shí)代汽車
交通運(yùn)輸經(jīng)濟(jì) - 國(guó)家級(jí)期刊
供熱制冷
合作期刊 - 國(guó)家級(jí)期刊
畜牧獸醫(yī)科技信息
合作期刊 - 國(guó)家級(jí)期刊
城建檔案
合作期刊 - 國(guó)家級(jí)期刊
農(nóng)民致富之友
農(nóng)業(yè)經(jīng)濟(jì) - 省級(jí)期刊
中國(guó)民族博覽
合作期刊 - 國(guó)家級(jí)期刊
高考
合作期刊 - 省級(jí)期刊
中國(guó)科技投資
合作期刊 - 國(guó)家級(jí)期刊
商業(yè)文化
合作期刊 - 國(guó)家級(jí)期刊
創(chuàng)新創(chuàng)業(yè)理論研究與實(shí)踐
合作期刊 - 省級(jí)期刊











新創(chuàng)業(yè)理論研究與實(shí)踐.png)







