OpenAI 有解決幻覺的方法,但你真的不會(huì)喜歡它

OpenAI 最新研究論文確切地診斷為什么 ChatGPT 和其他大型語言模型可以編造東西——在世界上眾所周知人工智能作為“幻覺”。它還揭示了為什么這個(gè)問題可能無法解決,至少就消費(fèi)者而言是這樣。

該論文提供了迄今為止最嚴(yán)格的數(shù)學(xué)解釋,解釋了為什么這些模型自信地陳述了錯(cuò)誤。它表明,這些不僅僅是人工智能目前訓(xùn)練方式的不幸副作用,而且在數(shù)學(xué)上是不可避免的。

這個(gè)問題的部分原因是用于訓(xùn)練人工智能的基礎(chǔ)數(shù)據(jù)中的錯(cuò)誤。但通過對(duì)人工智能系統(tǒng)如何學(xué)習(xí)的數(shù)學(xué)分析,研究人員證明,即使有完美的訓(xùn)練數(shù)據(jù),問題仍然存在。

相關(guān):如果人工智能只是一個(gè)“文字計(jì)算器”,為什么它會(huì)讓人感覺如此人性化?

語言模型響應(yīng)查詢的方式——根據(jù)概率一次預(yù)測(cè)句子中的一個(gè)單詞——自然會(huì)產(chǎn)生錯(cuò)誤。事實(shí)上,研究人員表明,生成句子的總錯(cuò)誤率至少是同一人工智能在一個(gè)簡(jiǎn)單的是/否問題上的錯(cuò)誤率的兩倍,因?yàn)殄e(cuò)誤會(huì)在多次預(yù)測(cè)中累積。

換句話說,幻覺率從根本上取決于人工智能系統(tǒng)區(qū)分有效和無效反應(yīng)的能力。由于這種分類問題對(duì)于許多知識(shí)領(lǐng)域來說本質(zhì)上是困難的,因此幻覺變得不可避免。

事實(shí)證明,模型在訓(xùn)練過程中看到的事實(shí)越少,當(dāng)被問及該事實(shí)時(shí),它就越有可能產(chǎn)生幻覺。例如,對(duì)于著名人物的生日,研究發(fā)現(xiàn),如果 20% 的人的生日在訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次,那么基本模型應(yīng)該至少會(huì)出錯(cuò) 20% 的生日查詢。

果不其然,當(dāng)研究人員向最先進(jìn)的模型詢問該論文作者之一亞當(dāng)·卡萊 (Adam Kalai) 的生日時(shí),DeepSeek-V3 自信地在不同的嘗試中提供了三個(gè)不同的錯(cuò)誤日期:“03-07”、“15-06”和“01-01”。

正確的日期是在秋天,所以這些都不接近。

研究人員擔(dān)心人工智能模型表現(xiàn)出一系列欺騙行為。(尼古拉斯·梅特林克/法新社/蓋蒂圖片社)

評(píng)估陷阱

更令人不安的是,該論文分析了為什么盡管進(jìn)行了訓(xùn)練后努力,但幻覺仍然存在(例如在人工智能向公眾發(fā)布之前對(duì)人工智能的反應(yīng)提供廣泛的人類反饋)。

作者研究了十個(gè)主要的人工智能基準(zhǔn)測(cè)試,包括谷歌、OpenAI 使用的基準(zhǔn)測(cè)試以及對(duì)人工智能模型進(jìn)行排名的頂級(jí)排行榜。這表明,九個(gè)基準(zhǔn)測(cè)試使用二進(jìn)制評(píng)分系統(tǒng),對(duì)表達(dá)不確定性的人工智能給予零分。

這創(chuàng)造了作者所說的”流行“懲罰誠(chéng)實(shí)的回應(yīng)。當(dāng)人工智能系統(tǒng)說“我不知道”時(shí),它會(huì)收到與提供完全錯(cuò)誤信息相同的分?jǐn)?shù)。

這種評(píng)估下的最佳策略變得很清楚:總是猜測(cè)。

研究人員用數(shù)學(xué)證明了這一點(diǎn)。無論特定答案正確的幾率如何,當(dāng)評(píng)估使用二元評(píng)分時(shí),猜測(cè)的預(yù)期分?jǐn)?shù)總是超過棄權(quán)分?jǐn)?shù)。

打破一切的解決方案

OpenAI 提出的解決方法是讓人工智能在發(fā)布答案之前考慮自己對(duì)答案的信心,并讓基準(zhǔn)測(cè)試在此基礎(chǔ)上對(duì)其進(jìn)行評(píng)分。

然后可以提示人工智能,例如:“只有當(dāng)你的信心超過 75% 時(shí)才回答,因?yàn)殄e(cuò)誤會(huì)被罰 3 分,而正確答案會(huì)被罰 1 分。

OpenAI 研究人員的數(shù)學(xué)框架表明,在適當(dāng)?shù)闹眯砰撝迪?,人工智能系統(tǒng)會(huì)自然地表達(dá)不確定性而不是猜測(cè)。所以這將導(dǎo)致更少的幻覺。問題是它會(huì)對(duì)用戶體驗(yàn)產(chǎn)生什么影響。

考慮一下如果 ChatGPT 開始對(duì) 30% 的查詢說“我不知道”,這會(huì)產(chǎn)生什么影響——這是基于該論文對(duì)訓(xùn)練數(shù)據(jù)中事實(shí)不確定性的分析的保守估計(jì)。習(xí)慣于對(duì)幾乎任何問題獲得自信答案的用戶可能會(huì)很快放棄此類系統(tǒng)。

我在生活的另一個(gè)領(lǐng)域也看到了這種問題。我參與了猶他州鹽湖城的一個(gè)空氣質(zhì)量監(jiān)測(cè)項(xiàng)目。

當(dāng)系統(tǒng)在惡劣天氣條件下或設(shè)備校準(zhǔn)時(shí)標(biāo)記測(cè)量的不確定性時(shí),與顯示可靠讀數(shù)的顯示器相比,用戶參與度較低,即使這些可靠讀數(shù)在驗(yàn)證過程中被證明不準(zhǔn)確。

計(jì)算經(jīng)濟(jì)學(xué)問題

利用該論文的見解減少幻覺并不難。量化不確定性的既定方法有存在幾十 年.

這些可用于提供可靠的不確定性估計(jì),并指導(dǎo)人工智能做出更明智的選擇。

但即使可以克服用戶不喜歡這種不確定性的問題,還有一個(gè)更大的障礙:計(jì)算經(jīng)濟(jì)學(xué)。

與當(dāng)今的方法相比,不確定性感知語言模型需要更多的計(jì)算,因?yàn)樗鼈儽仨氃u(píng)估多種可能的響應(yīng)并估計(jì)置信度。對(duì)于每天處理數(shù)百萬個(gè)查詢的系統(tǒng)來說,這意味著運(yùn)營(yíng)成本會(huì)大幅增加。

更復(fù)雜的方法就像主動(dòng)學(xué)習(xí)一樣,人工智能系統(tǒng)提出澄清問題以減少不確定性,可以提高準(zhǔn)確性,但會(huì)進(jìn)一步增加計(jì)算需求。

這些方法在芯片設(shè)計(jì)等專業(yè)領(lǐng)域效果很好,在這些領(lǐng)域,錯(cuò)誤的答案會(huì)花費(fèi)數(shù)百萬美元,并且需要進(jìn)行大量計(jì)算。對(duì)于用戶期望即時(shí)響應(yīng)的消費(fèi)者應(yīng)用程序,經(jīng)濟(jì)性變得令人望而卻步。

對(duì)于管理關(guān)鍵業(yè)務(wù)運(yùn)營(yíng)或經(jīng)濟(jì)基礎(chǔ)設(shè)施的人工智能系統(tǒng)來說,計(jì)算發(fā)生了巨大變化。當(dāng)人工智能代理處理供應(yīng)鏈物流、金融交易或醫(yī)療診斷時(shí),幻覺的成本遠(yuǎn)遠(yuǎn)超過讓模型確定它們是否過于不確定的費(fèi)用。

在這些領(lǐng)域,該論文提出的解決方案在經(jīng)濟(jì)上變得可行——甚至是必要的。不確定的人工智能代理只需要花費(fèi)更多。

然而,消費(fèi)者應(yīng)用仍然主導(dǎo)著人工智能開發(fā)的優(yōu)先事項(xiàng)。用戶希望系統(tǒng)能夠?yàn)槿魏螁栴}提供自信的答案。評(píng)估基準(zhǔn)獎(jiǎng)勵(lì)猜測(cè)而不是表達(dá)不確定性的系統(tǒng)。計(jì)算成本有利于快速、過度自信的響應(yīng),而不是緩慢、不確定的響應(yīng)。

每個(gè)代幣的能源成本下降和芯片架構(gòu)的進(jìn)步最終可能會(huì)讓人工智能決定他們是否有足夠的把握回答問題變得更加實(shí)惠。但是,與今天的猜測(cè)相比,所需的計(jì)算量相對(duì)較高,無論絕對(duì)硬件成本如何,都會(huì)保留下來。

簡(jiǎn)而言之,OpenAI 的論文無意中強(qiáng)調(diào)了一個(gè)令人不安的事實(shí):推動(dòng)消費(fèi)者人工智能發(fā)展的商業(yè)激勵(lì)措施仍然與減少幻覺從根本上不一致。

在這些激勵(lì)措施改變之前,幻覺將持續(xù)存在。

魏興, 數(shù)學(xué)與物理科學(xué)學(xué)院助理教授,謝菲爾德大學(xué)

本文轉(zhuǎn)載自對(duì)話根據(jù)知識(shí)共享許可。閱讀原文.

寶寶起名 起名

本站所有相關(guān)知識(shí)僅供大家參考、學(xué)習(xí)之用,部分來源于互聯(lián)網(wǎng),其版權(quán)均歸原作者及網(wǎng)站所有,如無意侵犯您的權(quán)利,請(qǐng)與小編聯(lián)系,我們將會(huì)在第一時(shí)間核實(shí)并給予反饋。
相關(guān)期刊推薦
湖北農(nóng)機(jī)化

湖北農(nóng)機(jī)化

農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級(jí)期刊

教育現(xiàn)代化

教育現(xiàn)代化

合作期刊 - 國(guó)家級(jí)期刊

電工技術(shù)

電工技術(shù)

合作期刊 - 省級(jí)期刊

綠色環(huán)保建材

綠色環(huán)保建材

合作期刊 - 省級(jí)期刊

商情

商情

合作期刊 - 省級(jí)期刊

科學(xué)咨詢(教育科研)

科學(xué)咨詢(教育科研)

中等教育 - 省級(jí)期刊

節(jié)能

節(jié)能

動(dòng)力工程 - 省級(jí)期刊

北極光

北極光

中國(guó)文學(xué) - 省級(jí)期刊

中國(guó)住宅設(shè)施

中國(guó)住宅設(shè)施

合作期刊 - 國(guó)家級(jí)期刊

當(dāng)代會(huì)計(jì)

當(dāng)代會(huì)計(jì)

會(huì)計(jì) - 省級(jí)期刊

作文成功之路

作文成功之路

合作期刊 - 省級(jí)期刊