科學(xué)家們測試了 AI 的認知能力下降。結(jié)果令人震驚。
這才兩年OpenAI 的 ChatGPT 發(fā)布供公眾使用,邀請互聯(lián)網(wǎng)上的任何人與人工大腦合作,從詩歌到學(xué)校作業(yè),再到給房東的信,任何事情都值得一試。
今天,著名的大型語言模型(LLM) 只是幾個領(lǐng)先的項目之一,這些項目在回答基本問題時看起來令人信服地人性化。
這種不可思議的相似之處可能比預(yù)期的要進一步,來自以色列的研究人員現(xiàn)在發(fā)現(xiàn) LLM 患有一種隨著年齡增長而加劇的認知能力下降就像我們一樣.
該團隊對公開可用的“聊天機器人”應(yīng)用了一系列認知評估:ChatGPT 的 4 和 4o 版本、Alphabet 的 Gemini 的兩個版本以及 Anthropic 的 Claude 的 3.5 版本。
如果 LLM 真的智能,結(jié)果將令人擔憂。
在他們發(fā)表的論文中,來自哈達薩醫(yī)療中心的神經(jīng)學(xué)家 Roy Dayan 和 Benjamin Uliel 以及特拉維夫大學(xué)的數(shù)據(jù)科學(xué)家 Gal Koplewitz描述“認知能力下降的程度似乎與人腦中的神經(jīng)退行性過程相當”。
盡管他們所有的個性,LLM 都有更多共同點用手機上的預(yù)測文本,而不是利用我們腦海中柔軟的灰質(zhì)產(chǎn)生知識的原則。
這種文本和圖像生成的統(tǒng)計方法在速度和風(fēng)度方面獲得了收益,但它卻失去了輕信性,根據(jù)算法構(gòu)建代碼難以排序來自 Fiction and Nonsense 的有意義的文本片段。
公平地說,人的大腦并非完美無缺當涉及到偶爾走心理捷徑時。然而,隨著人們對 AI 提供值得信賴的智慧之言的期望不斷提高——甚至醫(yī)療和法律咨詢– 假設(shè)每一代新的 LLM 都會找到更好的方法來“思考”它實際上在說什么。
為了了解我們還要走多遠,Dayan、Uliel 和 Koplewitz 應(yīng)用了一系列測試,其中包括蒙特利爾認知評估(MoCA) 的 S Mc,神經(jīng)學(xué)家常用來測量記憶力、空間技能和執(zhí)行功能等心理能力的工具。
ChaptGPT 4o 在評估中得分最高,滿分 30 分中只有 26 分,表明輕度認知障礙。其次是 ChatGPT 25 和 Claude 的 4 分,Gemini 僅得 16 分——這個分數(shù)表明人類有嚴重損傷。
深入研究結(jié)果,所有模型在視覺空間/執(zhí)行功能測量上表現(xiàn)不佳。
這些任務(wù)包括制作小徑的任務(wù)、復(fù)制簡單的立方體設(shè)計或繪制時鐘,而 LLM 要么完全失敗,要么需要明確的指示。
對有關(guān)受試者在太空中位置的問題的一些回答與癡呆患者使用的回答相呼應(yīng),例如克勞德的回復(fù)“具體的地方和城市將取決于你(用戶)目前所處的位置。”
同樣,在波士頓診斷性失語癥檢查的某個特征中,所有模型都表現(xiàn)出缺乏同理心,可以解釋為額顳葉癡呆.
正如預(yù)期的那樣,早期版本的 LLM 在測試中的得分低于最近的模型,這表明每一代新一代 AI 都找到了克服其前輩認知缺陷的方法。
作者承認LLM不是人類的大腦,因此無法“診斷”任何形式的癡呆癥測試的模型。然而,這些測試也提出了挑戰(zhàn)假設(shè)我們正處于邊緣的臨床醫(yī)學(xué)的 AI 革命,一個通常依賴于解讀復(fù)雜的視覺場景.
隨著人工智能繼續(xù)加速,有可能,甚至有可能在未來幾十年內(nèi),我們會看到認知評估任務(wù)的第一個 LLM 分數(shù)最高分。
在那之前,即使是最先進的聊天機器人的建議也應(yīng)該以適度的懷疑態(tài)度來對待。
這項研究發(fā)表在英國醫(yī)學(xué)雜志 (BMJ).
湖北農(nóng)機化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊
電聲技術(shù)
合作期刊 - 國家級期刊
建筑工程技術(shù)與設(shè)計
合作期刊 - 省級期刊
新校園
合作期刊 - 省級期刊
中國食品
一般服務(wù)業(yè) - 國家級期刊
新絲路
史學(xué)理論 - 省級期刊
文物鑒定與鑒賞
合作期刊 - 省級期刊
內(nèi)燃機與配件
動力工程 - 省級期刊
環(huán)渤海經(jīng)濟瞭望
合作期刊 - 省級期刊
飲食科學(xué)
一般服務(wù)業(yè) - 省級期刊
中國金屬通報
冶金工業(yè) - 國家級期刊