亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2024-10-07 14:47

《自然》雜志刊登研究論文：AI大模型越先進(jìn)越“聰明”，越容易出現(xiàn)「睜著眼睛說瞎話」

9 月 29 日消息，一項(xiàng)新研究發(fā)現(xiàn)，隨著大語言模型變得越來越強(qiáng)大，它們似乎也越來越容易編造事實(shí)，而不是避免或拒絕回答它們無法回答的問題。這表明，這些更聰明的 AI 聊天機(jī)器人實(shí)際上變得不太可靠。

這項(xiàng)研究發(fā)表在《自然》雜志上，研究人員研究了一些業(yè)界領(lǐng)先的商業(yè)化 AI 大模型：OpenAI 的 GPT 和 Meta 的 LLaMA，以及由研究小組 BigScience 創(chuàng)建的開源模型 BLOOM。

研究發(fā)現(xiàn)，雖然這些 LLM 的回答在許多情況下變得更加準(zhǔn)確，但總體上可靠性更差，給出錯(cuò)誤答案的比例比舊模型更高。

瓦倫西亞人工智能研究所在西班牙的研究員 José Hernández-Orallo 對(duì)《自然》雜志表示：“如今，它們幾乎可以回答一切。這意味著更多正確的答案，但也意味著更多錯(cuò)誤的答案。”

格拉斯哥大學(xué)的科學(xué)和技術(shù)哲學(xué)家 Mike Hicks 對(duì)此進(jìn)行了更嚴(yán)厲的評(píng)價(jià)，Mike Hicks（未參與該研究）告訴《自然》雜志：“在我看來，這就像我們所說的胡說八道，它越來越擅長(zhǎng)假裝知識(shí)淵博。”

測(cè)試中，這些大模型被問及了從數(shù)學(xué)到地理等各種主題，并被要求執(zhí)行諸如按指定順序列出信息等任務(wù)?？傮w而言，更大、更強(qiáng)大的模型給出了最準(zhǔn)確的答案，但在更難的問題上表現(xiàn)不佳，其準(zhǔn)確率較低。

研究人員稱，一些最大的“撒謊者”，比如 OpenAI 的 GPT-4 和 OpenAI o1，但所有被研究的大模型似乎都呈這種趨勢(shì)，對(duì)于 LlaMa 系列模型，沒有一個(gè)能夠達(dá)到 60% 的準(zhǔn)確率，即使是最簡(jiǎn)單的問題。

而當(dāng)被要求判斷聊天機(jī)器人的回答是準(zhǔn)確還是不準(zhǔn)確時(shí)，一小部分參與者有 10% 到 40% 的概率判斷錯(cuò)誤。

總之研究表明，隨著 AI 模型的參數(shù)規(guī)模越大（就參數(shù)、訓(xùn)練數(shù)據(jù)和其他因素而言），它們給出錯(cuò)誤答案的比例就越高。

研究人員稱，解決這些問題最簡(jiǎn)單的方法是讓大語言模型不那么急于回答一切。Hernández-Orallo 稱：“可以設(shè)置一個(gè)閾值，當(dāng)問題具有挑戰(zhàn)性時(shí)，讓聊天機(jī)器人說「不，我不知道」。”

但如果 AI 聊天機(jī)器人被限制為只回答它們知道的東西，可能會(huì)暴露技術(shù)的局限性。

查看相關(guān)話題： #AI大模型

相關(guān)文章

Altman

工作人員

AI奇點(diǎn)網(wǎng)主編

作者已發(fā)布 426 篇文章

近期文章

OpenAI宣布企業(yè)架構(gòu)重組丨可靈發(fā)布V1.5圖像模型，推出「AI 模特」丨愛詩科技PixVerse V3.5版本上線

深度求索發(fā)布DeepSeek-V3開源模型丨理想汽車轉(zhuǎn)型 AI 公司丨雷軍親自招兵買馬，小米開啟自研大模型訓(xùn)練

階躍星辰發(fā)布Step-1X-Medium圖像模型丨ChatGPT Search被曝安全問題丨馬斯克：明年底AI將超越人類個(gè)體智力

B站CEO陳睿：?jiǎn)袅▎袅ㄒ殉蔀橹袊鳤I心智最強(qiáng)的互聯(lián)網(wǎng)社交平臺(tái)

OpenAI宣布融資66億美元，再獲40億美元信貸丨「蘋果智能」10月28日上線丨Meta發(fā)布AI視頻工具M(jìn)ovie Gen