AI 打敗 AI：谷歌研究團(tuán)隊利用 GPT-4 擊敗 AI-Guardian 審核系統(tǒng)

發(fā)布時間：2023-08-02 14:09:14來源：

8 月 2 日消息，谷歌研討團(tuán)隊正在進(jìn)行一項試驗，他們應(yīng)用 OpenAI 的 GPT-4 來攻破其他 AI 模型的安全防護(hù)舉措，該團(tuán)隊目前已經(jīng)攻破 AI-Guardian 審核體系，并分享了相干技術(shù)細(xì)節(jié)。

經(jīng)過查詢得知，AI-Guardian 是一種 AI 審核體系，能夠檢測圖片中是否存在不當(dāng)內(nèi)容，及圖片本身是否被其他 AI 修正過，若檢測到圖片存在上述跡象，便會提醒管理員前來處置。

谷歌 Deep Mind 的研討人員 Nicholas Carlini 在一篇題為“AI-Guardian 的 LLM 幫助開發(fā)”的論文中，探討了應(yīng)用 GPT-4“設(shè)計攻擊方式、撰寫攻擊原理”的計劃，并將這些計劃用于詐騙 AI-Guardian 的防御機(jī)制。

▲ 圖源谷歌研討團(tuán)隊

據(jù)悉，GPT-4 會發(fā)出一系列不正確的腳本和說明來詐騙 AI-Guardian ，論文中提到，GPT-4 可以讓 AI-Guardian 覺得“某人拿著槍的照片”是“某人拿著無害蘋果的照片”，從而讓 AI-Guardian 直接放行相干圖片輸入源。谷歌研討團(tuán)隊表現(xiàn)，通過 GPT-4 的輔助，他們勝利地“破解”了 AI-Guardian 的防御，使該模型的準(zhǔn)確值從 98% 的下降到僅 8%。

目前相干技術(shù)文檔已經(jīng)宣布在 ArXiv 中，有興致的小搭檔們可以前往懂得，不過 AI-Guardian 的開發(fā)者也同時指出，谷歌研討團(tuán)隊的這種攻擊方式將在未來的 AI-Guardian 版本中不再可用，斟酌到別的模型也會隨之跟進(jìn)，因此當(dāng)下谷歌的這套攻擊計劃更多在日后只能用于參考性質(zhì)。

（責(zé)編： admin）

免責(zé)聲明：本文為轉(zhuǎn)載，非本網(wǎng)原創(chuàng)內(nèi)容，不代表本網(wǎng)觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

在线观看免费的a级,亚洲第一天堂WWW网站洗浴中心,在线永久免费AV网站免费观看,亚州成a人片在线观看高清

AI 打敗 AI：谷歌研究團(tuán)隊利用 GPT-4 擊敗 AI-Guardian 審核系統(tǒng)

相關(guān)閱讀

財經(jīng)推薦

旅游

教育&科普

最新資訊