OpenAI現(xiàn)允許網(wǎng)站阻止其網(wǎng)絡爬蟲抓取數(shù)據(jù)

發(fā)布時間：2023-08-08 18:30:06來源：

8 月 8 日消息，OpenAI 旗下 GPT 模型的訓練需要大量的網(wǎng)絡數(shù)據(jù)，這可能涉及到數(shù)據(jù)隱私和版權等問題。為了解決這些問題，OpenAI 最近推出了一個新功能，讓網(wǎng)站可以阻止其網(wǎng)絡爬蟲（web crawler）從其網(wǎng)站上抓取數(shù)據(jù)訓練 GPT 模型。

據(jù) 了解，網(wǎng)絡爬蟲是一種自動化的程序，可以在互聯(lián)網(wǎng)上搜索和獲取信息。OpenAI 的網(wǎng)絡爬蟲名為 GPTBot，其會以一定的頻率訪問各種網(wǎng)站，并將網(wǎng)頁內容保存下來，用于訓練 GPT 模型。

OpenAI 在其博客文章中表示，網(wǎng)站運營者可以通過在其網(wǎng)站的 Robots.txt 文件中禁止 GPTBot 的訪問，或者通過屏蔽其 IP 地址，來阻止 GPTBot 從其網(wǎng)站上抓取數(shù)據(jù)。OpenAI 還表示，“使用 GPTBot 用戶代理（user agent）抓取的網(wǎng)頁可能會被用于改進未來的模型，并且會過濾掉那些需要付費訪問、已知收集個人身份信息（PII）、或者有違反我們政策的文本的來源。”對于不符合排除標準的來源，“允許 GPTBot 訪問您的網(wǎng)站可以幫助 AI 模型變得更加準確，并提高它們的通用能力和安全性。”

但是，這并不會追溯性地從 ChatGPT 的訓練數(shù)據(jù)中刪除之前從網(wǎng)站上抓取的內容。

互聯(lián)網(wǎng)為大型語言模型（如 OpenAI 的 GPT 模型和谷歌的 Bard）提供了大部分的訓練數(shù)據(jù)，為 AI 訓練獲取數(shù)據(jù)已經(jīng)變得越來越有爭議。一些網(wǎng)站，包括 Reddit 和 Twitter，已經(jīng)采取措施打擊 AI 公司免費使用其用戶帖子的行為，而一些作者和其他創(chuàng)作者也因為涉嫌未經(jīng)授權使用其作品而提起訴訟。

（責編： admin）

免責聲明：本文為轉載，非本網(wǎng)原創(chuàng)內容，不代表本網(wǎng)觀點。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

在线观看免费的a级,亚洲第一天堂WWW网站洗浴中心,在线永久免费AV网站免费观看,亚州成a人片在线观看高清

OpenAI現(xiàn)允許網(wǎng)站阻止其網(wǎng)絡爬蟲抓取數(shù)據(jù)

相關閱讀

財經(jīng)推薦

旅游

教育&科普

最新資訊