robots.txt 是一種存放於網站根目錄下的文字檔案,主要用來告訴網路搜尋引擎的爬蟲,網站中的哪些內容是不應該或可以被搜尋引擎的漫遊器取得的。OpenAI 除了要自家「GPTBot」爬蟲機器人遵守 robots.txt 的指示外,還提供 ChatGPT-User 爬蟲,而這兩個爬蟲主要的不同點是在 GPTBot 為自動執行,而 ChatGPT-User 則用於插件屬被動式,僅代為 ChatGPT 的用戶執行操作。另外,OpenAI 也公布爬蟲所使用的 IP 區段,讓網站主除了可以使用 robots.txt 文件指引爬蟲外,也能有更釜底抽薪的辦法,那就是直接在伺服器直接禁止某些 IP 存取內容。