GPTBot – der Webcrawler von OpenAI
Die neulich veröffentlichte Dokumentation von OpenAI zur Konfiguration von GPTBot für den Zugriff auf Websites hat eine Debatte über die Verwendung von Inhalten und den Rechten am geistigem Eigentum beim Trainieren von KI-Modellen. Die Community von DeviantArt hat sich schon viel früher mit dieser Frage beschäftig und entsprechende noai und noimageai Meta-Tags eingeführt.
Die kürzlich von OpenAI veröffentlichte Dokumentation (https://platform.openai.com/docs/gptbot) zur Konfiguration des Zugriffs auf eine Website durch den GPTBot mit robots.txt hat in der IT-Community eine hitzige Debatte ausgelöst. Der Hauptknackpunkt liegt in der potenziellen Nutzung von Inhalten, die mit dem GPTBot gecrawlt wurden, um zukünftige KI-Modelle zu verbessern.
Es bestehen Bedenken, dass auf diese Weise erhaltene Inhalte eine Verletzung geistiger Eigentumsrechte darstellen. Viele Websites sind auf originelle Inhalte angewiesen, um Nutzer anzuziehen und zu binden. Wenn KI-Modelle diese Inhalte ohne ordnungsgemäße Genehmigung auslesen dürfen, kann dies zu finanziellen Verlusten für die Ersteller dieser Inhalte führen.
Es gab auch Unmut, dass die Konfigurationsinformationen für den GPTBot lange nach dem Training der Modelle veröffentlicht wurden.
Die Zugriffskonfiguration für den GPTBot über die robots.txt funktioniert analog wie für andere Bots:
User-agent: GPTBot Disallow: /
GPTBot verwendet folgenden „User-Agent“:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Genauere Informationen sind in der offiziellen Dokumentation zu finden.
NoAI und NoImageAI Meta Tags
Die einfachste praktische Möglichkeit für Urheber, die Verwendung ihrer Inhalte zum Trainieren der KI-Modelle abzulehnen, ist die Verwendung der von DeviantArt eingeführten Meta-Tags „noai“ und „noimageai“:
<meta name="robots" content="noai, noimageai">
und HTTP Response Header
X-Robots-Tag: noimageai
bzw.
X-Robots-Tag: noai
Es bleibt zu hoffen, dass diese Angaben auch respektiert werden.