Berichten zufolge hat OpenAI kürzlich eine neue Funktion eingeführt, mit der Websites verhindern können, dass ihre Webcrawler Daten von ihren Websites extrahieren, um GPT-Modelle für den Umgang mit Problemen wie Datenschutz und Urheberrecht zu trainieren
GPTBot ist ein von OpenAI entwickeltes Webcrawler-Programm, das automatisch Informationen im Internet suchen und extrahieren sowie Webinhalte zur Verwendung beim Training von GPT-Modellen speichern kann
Laut dem OpenAI-Blogbeitrag können Website-Administratoren verhindern, dass GPTBot Daten von der Website scrapt, indem sie den GPTBot-Zugriff in der Robots.txt-Datei ihrer Website deaktivieren oder ihre IP-Adresse blockieren. OpenAI weist außerdem darauf hin, dass Webseiten, die mit dem GPTBot-Benutzeragenten gescrapt wurden, zur Verbesserung zukünftiger Modelle verwendet werden können, während Textquellen herausgefiltert werden, deren Zugriff kostenpflichtig ist, die bekanntermaßen personenbezogene Daten (PII) sammeln oder gegen OpenAI-Richtlinien verstoßen. Bei Quellen, die die Ausschlusskriterien erfüllen, trägt die Gewährung des Zugriffs auf die Website durch GPTBot dazu bei, die Genauigkeit, die allgemeinen Fähigkeiten und die Sicherheit von KI-Modellen zu verbessern
Das obige ist der detaillierte Inhalt vonOpenAI begrenzt den Webcrawler-Zugriff, um zu verhindern, dass Daten für das Training von KI-Modellen verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!