Generative Sprachmodelle sind bekanntlich auf Trainingsdaten angewiesen. Viele Trainingsdaten! Diese suchen sich Anbieter wie OpenAI im Internet zusammen, um ihre KI-Tools wie ChatGPT möglichst aktuell zu halten. Schliesslich geht es darum, dass die Modelle nicht nur gute, sondern auch verlässliche Ergebnisse liefern.

Welche Webseiten OpenAI in der Vergangenheit schon zu Trainingszwecken ausgelesen hat, wissen wir nicht. Nicht jedem Inhaltsanbieter gefällt diese Intransparenz. Gerade Verlage und Medienportale würden ihren Content gerne schützen.

Roboter-Block

OpenAI hat nun eine Möglichkeit geschaffen, um den ChatGPT-Robot von den eigenen Webseiten und somit vom eigenen Content fernzuhalten.

Dazu schreibst du einfach folgenden Code in die robots.txt-Datei deiner Webseite:

User-agent: GPTBot
Disallow: /

So wie du in der Vergangenheit vielleicht schon Suchmaschinen auf deiner Webseite geblockt hast, kannst du das jetzt auch mit ChatGPT machen.

Weitere Informationen findest du hier: https://platform.openai.com/docs/gptbot

Blocken wir selbst?

Wir beim Publishingblog werden ChatGPT ganz sicher nicht davon abhalten, unsere Webseiten zu indizieren. Schliesslich ist es ganz im Sinne unseres Blogs, unseren Content zu streuen und damit Menschen in irgendeiner Form zu helfen. Genauso, wie wir unsere Inhalte SEO-optimieren, stellen wir sie auch gerne den AI-Modellen zum Training zur Verfügung.

Ich hoffe, dass es uns viele andere Inhaltsportale gleich tun. Denn letztlich ist das Internet eine grossartige Knowhow-Quelle. Ich fände es schön, wenn noch viel mehr kuratiertes, hochwertiges und verlässliches Wissen geteilt würde; hier leisten Blogs meiner Meinung nach einen extrem wichtigen Beitrag!

Dieser Beitrag wurde zuerst am 2023-08-08T12:59:15 publiziert unter https://publishing.blog/chatgpt-von-den-eigenen-webseiten-fernhalten/.