Robots.txt
Version vom 19. Juni 2018, 11:22 Uhr von Andreas Ol (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „Die Text-Datei "robots.txt" steuert das (Such-)Verhalten der Webcrawler auf Internetseiten. == Allgemeines == Die Datei "robots.txt" befindet sich immer…“)
Die Text-Datei "robots.txt" steuert das (Such-)Verhalten der Webcrawler auf Internetseiten.
Allgemeines
Die Datei "robots.txt" befindet sich immer im Root einer Internetpräsenz. Hierin wird geregelt, welche Bereiche der jeweiligen Website besucht werden dürfen und welche zu meiden sind. Auch ist eine Sperrung für Crawler einzelner Suchmaschinen möglich.
Robots-Exclusion-Standard-Protokoll
Über die Übereinkunft im Robots-Exclusion-Standard-Protokoll (kurz REP; weitere Informationen siehe hier) wird geregelt, dass Webcrawler zuerst diese Datei auslesen. Wichtig ist, dass das Protokoll ausschließlich als Empfehlung verstanden werden darf. Man muss grundsätzlich auf die Mitarbeit der Crawler vertrauen, diese werden auch freundliche Webcrawler genannt.