Robots.txt

Aus Social Media Manager
Version vom 19. Juni 2018, 12:22 Uhr von Andreas Ol (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „Die Text-Datei "robots.txt" steuert das (Such-)Verhalten der Webcrawler auf Internetseiten. == Allgemeines == Die Datei "robots.txt" befindet sich immer…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Die Text-Datei "robots.txt" steuert das (Such-)Verhalten der Webcrawler auf Internetseiten.

Allgemeines

Die Datei "robots.txt" befindet sich immer im Root einer Internetpräsenz. Hierin wird geregelt, welche Bereiche der jeweiligen Website besucht werden dürfen und welche zu meiden sind. Auch ist eine Sperrung für Crawler einzelner Suchmaschinen möglich.


Robots-Exclusion-Standard-Protokoll

Über die Übereinkunft im Robots-Exclusion-Standard-Protokoll (kurz REP; weitere Informationen siehe hier) wird geregelt, dass Webcrawler zuerst diese Datei auslesen. Wichtig ist, dass das Protokoll ausschließlich als Empfehlung verstanden werden darf. Man muss grundsätzlich auf die Mitarbeit der Crawler vertrauen, diese werden auch freundliche Webcrawler genannt.


Quellen

Allgemeines zum Robots-Exclusion-Standard-Protokoll

Zusammenfassung für SEO]