Crawling: Unterschied zwischen den Versionen

Aktuelle Version vom 9. März 2021, 15:18 Uhr

Was ist Crawling

Mithilfe von "Webcrawlern", kleinen digitalen Werkzeugen (Bots), wird das Internet nach Daten durchsucht. Dabei wird der ganze Inhalt (Texte, Bilder oder CSS-Dateien) auf der Seite untersucht und analysiert, d.h. um was geht es auf der Seite. Diesen Prozess des automatischen Zugreifens auf eine Webseite und die Datenerfassung mittels der unterschiedlichen "Webcrawler", die auch Spider-Bots oder Google-Bot heißen, nennt man Crawling.

Um alle relevanten Informationen zu finden, bewegen sich die auf einem Code von Algorithmen und Skripten basierenden Bots automatisch von Webseite zu Webseite. Dabei starten sie auf bekannten Webseiten und folgen dann den dort angegebenen Hyperlinks. Während sich die "Webcrawler" durch das Web bewegen, sammeln sie große Datenmengen, die zur Indexierung herangezogen werden können.

Warum ist Crawling für das SEO wichtig

Durch die Indexierung wissen Suchmaschinen, wo im Netz die zu suchenden Informationen zu finden sind. Ähnlich wie der Index eines Buches, der die Stellen auflistet, die thematisch zusammenhängende Inhalte haben. Nur was gecrawlt werden kann, kann auch indexiert werden. Das bedeutet, Webseiten die das Crawling blockieren, werden nicht in den Suchergebnissen angezeigt. Dabei ist die Indexierung auch die Voraussetzung für das Ranking. Damit eine Webseite in den Ergebnissen der Suchmaschinen weiter oben angezeigt wird, ist Crawling notwendig.

Neben der Datensuche werden Inhalte analysiert und Informationen in Datenbanken und Indexen angelegt, um die Suchmaschinen zu verbessern. Der erstellte Index wird mit zusätzlichen Informationen versehen, z.B. einzelnen Keywords und wie häufig sie im Text vorkommen.

Es gibt verschiedene Arten von Crawlern. Zu den ältesten gehören die häufig eingesetzten Searchbots von Google oder anderen Suchmaschinen, um die Suchmaschinen-Datenbanken kontinuierlich zu optimieren. Als Inhaber einer Webseite kann man über die Search Console[[1]] festlegen, wie die Webseite gecrawlt werden soll.[[2]]

Voraussetzungen für das Crawling

Für das Crawling müssen zwei Vorraussetzungen erfüllt sein:

- die technische Umsetzung der Webseite erlaubt das problemlose Auslesen der Inhalte. HTML gehört zur gängigen Praxis, bei anderen Technologien wie z.B. Flash kann es zu Schwierigkeiten kommen

- es muss erlaubt sein, d.h. es darf keine gegenteilige Anweisung geben

Die Anweisungen für das Crawling ist in einer Textdatei mit Namen robust.txt enthalten, die im Domain-Root abgelegt ist. Sollte diese Datei nicht vorhanden sein, werden Suchmaschinen alles durchsuchen. URLs oder Verzeichnisse, die nicht gecrawlt werden sollen, müssen gezielt ausgeschlossen werden.[[3]]

Links

https://somm.fernkurs-wiki.de/w/index.php/Google_Search_Console

https://www.google.com/intl/de/search/howsearchworks/crawling-indexing/

https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=de

https://www.internetwarriors.de/blog/crawling-die-spinne-unterwegs-auf-ihrer-webseite/

https://www.ionos.de/digitalguide/online-marketing/suchmaschinenmarketing/was-ist-ein-crawler/

https://www.cloudflare.com/de-de/learning/bots/what-is-a-web-crawler/

@@ Zeile 21: / Zeile 21: @@
 Für das Crawling müssen zwei Vorraussetzungen erfüllt sein:
-- die technische Umsetzung der Webseite erlaubt das problemlose Auslesen der Inhalte. HTML gehört zu gängigen Praxis, bei anderen Technologien wie z.B. Flash kann es zu Schwierigkeiten kommen
+- die technische Umsetzung der Webseite erlaubt das problemlose Auslesen der Inhalte. HTML gehört zur gängigen Praxis, bei anderen Technologien wie z.B. Flash kann es zu Schwierigkeiten kommen
 - es muss erlaubt sein, d.h. es darf keine gegenteilige Anweisung geben
 Die Anweisungen für das Crawling ist in einer Textdatei mit Namen robust.txt enthalten, die im Domain-Root abgelegt ist. Sollte diese Datei nicht vorhanden sein, werden Suchmaschinen alles durchsuchen. URLs oder Verzeichnisse, die nicht gecrawlt werden sollen, müssen gezielt ausgeschlossen werden.[[https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=de]]
 == Links ==