Crawling

Aus Social Media Manager
Version vom 9. März 2021, 13:40 Uhr von Lisa 2021 (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „ == Was ist Crawling == Mithilfe von Crawlern, kleinen digitalen Werkzeugen (Bots), wird das Internet nach Daten durchsucht. Dabei wird der ganze Inhalt (Tex…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Was ist Crawling

Mithilfe von Crawlern, kleinen digitalen Werkzeugen (Bots), wird das Internet nach Daten durchsucht. Dabei wird der ganze Inhalt (Texte, Bilder oder CSS-Dateien) auf der Seite untersucht und analysiert. Diesen Prozess nennt man Crawling.

Basierend auf einem Code von Algorithmen und Skripten bewegen sich die Crawler automatisch über Hyperlinks bereits vorhandener Webseiten durch das Internet. Während sich die Bots durch das Web bewegen, sammeln sie große Datenmengen, die zur Indexierung herangezogen werden können. Nur was gecrawlt werden kann, kann auch indexiert werden. Und die Indexierung ist die Voraussetzung für das Ranking.

Neben der Datensuche werden Inhalte analysiert und Informationen in Datenbanken und Indexen angelegt, um die Suchmaschinen zu verbessern. Der erstellte Index wird mit zusätzlichen Informationen versehen, z.B. einzelnen Keywords und wie häufig sie im Text vorkommen.

Es gibt verschiedene Arten von Crawlern. Zu den ältesten gehören die häufig eingesetzten Searchbots von Google oder anderen Suchmaschinen, um Suchmaschinen-Datenbank kontinuierlich zu optimieren. Als Inhaber einer Webseite kann man über die Search Console festlegen, wie die Webseite gecrawlt werden soll.[[1]]


Voraussetzungen für das Crawling

Für das Crawling müssen zwei Vorraussetzungen erfüllt sein:

- die technische Umsetzung der Webseite erlaubt das problemlose Auslesen der Inhalte. HTML gehört zu gängigen Praxis, bei anderen Technologien wie z.B. Flash kann es zu Schwierigkeiten kommen

- es muss erlaubt sein, d.h. es darf keine gegenteilige Anweisung geben

Die Anweisungen für das Crawling ist in einer Textdatei mit Namen robust.txt enthalten, die im Domain-Root abgelegt ist. Sollte diese Datei nicht vorhanden sein, werden Suchmaschinen alles durchsuchen. URLs oder Verzeichnisse, die nicht gecrawlt werden sollen, müssen gezielt ausgeschlossen werden.[[2]]


Links

https://www.google.com/intl/de/search/howsearchworks/crawling-indexing/

https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=de

https://www.internetwarriors.de/blog/crawling-die-spinne-unterwegs-auf-ihrer-webseite/

https://www.ionos.de/digitalguide/online-marketing/suchmaschinenmarketing/was-ist-ein-crawler/