Crawling: Unterschied zwischen den Versionen
(Die Seite wurde neu angelegt: „ == Was ist Crawling == Mithilfe von Crawlern, kleinen digitalen Werkzeugen (Bots), wird das Internet nach Daten durchsucht. Dabei wird der ganze Inhalt (Tex…“) |
|||
Zeile 9: | Zeile 9: | ||
Neben der Datensuche werden Inhalte analysiert und Informationen in Datenbanken und Indexen angelegt, um die Suchmaschinen zu verbessern. Der erstellte Index wird mit zusätzlichen Informationen versehen, z.B. einzelnen Keywords und wie häufig sie im Text vorkommen. | Neben der Datensuche werden Inhalte analysiert und Informationen in Datenbanken und Indexen angelegt, um die Suchmaschinen zu verbessern. Der erstellte Index wird mit zusätzlichen Informationen versehen, z.B. einzelnen Keywords und wie häufig sie im Text vorkommen. | ||
Es gibt verschiedene Arten von Crawlern. Zu den ältesten gehören die häufig eingesetzten Searchbots von Google oder anderen Suchmaschinen, um Suchmaschinen- | Es gibt verschiedene Arten von Crawlern. Zu den ältesten gehören die häufig eingesetzten Searchbots von Google oder anderen Suchmaschinen, um die Suchmaschinen-Datenbanken kontinuierlich zu optimieren. Als Inhaber einer Webseite kann man über die Search Console festlegen, wie die Webseite gecrawlt werden soll.[[https://www.google.com/intl/de/search/howsearchworks/crawling-indexing/]] | ||
== Voraussetzungen für das Crawling == | == Voraussetzungen für das Crawling == |
Version vom 9. März 2021, 12:41 Uhr
Was ist Crawling
Mithilfe von Crawlern, kleinen digitalen Werkzeugen (Bots), wird das Internet nach Daten durchsucht. Dabei wird der ganze Inhalt (Texte, Bilder oder CSS-Dateien) auf der Seite untersucht und analysiert. Diesen Prozess nennt man Crawling.
Basierend auf einem Code von Algorithmen und Skripten bewegen sich die Crawler automatisch über Hyperlinks bereits vorhandener Webseiten durch das Internet. Während sich die Bots durch das Web bewegen, sammeln sie große Datenmengen, die zur Indexierung herangezogen werden können. Nur was gecrawlt werden kann, kann auch indexiert werden. Und die Indexierung ist die Voraussetzung für das Ranking.
Neben der Datensuche werden Inhalte analysiert und Informationen in Datenbanken und Indexen angelegt, um die Suchmaschinen zu verbessern. Der erstellte Index wird mit zusätzlichen Informationen versehen, z.B. einzelnen Keywords und wie häufig sie im Text vorkommen.
Es gibt verschiedene Arten von Crawlern. Zu den ältesten gehören die häufig eingesetzten Searchbots von Google oder anderen Suchmaschinen, um die Suchmaschinen-Datenbanken kontinuierlich zu optimieren. Als Inhaber einer Webseite kann man über die Search Console festlegen, wie die Webseite gecrawlt werden soll.[[1]]
Voraussetzungen für das Crawling
Für das Crawling müssen zwei Vorraussetzungen erfüllt sein:
- die technische Umsetzung der Webseite erlaubt das problemlose Auslesen der Inhalte. HTML gehört zu gängigen Praxis, bei anderen Technologien wie z.B. Flash kann es zu Schwierigkeiten kommen
- es muss erlaubt sein, d.h. es darf keine gegenteilige Anweisung geben
Die Anweisungen für das Crawling ist in einer Textdatei mit Namen robust.txt enthalten, die im Domain-Root abgelegt ist. Sollte diese Datei nicht vorhanden sein, werden Suchmaschinen alles durchsuchen. URLs oder Verzeichnisse, die nicht gecrawlt werden sollen, müssen gezielt ausgeschlossen werden.[[2]]
Links
https://www.google.com/intl/de/search/howsearchworks/crawling-indexing/
https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=de
https://www.internetwarriors.de/blog/crawling-die-spinne-unterwegs-auf-ihrer-webseite/
https://www.ionos.de/digitalguide/online-marketing/suchmaschinenmarketing/was-ist-ein-crawler/