
Ein Crawler (oder auch Webcrawler, Spider oder Searchbot) ist ein Programm, welches automatisch nach einem vorgegebenen Schema nach bestimmten Informationen sucht. Hinreichende Kenntnisse über Crawler ist im Hinblick auf ihre Bedeutung im Internet sehr wichtig. Außerdem sind Crawler und das Wissen darüber in einigen digitalen Berufszweigen unerlässlich.
Mit unserem Glossar Beitrag möchten wir dich für das Thema Crawler begeistern. Hier werden die Definitionen und Erklärungen von Webcrawler nähergebracht und genau erklärt. Wir wünschen dir viel Spaß beim Lesen. Außerdem wollen wir dir einige Tipps und Empfehlungen mitgeben, wie du vorgehen solltest, um das bestmögliche Ergebnis mit Crawlers zu erreichen. Wir wünschen dir viel Spaß beim Lesen.
Contents
- 1 Das Wichtigste in Kürze
- 2 Glossareintrag: Der Begriff Crawler im Detail erklärt
- 2.1 Was ist eine Crawler?
- 2.2 Wie funktioniert ein Crawler?
- 2.3 Welche rechtliche Rahmenbedingungen sollte ich bei einem Crawler beachten?
- 2.4 Welche Vor- und Nachteile gibt es bei einem Crawler?
- 2.5 Wieso sollte ich einen Crawler verwenden?
- 2.6 Welche Arten von Crawler gibt es?
- 2.7 Was unterscheidet einen Crawler von einem Scraper?
- 2.8 Wo finde ich gute Crawler?
- 2.9 Wie kann ich mich vor einem Crawler schützen?
- 3 Fazit
- 4 Weiterführende Literatur: Quellen und interessante Links
Das Wichtigste in Kürze
- Crawler sind automatisierte Bots und sie durchsuchen das Internet nach Information, indem sie URLs und deren Hyperlinks nacheinander besuchen und abspeichern, um sie danach thematisch zu kategorisieren.
- Webcrawler sind sehr praktische Tools zur Informationsbeschaffung, insbesondere für SEO-Optimierung für Webseiten und Produkte, da sie helfen die Relevanz bei den Suchmaschinen zu erhöhen.
- Aufpassen musst du vor allem vor schädliche Webcrawler, da sie deine Webseiten belasten und in Sachen Datenschutz keine Rücksicht nehmen. Deswegen ist ein Schutz vor böswillige Webcrawler unerlässlich.
Glossareintrag: Der Begriff Crawler im Detail erklärt
Wir wollen dir alles Wichtige um das Thema Crawler erklären, damit du das nötige Wissen dafür hast.
Was ist eine Crawler?
Wie funktioniert ein Crawler?
Auf diese Weise speichert ein Crawler theoretisch alle URLs im World Wide Web ab, die nicht für das Crawlen gesperrt sind. In der praktischen Anwendung wird der Vorgang nach einer Vorgabe beendet und der Webcrawler fängt dann von vorne an zu crawlen. Deswegen werden Crawler auch Bots oder Searchbots genannt, da sie wiederholende Prozesse zum großen Teil automatisch erledigen.
Nach dem Crawlen werden die Informationen der gesammelten Webseiten mithilfe einer Indexierung gespeichert und ausgewertet, um die gesammelten Daten zu ordnen und zu strukturieren(2).
Welche rechtliche Rahmenbedingungen sollte ich bei einem Crawler beachten?
Allerdings kannst du leicht mit einem Webcrawler gesammelte Daten missbrauchen und in rechtliche Graubereiche manövrieren. Zum Beispiel kannst du einen Crawler verwenden, um gezielt geschützte Daten zu finden, die unter dem Urheberschutz stehen. Auch ist die Verwendung von E-Mail-Adressen für Dritte unzulässig, besonders ohne Erlaubnis.
Sehr problematisch wird die Sache dann, falls du dich mit einem Crawler zu Informationen und Seiten Eintritt verschaffst, die für ein Webcrawler gesperrt sind. Meistens werden diese Art von Crawlers für gefährliche Dinge eingesetzt.
Welche Vor- und Nachteile gibt es bei einem Crawler?
Vorteile
Das Wissen und Nutzen von einem Webcrawler bietet dir einige Vorteile, die du zu deinen Gunsten nutzen kannst. Webcrawler eignen sich zum einen beim Sammeln von Informationen im World Wide Web. Zusätzlich lassen sich die gesammelten Informationen indexieren, um Struktur und Ordnung in den Daten herzustellen.
Besonders wichtig ist eine gute Grundkenntnis von Crawler auch, um praktisch deine SEO-Kenntnisse zu erweitern und zu verbessern. Wenn du weiß, wie du deine betreuenden Produkte und Webseiten gut für seriöse Webcrawler sichtbar machst, werden sie am Ende bei den Suchmaschinen hoch gerankt.
Nachteile
Leider bringen Crawler auch ein paar negative Aspekte mit, die wir dir nicht vorenthalten wollen. Schädliche Webcrawler beeinflussen die Webseitenperformance auf negative Weise und in einigen Fällen folgt auch ein unerlaubter Datenklau.
Viele negative Folgen von Webcrawler erfolgen daraus, dass sie für böswillige und illegale Zwecke benutzt und missbraucht werden.
Wieso sollte ich einen Crawler verwenden?
Gute Crawler vereinfachen die Suche enorm. Webcrawler sammeln mit hoher Zuverlässigkeit Informationen wie zum Beispiel Nachrichten, statistische Daten oder E-Mail-Adressen.
Auch sind Webcrawler praktisch für Preis- und Produktvergleiche und helfen auch zur Indexierung von gesammelten Daten. Webcrawler sammeln auch viele URLs, die zum Aufbauen von guten Backlinks hilfreich sind.
Welche Arten von Crawler gibt es?
- Focused Crawler: Fokussierte Crawler sind die gängigsten und bekannteste Formen von Webcrawler. Solche Crawler suchen im Internet nach bestimmten Inhalten und unterteilen ihre gefundene Webseiten und deren Hyperlinks thematisch nach Kategorien.
- Crawler zum Data Mining: Dieser Art von Webcrawler sucht mithilfe von statistischen Methoden Zusammenhänge von großen Datenbestände im Internet. Muss sich nicht nur im World Wide Web beschränken.
- Crawler zur Webometrie: Bei dieser Variante wird meist anhand von Messungen die Struktur und Eigenschaften des Internets und ihren Nutzern.
E-Mail-Harvester Solche Crawler durchsuchen im Internet nach E-Mail-Adressen und speichern sie ab, um sie danach für weitere Zwecke zu verwenden.
Leider missbrauchen viele die Verwendungszwecke von Webcrawler für fragwürdige bis illegale Zwecke. Bei E-Mail-Harvester werden die Adressen für Dritte gesammelt, um sie für Spam-Mails zu versenden. Auch um urheberrechtlich geschütztes Material zu finden werden Webcrawler genutzt.
Was unterscheidet einen Crawler von einem Scraper?
Ein Scraper durchsucht nur vorher festgelegte Webseiten während ein Webcrawler durch Verlinkungen auch weitere Seiten durchsuchen kann. Außerdem achten seriöse Crawler auf Begrenzungen wie robots.txt, während Scraper diese meist ignorieren und dadurch Serverüberlastungen und Urheberrechtsverletzungen in Kauf nehmen.
Wo finde ich gute Crawler?
Große Betreiber von Suchmaschinen besitzen meistens gute Crawler. Wichtige Webcrawler von bekannten Suchmaschinen sind:
- Google: Googlebot wird aus zwei Crawler für Desktop und für mobile Endgeräte unterteilt. Google bietet zudem viele Tools, womit du deine Daten im Zusammenhang mit dem Googlebot einlesen und verbessern wirst(7).
- Bing: Mit Bingbot verwendet Microsoft einen eigenen Webcrawler für seine Suchmaschine.
- Yahoo: Der Webcrawler Slurp Bot sorgt dafür, dass Yahoo User personenbezogene Inhalte erhalten.
- DuckDuckGo: Die Suchmaschine wirbt damit, keine persönlichen Daten zu sammeln. DuckDuckGo arbeitet mit DuckDuckBot als Crawler.
Wenn du erfahren beim Programmieren bist, kannst du selber einen Webcrawler bauen, der im besten Fall perfekt auf deine Bedürfnisse zugeschnitten ist. Du machst dich aber strafbar, falls du einen Crawler entwickelst, der für Webcrawler gesperrte Inhalte zugreifen kannst.
Wie kann ich mich vor einem Crawler schützen?
Du als Webseitenbetreiber kannst über der Datei robots.txt auf dem Webspace kommunizieren, dass bestimmte Inhalte nicht erfasst werden sollte. Zusätzlich bestimmen besondere Angaben im HTML-Header und in den Meta-Tags zusätzlich, welche Daten und Seiten du zur Indexierung freigibst. Allerdings halten sich leider besonders schädliche Crawlers nur selten an solche Vorgaben.
Um deine E-Mail-Adressen vor bösartige Crawler zu schützen, kannst du sie so auf deine Webseiten hinterlegen, dass Webcrawlers die Adressen nicht als solche sehen. Eine Möglichkeit wie du die E-Mail-Adresse alternativ schreiben kannst, ist zum Beispiel beispiel(at)domain(dot)com.
ute Bot-Management Programme sorgen dafür, dass seriöse Webcrawler auf deine Webseiten zugreifen können, während ein bösartiger Crawler ausgeschlossen wird. Solche Programme legen Whitelists an, wo seriöse Webcrawler nicht ausgeschlossen sind.
Fazit
Wir finden, dass im SEO-Bereich das Wissen über Crawler essenziell für dich ist. Zum einen bringt dein Wissen über Webcrawler die Grundlage dafür, dass die Bots der Suchmaschinen deine Webseiten und Produkte durch effektive Maßnahmen größere Aufmerksamkeiten schenken und besser positionieren.
Andererseits hilft dir dein Wissen über Crawler auch dabei, dass unseriöse und schädliche Webcrawler nicht deine Webseiten lahmlegen oder wichtige und vertrauenswürdige Daten klauen und für böse Zwecke missbrauchen.
Weiterführende Literatur: Quellen und interessante Links
[1] https://de.wikipedia.org/wiki/Webcrawler
[2] https://de.wikipedia.org/wiki/Indexierung
[3] https://www.design4u.org/suchmaschinenoptimierung/selbststandige-crawlerbasierte-suchmaschinen-wie-funktionieren-suchmaschinen-diplomarbeit-seo-strategien-kapitel-2-3/
[4] https://webmaster-de.googleblog.com/2008/06/duplicate-content-aufgrund-von-scraper.html
[5] https://www.octoparse.com/blog/top-20-web-crawling-tools-for-extracting-web-data
[6] https://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/
[7] https://support.google.com/webmasters/answer/182072?hl=de
Bildquelle: pixabay / StockSnap