Crawler Robots Spider

Wie kommen Suchmaschinen zu den Daten Ihrer Seite?

Viele Suchmaschinenbetreiber verwenden zum Indizieren des Internets vollautomatisierte Suchprozesse, sogenannte Crawler, Robots oder Spider. Durch diese Software ist es möglich die Inhalte der Webseiten auszulesen, dessen Inhalt zu analysieren und anschließend zu bewerten.
Alles was Sie über die Funktion und Arbeitsweise von Robots wissen sollten, ist im Web Robots FAQ zu finden. Auch Wikipedia bietet eine gute Übersicht und viele weiterführende Links zum Begriff Webcrawler.

Wie erfahren Suchmaschinen von der Existenz meiner Seite?

Sie haben einerseits die Möglichkeit Ihre URLs bei den einzelnen Suchmaschinen mittels einer manuellen Suchmaschinen-Anmeldung bekannt zu geben.

Die vermutlich bessere Variante ist, dass man Links auf anderen bereits indizierten Seiten zu dem neuen Projekt setzt und den Suchprozessen damit den Weg zeigt. Es ist dann eine Frage der Zeit bis man im Index aufscheint. Der angenehme Nebeneffekt dabei ist, gleich zu Beginn eingehende Links vorweisen zu können.

Wie oft findet eine Indizierung statt?

Über die Häufigkeit der Besuche von Suchmaschinen lässt sich keine pauschale Aussage treffen. Wenn Sie eine kleine unbedeutende Seite haben oder erst am Anfang Ihrer Suchmaschinenoptimierung stehen, werden die Intervalle zwischen den Besuchen länger sein als bei sehr hochwertigen Seiten mit vielen Besuchern, hohem Pagerank und starken eingehenden Links. Sie können die Häufigkeit in Ihrem Webserver-Logfile nachvollziehen, da sich die Robots normalerweise identifizieren lassen.

Beispiele für Logfile-Einträge:

Googlebot/2.1; +http://www.google.com/bot.html
Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp
msnbot-media/1.0 +http://search.msn.com/msnbot.htm

Die Datei ROBOTS.TXT

Suchmaschinen-Robots sind nicht immer erwünscht bzw. sollen diese nicht immer alle Inhalte indizieren dürfen. Mit der Datei robots.txt kann man definieren, welche zum Teil sensiblen Daten nicht in den Index aufgenommen werden sollen.
Unterwünschte Robots können auch über serverseitige Tools wie zB. Spider-Trap ausgesperrt werden, in dem mehrere technische Methoden zum Ausschluß verknüpft wurden.

Achten Sie unbedingt auf die korrekte Syntax in der Datei robots.txt, schon wenige falsche Kommandos können zu einem längerfristigen Ausschluss aus Suchmaschinen wie zB. Google führen.

Details zum richtigen Aufbau gibt es auf SELFHTML robots.txt .


Sie sind hier: Basiswissen > Crawler Robots Spider

< Suchmaschinen <|> Vorbereitung >