Wissen - Suchmaschinenoptimierung (Teil 2) | Handelskraft - Das E-Commerce und Online Marketing-Blog

Der zweite Beitrag der Handelskraft Wissensreihe ergänzt den ersten Teil, welcher ebenfalls von der Thematik der Suchmaschinenoptimierung geprägt war. Der Beitrag „Suchmaschinenoptimierung (Teil 1)“ behandelte beispielsweise die Aspekte Definition und Motivation für das Durchführen von Suchmaschinenoptimierung von Webseiten. Teil 2 wird nun im Folgenden näher die grundlegenden Anforderungen an eine Website beleuchten, die erfüllt sein müssen, damit diese überhaupt von einer Suchmaschine wie Google durchsucht und in den Index aufgenommen wird.

Wenn eine neue Internetpräsenz unter einer neu registrierten Domain online geht, so ist dies in der Regel für alle Beteiligten ein erfreuliches Ereignis. Verharrt man nun in dieser freudigen Haltung und wartet darauf von einer Suchmaschine wie Google besucht und indexiert zu werden, so wartet man wahrscheinlich sein ganzes Leben lang, oder zumindest solange, bis man von einer in der Suchmaschine indexierten Webpräsenz verlinkt wird.

Google selbst ist bekannt dafür, Webseiten (hier speziell neue Webadressen) erst dann in den Index aufzunehmen, wenn mindestens eine andere bereits indexierte Webseite auf diese mit einem ausgehenden Link verweist. Möchte man möglichst zügig in einer Suchmaschine wie Google gelistet sein, ist der Weg einer Verlinkung von anderen Webseiten die optimale Vorgehensweise. Desweiteren besteht bei Google & Co. offiziell die Option, eine neue Webadresse mit dem dazugehörigen Inhalt direkt bei der jeweiligen Suchmaschine anzumelden, d.h. man gibt die URL an und hofft, dass diese in der darauffolgenden Zeit auch aufgenommen wird. An dieser Stelle ein paar Adressen von Suchmaschinen, wo eigene Webseiten für die Aufnahme angemeldet werden können:

Google: URL anmelden
Yahoo: URL anmelden
MSN: URL anmelden

Ein entsprechender Test bzw. eine direkte Suchmaschinenabfrage in der jeweiligen Suchabfragemaske einer Suchmaschine schafft Klarheit darüber, ob die eigene Internetpräsenz gelistet wird. Die Abfragen würden zum Beispiel wie folgt lauten:

Google Suchabfrage: site:www.domainname.de
Yahoo Suchabfrage: site:www.domainname.de
MSN Live Search Suchabfrage: site:www.domainname.de

Führt man diese Abfragen durch, erhält man einen Überblick darüber, ob und welche Webseiten der abgefragten Domain momentan in dem jeweiligen Suchmaschinenindex enthalten sind. Liefert die einzelne Abfrage kein Ergebnis, so sind auch folglich keine Webseiten der abgefragten Webadresse indexiert.

Es gibt zwei weitere Voraussetzungen, die erfüllt sein müssen, damit eine Website möglichst umfassend und fehlerfrei in den Suchindex einer Suchmaschine aufgenommen werden.

Besucht der Crawler einer Suchmaschine den Webauftritt, wird in der Regel als erstes die Datei robots.txt vom Webserver abgefragt. Ist diese im Stammverzeichnis der Domain enthalten, wird sie ausgelesen und interpretiert. Bekommt ein Suchmaschinenroboter in dieser Datei mitgeteilt, dass er z.B. ein bestimmtes Verzeichnis nicht durchsuchen und in den Index aufnehmen soll, so wird er dies schon aus eigenen Performancegründen wohlwollend beachten.

Im Internet finden sie umfangreiche Ressourcen dazu, was mit der robots.txt praktisch umsetzbar ist. Es gibt zudem robots.txt-Generatoren, die ihnen bei der Erstellung einer solchen Datei behilflich sind. In diesem Abschnitt soll nur darauf eingegangen werden, wie sie vermeiden, dass sie durch eine bestimmte robots.txt Konfiguration das Durchsuchen und Indexieren ihrer Webseiten verhindert wird. Folgendes sollte in der Datei robots.txt im Standard enthalten sein:

User-agent: * Disallow:

Wenn ausschließlich diese beiden Zeilen in der Datei enthalten sind, so bedeutet dies, dass alle Webseiten und die darin enthaltenen Ressourcen der betreffenden Internetpräsenz für die Suchmaschinenroboter zur Aufnahme in den Suchmaschinenindex freigegeben sind. Es kommt gelegentlich vor, dass verschiedene Software, z.B. Webshop Software, in der Default Konfiguration einer robots.txt folgendes enthält:

User-agent: * Disallow: /

Dieser Code gibt die Anweisung, dass keine einzige Suchmaschine die betreffende Webpräsenz und ihre Webseiten indexieren darf. Wenn man das Ziel hat mit den eigenen Webseiten in einer Suchmaschine gelistet zu sein, so ist diese Konfiguration fatal. Selbst wenn man sich von einer Webseite verlinken lassen hat oder die neue Webadresse einer Suchmaschine direkt mitteilt, so werden die eigenen Webseiten mit Sicherheit in keiner der relevanten Suchmaschinen zu finden sein.

Befindet sich keine robots.txt Datei in dem Webserver Stammverzeichnis, so ist dies gleichzusetzen mit der Erlaubnis für unbeschränkten Zugang zu den öffentlichen Webseiten einer Internetpräsenz für die Suchmaschinenroboter. Unabhängig davon ist die robots.txt ein hervorragendes Tool um den Suchmaschinen Traffic auf der eigenen Website in bestimmtem Maße einzuschränken. Beispielsweise kann man den (ausgesuchten) Crawlern untersagen, speicherintensive PDF Dateien zu durchsuchen und zu indexieren.

Nachdem die eigene Webpräsenz nun verlinkt bzw. an einer Suchmaschine wie Google angemeldet ist und die Datei robots.txt auf dem Webserver die „Durchfahrt“ erlaubt, muss der Aufbau der URLs näher betrachtet werden. In diesem Kapitel sollen nur die optimalen Voraussetzungen betrachtet werden, die nötig sind, um Webseiten möglichst dauerhaft fehlerfrei in einen Suchmaschinenindex wie Google zu bekommen. Der sinnvolle Einsatz und Aufbau von kontextbezogenen Keywords und Keyword Kombinationen in URLs wird in einem der folgenden Teile zur Suchmaschinenoptimierung behandelt (On Site Keyword Optimierung).

Anhand der Verweise innerhalb eines Online Auftrittes bewegt sich ein Suchmaschinenroboter von Dokument zu Dokument. Wird ein Dokument in den Suchmaschinenindex aufgenommen, so wird dieses letztlich in den Suchergebnisseiten mit dem Verweis zur Quelle hinterlegt. Es sollte darauf geachtet werden, dass die URL Struktur der eigenen Website möglichst statischer Natur ist, „sprechend“ gestaltet ist und nur in geringem Maße, wenn Software oder technisch bedingt erforderlich, dynamische Bestandteile (auch Parameter, Sonderzeichen) mitführt.

URLs mit statischem Aufbau:

http://www.domain.de/kategorie1/
http://www.domain.de/kategorie1/produkt1.html

Dynamische URLs:

http://www.domain.de/?id=3422&op=232&sid=3465834756zuuzR23kjf278z

Das aufgeführte statische Beispiel wird von einer Suchmaschine problemlos erkannt und das dahinterliegende Dokument fehlerfrei indexiert. Das Beispiel, welches die (dynamischen) Parameter enthält, wird bis zu einem gewissen Grad fehlerfrei in den Suchmaschinenindex aufgenommen. Der dritte Parameter „sid“ stellt die Session ID dar und ist der kritische Bereich.

Webadressen mit nicht-dynamischen Parametern in begrenztem Umfang, z.B. für Webshop Kategorien oder Produkte stellen heute für eine Suchmaschine wie Google keine Probleme dar. Die betroffenen Webseiten werden fehlerfrei indexiert und sind in der Regel von den Suchergebnisseiten aus problemlos erreichbar.

Die am Markt existierenden Webshops nutzen heute fast ausnahmslos Cookies und Session IDs, Session IDs vor allem alternativ dann, wenn ein Internetnutzer im Browser keine Cookies zulässt. Eine Suchmaschine wie Google akzeptiert ebenfalls kein Cookie. Die Session ID ändert sich bei jedem Besuch des betroffenen Webshops, d.h. wenn Google eine URL ihres Webshops inklusive der Session ID in den Suchmaschinenindex aufnimmt, die ID abgelaufen ist, aber noch in den Suchergebnisseiten erscheint und klickbar ist, der Shop diese aber als ungültig erklärt, dann wird im Allgemeinen beim Besuch des Dokumentes eine Fehlerseite ausgeliefert. Selbst wenn Google intern den Inhalt der bereits indexierten URL aktualisiert und diese Webseite neu aufruft, erscheint die Fehlerseite. Dieses Ergebnis ist nicht wünschenswert.

Der Großteil der Webshop Anbieter bietet hierfür Lösungen an. Im Detail sind diese meist so gestaltet, dass eine Session ID für definierbare Suchmaschinenroboter einfach nicht ausgegeben wird. Die Funktionalität eines Shops ist dadurch nicht beeinträchtigt. Für kostenfrei erhältliche Shopsoftware gibt es üblicherweise Plugins oder andere Hilfsmittel, welche zum Ergebnis führen, erfreulicherweise meist in den doch recht großen Communities frei zugänglich.

Fazit

Zusammenfassend kann gesagt werden, dass wenn eine Webpräsenz von mindestens einer anderen bereits in einer Suchmaschine indexierten Webseite einen Verweis erhält und/oder diese manuell bei den gewünschten Suchmaschinen angemeldet wurde, der erste erforderliche Schritt in die richtige Richtung – eine erfolgreiche Suchmaschinenindexierung – getätigt wurde. Zeitgleich wird überprüft, ob dem Suchmaschinenroboter per robots.txt nicht der Zugriff auf die öffentlichen Webverzeichnisse und Dokumente verwehrt wird. Der letzte Baustein dafür, die Website tauglich zur Aufnahme in einen Suchmaschinenindex zu gestalten, ist der URL Aufbau, der im Idealfall statischer Natur ist.

3 Reaktionen zu “Wissen – Suchmaschinenoptimierung (Teil 2)”

Christian Onnasch sagt:

03.04.2008 um 14:49 Uhr

Gratulation Marcus,

das ist wahrscheinlich mit Abstand der längste Beitrag in der Handelskraftgeschichte.

So viele Wörter, da werde ich wohl erst am Feierabend zum lesen kommen. ;)
Marcus Janze sagt:

03.04.2008 um 14:50 Uhr

Ich glaube das lässt sich noch toppen Christian. Warten wir es ab. :D
s1ck sagt:

03.04.2008 um 23:18 Uhr

man könnte mal erwähnen, dass WILDCARDS in einer robots.txt NICHTS zu suchen haben :) musste ja extra eine methode schreiben, damit unser crawler dies berücksichtigt. man glaubt garnicht, wie oft das vorkommt

Fazit

Weitere Beiträge zum Thema:

3 Reaktionen zu “Wissen – Suchmaschinenoptimierung (Teil 2)”