Website-Marketing

Wie die Robots arbeiten
Zwei Drittel aller Online-Nutzer
geben an, im Internet vor allen Dingen nach Informationen zu suchen. Dabei
spielen die Suchmaschinen (allerdings mit leicht abnehmender Tendenz) die
wichtigste Rolle. (Eine Übersicht über Suchtools und Suchmaschinen-Nutzung
finden Sie hier).
Aber zwei Drittel davon beklagen
auch, dass sie die gesuchten Informationen nicht finden, obwohl diese Informationen
durchaus vorhanden sind.
Das ist kein Wunder:
- Das Internet enthält (oder besser:
versteckt) ) irgendwo zwischen 4,5 und 6 Milliarden
Dokumente und täglich
kommen einige Millionen dazu.
- Tatsächlich aber ist der „Inhalt“
des Internet möglicherweise bis zu 500 mal größer (das
Phänomen des sog. "Deep Web" oder "Invisible Web"
– zu Versuchen, dieses „unsichtbare
Internet“ zugänglich zu machen s.u. „Spezial-Suchmaschinen“ und
„Spezial-Kataloge“), da in der erfassten Zahl
der Dokumente die aus Datenbanken dynamisch generierten Seiten nicht miterfasst
sind/sein können.
Hier allerdings hat sich vor allem durch die Vorstöße von Google und
die Reaktionen der Konkurrenten sowie durch die Weiterentwicklung von
„vertikalen“ Suchmaschinen einiges verändert. Dynamische Seiten, PDF
und jetzt auch Flash werden von Google und Co. – allerdings noch in
bescheidenem Rahmen – indiziert.
- Die Robots der Suchmaschinen erfassen
nur einen mehr oder minder kleinen Teil dieser Dokumente (s. Seite "Statistik").
Waren es vor 1999 noch kaum 20 Prozent bei den größten
Suchmaschinen, so behaupten führende Suchmaschinen wie Google
und AllTheWeb heute, sie hätten
die 3 Milliarde an erfassten (in den Index der Suchmaschinen werden aber
nur gut die Hälfte aufgenommen) Dokumenten erreicht. Da ist Skepsis
geboten.
- Es gibt einen großen Teil des
Internet – sozusagen die Cyber-Slums – die ein Schattendasein am Rande
des Cyberspace führen, von keinem Link erreicht und daher für
Mensch und Robot gleichermaßen „unsichtbar“. (Faszinierende Studie
von IBM, Altavista und Compaq)
- Ein großer, vielleicht der überwiegende
Teil der Dokumente im Internet entzieht sich der sinnvollen Einordnung
und Sortierung nach relevanten Kategorien durch mangelhafte Berücksichtigung
der Suchmaschinen-Belange (s. Kapitel „20 Tipps“),
vergessene oder fehlerhafte Eintragungen bei den Web-Katalogen etc.
- Und umgekehrt tragen schließlich
diejenigen, die den jeweiligen Befindlichkeiten der Suchmaschinen besonders
eifrig nachspüren, ihnen möglichst alles recht machen und mit
allerlei Tricks einen Platz an der Sonne erobern wollen, zur allgemeinen
Verwirrung und Überfütterung (z.B. durch sog. Doorway-Pages,
Seiten, die nur für die Suchmaschinen gestaltet werden) noch erheblich
bei.
Um zu verstehen, was die Suchmaschinen
in dieser Situation leisten können – und was nicht, und wie man ihnen
dabei auf die Sprünge helfen kann – ist es sinnvoll, die Arbeitsweise
der Robots oder Spider kurz zu beleuchten.
Wie Robots arbeiten
Die Such-Robots, die als Jäger
und Sammler den Cyberspace durchstreifen auf der Suche nach (HTML-)Texten
finden ihren Weg durch das virtuelle Unterholz, indem sie einfach den Knoten
im Netz, den Hyperlinks, von Seite zu Seite folgen. In dieser endlosen
Jagd von Hypertext zu Hypertext lassen sie sich durchaus beeinflussen von
menschlichen „Zurufen“ – den Anmeldungen einzelner Seiten durch deren Webmaster.
Robots "lernen" auch bei ihrer Reise:
Eine Site z.B. die häufig neue Seiten einstellt und neue Inhalte bringt,
wird häufiger besucht als eine Site, die über Monate und Jahre
unverändert bleibt. (Da helfen dann auch die "Anweisungen" im unsichtbaren
Kopf - Head - der HTML-Dokumente wenig, die den Robots "befehlen",
alle paar Wochen mal wieder vorbeizuschauen).
Sämtliche Wörter der so
indexierten (in den Index der Suchmaschine aufgenommen) Seiten werden,
mit Ausnahmen wie "und", "oder" etc., für die Volltextsuche in einer
gigantischen Datenbank zur Verfügung gestellt. Bei der Suchanfrage
eines Nutzers wird dann "nur" noch dieser Index - nicht aber das WWW immer
wieder neu - durchsucht.
Sind sie einmal auf eine Web-Site
angesetzt, hangeln sich die Robots über die internen Links durch
die gesamte Site und indexieren, was ihnen dort begegnet.
So die Theorie.
Theorie und Praxis
In der Praxis sieht das gewöhnlich
anders aus. Selbst große Suchmaschinen verlieren nach einer Weile,
nach der zweiten, gewiss aber nach der dritten Hierarchieebene, die Lust
am Sammeln und wenden sich neuen Jagdgründen zu. Oft genug drehen
sie aber auch schon nach der ersten Seite bei, weil ihnen mit Frames, Datenbankanfragen,
Java(script), Flash etc. der Zugang versperrt wird. Denn die Robots können
nur (in der Regel) einfaches HTML „lesen“.
Das bedeutet für den Web-Site-Betreiber,
dass er
- seine Inhaltsseiten – zumindest die
wichtigsten – separat anmelden,
- dynamisch generierte Seiten in HTML-Seiten
„umwandeln“ (z.B. durch URL-Rewrite),
- das Problem der „Ebenen“ durch sogenannte
Crawler Pages, Seiten mit direkten Links zu allen anderen Seiten auf dem
Server, umgehen
sollte.
Damit löst er zumindest die
quantitative Seite des Suchmaschinen-Problems: Möglichst viele seiner
Inhaltsseiten von den Such-Robotern erfassen zu lassen und schafft damit
zumindest günstige Voraussetzungen für die Lösung des qualitativen,
des Bewertungsproblems.
Den kleinsten gemeinsamen Nenner
bedienen
Und hier fangen die Schwierigkeiten
dann so richtig an. Die Software-Lösungen für Suche und Retrieval
unterscheiden sich bei den einzelnen Suchmaschinen ganz erheblich. Eine
übersichtliche Tabelle
(und eine Übersicht
für Webmaster) dazu findet sich (natürlich) auf den Seiten von
SearchEngineWatch. Für den "durchschnittlichen Web-Site-Betreiber"
kann das nur heißen: Den kleinsten gemeinsamen (aber immer noch ausreichend
breiten) Nenner zu finden, und seine Seiten, so gut es geht, danach zu optimieren.
(Dazu mehr in den „20
Tipps“ und auf den Service-Seiten in der rechten Navigationsleiste)
© lb medien 2004
http://www.e-publishing.de

|