Google Optimierung & Wissenswertes


Seit einigen Jahren ist Google die bekannteste und am häufigsten genutzte Suchmaschine. Mitte Juni 2000 wurde Google mit mehr als einer Milliarde Seiten im Index Marktführer im Suchmaschinen Bereich. Zurzeit werden ca. 8 Milliarden Webseiten (Stand Januar 2005) durchsucht. Die Anzahl der indizierten Bilderliegt derzeit bei ca. 880 Millionen.
Die verwendeten Server bei Google sind normale No-Name Standard-PCs, die sich die Arbeit teilen. Durch die Zusammenarbeit mehrerer Rechner, auch Cluster genannt, erreicht Google ein gigantisches Leistungspotenzial:
Weltweit sind über 30 Cluster Datencenter mit bis zu 2000 Rechnern im Einsatz. Es wird derzeit eine Kapazität mit 126.544 GB RAM erreicht. Man schätzt, dass insgesamt 63.272 Rechner mit 126.544 Prozessoren (CPUs) in 719 Racks laufen. Die Gesamt-Prozessorleistung von 253.088 GHz und 5.062 TB (Terabyte) Festplattenspeicher auf gewöhnlichen IDE Festplatten sorgen dafür, dass 8.058.044.651 Dokumente mit durchschnittlich 10KB pro Dokument indiziert werden, 80 Terabyte als Index. Das wären 1 Petabypte Daten pro Cluster!
Somit ist Google eines der größten Rechenprojekte der Welt, das wohl mehr Rechner einsetzt als jedes andere voll verwaltete Einzelsystem (Distributed-Computing-Projekte werden hier nicht mitgezählt) und rund 200 Doktoren der Informatik und 600 weitere Informatiker beschäftigt.
Google wird jeden Tag über eintausend Mal pro Sekunde aufgefordert, diese Daten zudurchsuchen, und liefert die Ergebnisse normalerweise in Sekundenbruchteilen. Geht etwas schief, so lässt sich das System nicht einfach ab- und wiederanschalten.
Google betreibt seine Systeme auf preiswerten 1U- und 2U-Servern von No-Name-Anbietern – so preiswert, dass Google sie als PCs bezeichnet. Schließlich besitzt jeder dieser Server einen normalen x86 PC-Prozessor, eine normale IDE Festplatte und normale PC Zuverlässigkeit. Das bedeutet, dass im Durchschnitt der PC nach drei Jahren Dauerbetrieb ausfällt. Bei einem Heim-PC ist das aus wirtschaftlichen Gesichtspunkten akzeptabel, doch im dem Rahmen, in dem Google arbeitet, werden diese Ausfälle zu einem wirklichen Problem: In einem Cluster mit tausend PCs kann man davon ausgehen, dass im Schnitt ein PC pro Tag ausfällt. Bei dieser Größenordnung kann Google diese Probleme nicht manuell beseitigen. Hierfür sorgt eine Software, die stets mit einem Komponentenausfall rechnet und entsprechend handelt. Sämtliche Daten werden permanent durch die Software repliziert: Server, Racks, Regale und ganze Rechenzentren.
Für Google sprechen zwei entscheidende Faktoren: Mit einer Verdoppelung der eingesetzten Hardware, kann die Performance/Kapazität verdoppelt werden. Innerhalb von drei Tagen lässt sich ein komplett neuer Daten- bzw. Rechenzentrum einrichten. Installation, Konfiguration und Einspielen der Daten ist automatisiert. Der zweite Faktor zu Gunsten von Google sind die fallenden Hardwarepreise. Verdoppelt sich die Indexgröße, bedeutet die absolut parallele Natur dieser Thematik, dass Google die Anzahl der Rechner verdoppeln und die gleiche Antwortzeit erhalten könnte, um so linear mit dem Datenverkehr zu wachsen. Während also das Web jedes Jahr größer wird und zur Indexierung, Suche und Ausgabe von Webseiten immer mehr Hardware benötigt wird, wird diese immer preiswerter, so dass sich das Ganze mehr oder weniger ausgleicht.
Mit den wachsenden Proportionen des Betriebes ergeben sich aber bestimmte Probleme, die bei kleineren Systemen kein Thema wären. So verwendet Google zum Beispiel nur IDE Laufwerke als Speichermedien. Diese sind schnell und preiswert, aber nicht besonders zuverlässig. Der BetriebTausender preiswerter Server mit relativ hohen Ausfallquoten ist keine einfache Aufgabe. Eine normale IDE Festplatte hat durchschnittlich eine Fehlerquote zwischen 1 in 10-10 und 1 in 10-15 Bits – das heißt, dass ein Millionstel eines Milliardstels der darauf geschriebenen Daten beschädigt werden könnte, ohne dass dies durch die Fehlerprüfung der Festplatte entdeckt würde. Wenn man aber ein Petabyte von Daten hat, muss man sich langsam über diese Ausfälle Gedanken machen. Man muss davon ausgehen, dass mehrere Male im Monat unentdeckte Bitfehler auf der Platte vorhanden sein werden, trotz integrierter Hardwareprüfung. Hinzu kommt, dass in einem Cluster mit tausend PCs ein PC pro Tag ausfällt. Das wären am Tag gut 63 Rechner!
Eine Suchanfrage wird zuerst an die Daten- bzw. Indexserver gesendet. Das Ergebnis wird an Hand der Indexserver aus den Documentserver ausgelesen. Unter Berücksichtigung der bereits genannten relativ hohen Ausfallquote und den damit einhergehenden mangel- bis fehlerhaften Suchergebnisausgaben, ist so manche Hysterie in der professionellen SEO Welt nicht nachvollziehbar. Abstruse bis völlig danebenliegende Legenden über die möglichen Ursachen sind die Folge. So manche unsinnige Theorien haben sich bis heute hartnäckig, beharrlich und widerstandsfähig erwiesen und weitere werden es auch in Zukunft tun. So manch viel diskutierte und pseudoanalysierte Theorie hat sich bereits beim nächsten Update „vom Winde verweht“.
Zusammengefasst: In Wirklichkeit hat Google wahrscheinlich bis zu fünfzig Kopien jedes einzelnen Servers. Google repliziert Server, Server-Sets und komplette Rechenzentren. Offiziell hatte Google seit Februar 2000 kein einziges Systemkomplettaufall zu verzeichnen gehabt. Das heißt aber noch lange nicht, dass mittlere bis kleinere Ausfälle nicht zum Alltag gehören. Heute spiegelt Google über mehrere unabhängige Rechenzentren und baut den Index immer wieder komplett neu auf (Update), um so immer wieder innerhalb der Fehlertoleranzen zu liegen und zu bleiben. Wenn also in einem Rechenzentrum Daten verloren gehen, können diese wieder von woanders zusammen getragen werden. Gehen Daten in einem Rechenzentrum abhanden, kann man woanders weiterarbeiten. Nachweislich haben nicht alle Updates erfolgreich abgeschlossen. Zu jenen Zeiten herrschte vorübergehend Hysterie im SEO Bereich, bis diese Updates durch Neue wieder egalisiert wurden. Solche Dinge passieren eben und man muss mit ihnen klarkommen.
Google verwendet zur Erstellung der Seitenreihenfolge einen Algorithmus, der die Seite u.a. anhand der Quantität und Qualität des Inhalts/Contents und der Links bewertet, die zu ihr und von ihr führen. Wie der Algorithmus genau funktioniert bleibt ein Betriebsgeheimnis und es ist Aufgabe des SEO, so genau wie möglich an diesen Algorithmus heranzukommen. Die erste und bekannteste Stufe der Optimierung ist die On Page Optimierung. Das große Einmaleins der Optimierung stellt die Off Page Optimierung dar. Jeder erfolgreiche SEO behält wie Google selbst dieses Betriebsgeheimnis für sich.
Die Reihenfolge, in der die Homepages angeboten werden, ist also nicht willkürlich. Die Popularität bestimmt das Suchergebnis. Begehrte Plätze sind die ersten zehn angezeigten Seiten. Sie werden Studien zufolge zu neunzig Prozent besucht.
Dem weitaus wenigsten ist jedoch die Netzwerk Optimierung (SEOnet) bekannt. Man spricht von einer Vernetzungsstruktur an Websites/Homepages, ausgehend von 100 und mehr. Während Google einer natürlichen Verlinkung der Websites in dieser Größenordnung stets Willkommen heißt, ist eine professionelle und gesteuerte Vernetzung dieser Art nicht gerne gesehen. Das hat verschiedene Gründe. Sofern jedoch diese Form der Optimierung nur der Qualitätssteigerung und nicht der Manipulation dient, stehen dem keine gegenteiligen Argumente entgegen. Jedoch ist diese Form der Optimierung nur aus der Hand erfahrener und professioneller SEOs zu empfehlen.
