Immer wieder taucht bei Seiten das Problem auf, dass Google Inhalte nicht im Index anzeigt, obwohl sie indexiert wurden. Gründe dafür gibt es einige: interner doppelter Content, Seiten mit (aus Google-Sicht) minderwertigen Inhalten, Seiten mit zu wenig Inhalt oder auch Seiten, bei denen Google Probleme mit dem Crawling hat.
Wie löst man diese Probleme?
Zuerst einmal sollte jedem klar sein, dass es nicht das Ziel sein sollte, möglichst viele Inhalte im Google-Index zu haben, sondern es lediglich darum gehen muss, die richtigen Inhalte im Index zu haben. Weniger ist auch hier mehr. Daher sollte zuerst geprüft werden, welche Inhalte wichtig sind und damit indexiert werden sollen und was an Inhalten nicht indexierbar sein muss bzw. soll.
Für die Bereinigung des Google-Index von überflüssigen Inhalten gibt es verschiedene Hilfsmittel:
- Metatags
- robots.txt
- XML-Sitemaps
Metatags
Jede einzelne Unterseite kann im Bereich mit Metatags versehen werden, die verschiedene Funktionen erfüllen. Das hierfür wichtige Metatag heißt robots. Die Grundeinstellung dieses Metatags sieht wie folgt aus:
Dieses Tag besagt, dass der Suchmaschinenrobot die jeweilige Unterseite indexieren und den auf der Seite befindlichen Links folgen darf.
Um Seiten beschleunigt zu deindexieren, die nicht bei Google auftauchen sollen, muss das Metatag etwas abgeändert werden:
Der Bot darf nun die Seite nicht mehr indexieren, den Links zu anderen Seiten aber noch folgen
Robots.txt
Sind die betroffenen Seiten durch eine site:-Abfrage bei Google nicht mehr zu finden (site:domainname.tld), sollten die zugehörigen Links, ggf. verzeichnisweise, in der robots.txt hinterlegt werden. Dies sollte erst geschehen, wenn die Unterseiten bereits deindexiert sind, denn sonst kann es passieren, dass der Robot aufgrund der Sperre in der robots.txt die Seite nicht mehr aufruft. Dann bekommt er nicht mit, dass sie deindexiert werden soll.
Einträge in der robots.txt sollten daher nur gemacht werden, wenn die jeweilige Seite nicht mehr oder noch nicht im Index ist. Die robots.txt ersetzt nicht das robots-Metatag!
Der Sperreintrag in der robots.txt sieht wie folgt aus:
Disallow: /dateiname.php oder /verzeichnisname/
Damit wird dem Robot untersagt, bestimmte Inhalte aufzurufen.
XML-Sitemaps
Zu guter Letzt muss noch die XML-Sitemap aktualisiert werden. Alle Inhalte, die nicht oder nicht mehr indexiert werden sollen, sind aus der Sitemap zu entfernen. Bei einem Neucrawl der Seite für die Erstellung einer XML-Sitemap ist dem Sitemapcrawler zu sagen, dass er sich an die robots.txt halten soll und auch das robots-Metatag beachten soll.
Je nach dem allgemeinen Umfang des Webprojektes und dem Umfang der bisher indexierten Inhalte kann sich durch entsprechende Bearbeitung die Zahl der indexierten Inhalte massiv verkleinern. Global betrachtet ist vermutlich eine prozentual hohe Zahl der bisher durch Google indexierten Inhalte überflüssig und könnte durch die Webseitenbetreiber deindexiert werden. Auch aus diesem Grund ist es ratsam, eine Bereinigung des persönlichen Indexes vorzunehmen, damit der Bot sich auf die wesentlichen Inhalte konzentrieren kann. Das kann auch zur beschleunigten Indexierung neuer relevanter Inhalte führen. Durch die Beschränkung auf die ausschließliche Indexierung wirklich relevanter Inhalte kann sich das allgemeine Ranking einer Webseite positiv verbessern. Ein Grund mehr für jeden Webseitenbetreiber sich einmal intensiv damit auseinanderzusetzen, was Google bisher alles indexiert hat.