robots.txt

  • Indexierung von Subdomain-Website verhindern (robots.txt, meta-Tag)

    Zielsetzung: Indexierung für eine Subdomain-Website verbieten

    Für diese Aufgabenstellung könnte es verschiedene Szenarien geben die einen triftigen Grund liefern. Hier gehe ich mal von einer Konstellation aus, bei der Sie z.B. ein Hauptprojekt unter der Domain www.mein-projekt.de betreiben - als LIVE-Projekt. Zu Test und Entwicklungszwecken haben Sie auf einer Subdomain, z.B. dev.mein-projekt.de eine gespiegeltes Projekt laufen. Natürlich würde es zu allererst Sinn machen, das DEV-Projekt per Passwortschutz zu sperren. Aber es kann Gründe geben, warum das gerade mal nicht tun will. Wenn das Projekt also offen ist, will man trotzdem verhindern, dass Suchmaschinen sich die Seite des DEV-Projektes gierig krallen und indexieren. Man hätte dann die Situation, dass Nutzer sich in dieses Projekt "verlaufen", was bei einem Shop-System aber auch normalen Websites große Irritationen erzeugen könnte - oder einfach nur dem LIVE-Projekt Konkurrenz macht (z.B. durch dublicate content). Also wollen wir verhindern, dass Suchmaschinen diese Seiten indexieren.

     

    Lösung für das Verhindern der Indexierung eine Parallelprojektes

    Für diese Aufgabe gibt es zunächst zwei übliche von den seriösen Suchmaschinen akzeptierte und berücksichtigte Werkzeuge. Zum einen die robots.txt, zum anderen einen Meta-Tag in den Dateiheadern.