Hier ein Nachtrag, das ursprüngliche Problem ist längst behoben:
Seit Erstellung meines ursprünglichen Portals im Januar diesen Jahres (musste ja im Juni wg. eines Hackerangriffs von vorne beginnen), hatte ich Schwierigkeiten mit Google, hauptsächlich wegen etlichen Crawlingfehlermeldungen, die Google mir wegen der robots.txt gemeldet hatte, oft hieß es "nicht geunden" oder "Google hat keinen Zugriff auf ihre Seite", hat aber fast täglich mein Portal besucht.
Selbstverständlich habe ich die immer wieder neuen Fehlermeldungen seitens Google im Forum MyBboard gepostet, wirklich helfen konnte mir keiner, versucht haben es einige. das Ganze ging so weit, dass ich Google irgendwann in der Zwischenzeit mein Portal sogar in den Google-Analytics komplett gelöscht und Google das Crawlen meines Portals verboten hatte.
Selbstverständlich habe ich mich in etlichen anderen Seiten nach der robots.txt erkundigt, eine insgesamt tolle Seite, was HTML angeht, ist diese Seite: de.selhtml.org Darin wird auch toll erläutert, wie eine robots.txt aufgebaut sein sollte und warum sie so aufgebaut sein sollte.
In dieser Seite von selfhtml
http://de.selfhtml.org/diverses/robots.htm ist auch bildlich dargestellt, dass man jede Zeile mit einem Slash ("/") schließen soll.
Zitat:Bei den Angaben zu Disallow: können Sie Verzeichnispfade und einzelne Dateien mit Pfadangabe angeben. Wildcards wie * oder *.* sind dabei nicht erlaubt. Achten Sie darauf, bei Verzeichnispfaden einen abschließenden Schrägstrich / zu notieren. Wenn Sie nämlich beispielsweise /index notieren, wäre auch die Datei /index.html betroffen, und nicht nur das Unterverzeichnis /index/.
Doch das hat Google immer noch nicht genügt! Allerdings orientieren sich viele Link- und Bannerpartner immer noch nach dem PageRank, obwohl dieser inzwischen gar nicht mehr wichtig ist. Also habe ich etwa Ende Oktober, vor wenigen Wochen also, mit dem Gedanken "Hallo Google. Wie machst DU das denn eigentlich?" nach der robots.txt von Google geschaut. Und siehe da: Google verwendet diese Slashes auch nicht:
www.google.de/robots.txt
Mittlerweile besuchen Google und Bing mein Portal mehrfach täglich, und nach dem Neustart im Juni und den ganzen Problemen mit Google bin ich gespannt, was in einigen Monaten über mein Portal in Google zu finden sein wird.
Nochmal zum Pagerank: Google straft unwahrscheinlich schnell ab. Wenn man im Seitenkopftemplate "header" etwas Grundlegendes verändert, merkt sich das Programm von Google sofort und kommt wie "eine beleidigte Leberwurst" quasi ein paar Tage nicht mehr wieder, oder man muss sogar als Webmaster re-agieren und Google zeigen, dass man den Willen hat.
Unter einer grundlegenden Veränderung versteht Google zum Beispiel, dass man eine Textarea einbaut:
PHP-Code:
<textarea rows="5" cols="177">blablabla</textarea>
Was danach innerhalb der Textarea geschrieben wird, interessiert Google zwar auch, aber straft Veränderungen innerhalb der Textarea nicht ab. Wenn man aber die Textarea weglässt und den Text immer wieder im header ändert, dann sieht Google eine VERänderung und straft sowas sofort ab.
Gleiches verhalten zeigt Google beim Einfügen zum Beispel von Buttons, man muss eine Zeile dafür anlegen:
PHP-Code:
<div style="text-align: center;">blablabla</div>
Fügt man immer wieder neue Buttons ein oder nimmt welche weg, straft Google dies sofort ab und der PageRank kann sogar auf 0 gesetzt werden, egal wie hoch dieser vorher gewesen ist.
Die robots.txt ist allerdings nicht alleine verantwortlich für das Crawlen. Auch für Suchmaschinen entscheident ist der Traffic, also die Posts, und natürlich die Backlinks innerhalb der Seite bzw. des Forums bzw. des Portals. Doch auch wenn Google via Posts Bewegung sieht: stimmt die robots.txt nicht, weiß Google nicht, was für das Crawlen erlaubt und was verboten ist.
Was Google auch sehr gerne abstraft ist das mehrfache Anmelden der eigenen Seite in mehreren Suchmaschinen, dies versteht Google als Spam und straft ebenfalls ab. Google ist es egal, wenn andere Robots & Spider dieselbe Seite crawlen. Allerdings besitze Google den größten Marktanteil aller Suchmaschinen und will stets zuerst craelen dürfen.
Nichts desto trotz möchte ich euch eine Seite mit mehreren verlinkten Seiten nennen, mit welchen ihr eure Seite kostenlos in sämtliche Suchmaschinen - sowohl deutsche als auch nicht-deutsche - eintragen könnt:
http://www.kribus.de/Suchmaschinen.htm
Und falls euch das Thema SEO genauer interessiert, habe ich hier noch eine interessante und gut beschriebene Seite für euch:
http://www.ranking-check.de/tipps-tools/...n-der-seo/
So. Jetzt habe ich so oft das Wörtchen "Google" erwähnt, dass Google doch bald diesen Thread crawlen müsste.
Gruß
Koelner
"Irgendwo anzuecken ist keine Kunst. Denn irgendwo nicht anzuecken, darin liegt die Kunst" (Dieter Hallervorden)