Muss robots.txt von Google gelesen werden können? - Druckversion +- MyBB.de Forum (https://www.mybb.de/forum) +-- Forum: Archiv (https://www.mybb.de/forum/forum-57.html) +--- Forum: MyBB 1.6.x (https://www.mybb.de/forum/forum-58.html) +---- Forum: Allgemeiner Support (https://www.mybb.de/forum/forum-59.html) +---- Thema: Muss robots.txt von Google gelesen werden können? (/thread-28100.html) |
RE: Muss robots.txt von Google gelesen werden können? - StefanT - 20.11.2013 (20.11.2013, 00:17)Koelner schrieb: Selbstverständlich habe ich mich in etlichen anderen Seiten nach der robots.txt erkundigt, eine insgesamt tolle Seite, was HTML angeht, ist diese Seite: de.selhtml.org Darin wird auch toll erläutert, wie eine robots.txt aufgebaut sein sollte und warum sie so aufgebaut sein sollte.Wozu das abschließendes Slash gut ist, wurde ja bereits im dem Zitat gut beschrieben, daher wiederhole ich das nicht. Google selbst weiß sehr genau, wo ein Slash nötig ist (und dann haben sie diesen in der robots.txt auch eingefügt) und wo nicht. Ohne Slash besteht die Gefahr, dass zu viel gesperrt wird, andere Auswirkungen hat das nicht. (20.11.2013, 00:17)Koelner schrieb: Nochmal zum Pagerank: Google straft unwahrscheinlich schnell ab.Das ist insofern merkwürdig, da der Pagerank nur alle paar Monate neu berechnet wird. Dieses Jahr das letzte Mal offenbar im Februar: http://onlinemarketing.de/news/google-pagerank-ist-tot-zumindest-fuer-2013 http://flodji.de/wann-kommt-das-naechste-pagerank-update/ Im Ranking für die Suchmaschine geht das viel schneller, ist dort aber kaum nachvollziehbar, da sehr viele Faktoren reinspielen. Schließlich weiß man nicht, ob es an einer bestimmten Änderung lag oder vielleicht doch nur das Ranking angepasst wurde. (20.11.2013, 00:17)Koelner schrieb: Die robots.txt ist allerdings nicht alleine verantwortlich für das Crawlen. Auch für Suchmaschinen entscheident ist der Traffic, also die Posts, und natürlich die Backlinks innerhalb der Seite bzw. des Forums bzw. des Portals.Ich würde sogar soweit gehen, dass die robots.txt gar keinen Einfluss aufs Crawlen hat (außer natürlich, dass gesperrte Seiten nicht beachtet werden). Wichtig sind, wie du auch genannt hast, Links von anderen (gut gerankten) Seiten und Aktivität (viele neue Beiträge zeigen Google, dass die Seite öfters gecrawlt werden muss, um aktuell zu bleiben). Wo nichts los ist, schaut Google auch nur selten vorbei, denn unbegrenzt Crawler haben auch die nicht. (20.11.2013, 00:17)Koelner schrieb: Doch auch wenn Google via Posts Bewegung sieht: stimmt die robots.txt nicht, weiß Google nicht, was für das Crawlen erlaubt und was verboten ist.Google und andere Suchmaschinen crawlen in dem Fall einfach alles, was ihnen nicht verboten ist. Dass die robots.txt fehlerhaft ist oder gar nicht vorhanden ist, stört sie dabei nicht. RE: Muss robots.txt von Google gelesen werden können? - Koelner - 20.11.2013 Zur robots.txt von Google: Google nutzt in seiner robots.txt gar keine Slashes, jedenfalls sind mir keine aufgefallen. Ich kann nicht bestätigen, dass Suchmaschinen indexieren, wenn seitens der Suchmaschinen zum Beispiel zur robots.txt kein Zugriff besteht. Wäre dem doch der Fall, wäre ich euch nicht monatelang damit auf den Wecker gegangen. Wenn die robots.txt oder auch die Sitemap nicht richtig konfiguriert sind, besuchen nur Google und ganz selten dann Bing die Seite. Heißt aber noch lange nicht, dass dann automatisch auch gecrawlt bzw. indexiert wird. Manchmal kontrollieren die auch einfach nur und verlangen wie gesagt vom Seitenbetreiber eine RE-Aktion in Form von Korrekturen (richtig "Reaktion", ich weiß, möchte es nur verdeutlichen). Zum Abstrafen: wie ich anhand des Beispiels mit der Textarea, wie schnell Google eine VERänderung sieht, wenn man im header etwas verändert. Und in einigen Seiten zum Thema SEO (ich habe mir die nicht alle gemerkt...), steht auch, dass Google sofort reagiert. Okay: richtig bemerkbar macht sich das erst bei einem höreren Pagerank. Wenn man gerade erst (von vorne) begonnen hat und die Seite sowieso einen PR von 0 hat, ist das wohl nicht besonders gravierend... Aber man merkt trotzdem, dass in solchen Fällen die Suchmaschinen, allen voran Google, 2-3 Tage wegbleiben. Zum Pagerank: stimmt, das letzte Update liegt wirklich schon etliche Monate zurück. Sollte man dieser Seite http://www.seo-ranking-tools.de/pagerank-check.html glauben können, dann kommt das mit Februar hin. RE: Muss robots.txt von Google gelesen werden können? - StefanT - 20.11.2013 (20.11.2013, 13:09)Koelner schrieb: Zur robots.txt von Google: Google nutzt in seiner robots.txt gar keine Slashes, jedenfalls sind mir keine aufgefallen.Es sind allerdings einige Einträge mit Slash drin... Ich denke ich brauche die jetzt nicht hier zitieren oder? (20.11.2013, 13:09)Koelner schrieb: Ich kann nicht bestätigen, dass Suchmaschinen indexieren, wenn seitens der Suchmaschinen zum Beispiel zur robots.txt kein Zugriff besteht.Ich schon, wir haben nämlich z.B. im Crossreference gar keine robots.txt und bei Google sind trotzdem ca. 20 000 Seiten indiziert. (20.11.2013, 13:09)Koelner schrieb: Wenn die robots.txt oder auch die Sitemap nicht richtig konfiguriert sind, besuchen nur Google und ganz selten dann Bing die Seite.Das stimmt definitiv nicht. Die robots.txt und Sitemaps sind optional, sie sind bei komplizierten Strukturen wie Foren zwar hilfreich, aber es geht genauso ohne. (20.11.2013, 13:09)Koelner schrieb: Manchmal kontrollieren die auch einfach nur und verlangen wie gesagt vom Seitenbetreiber eine RE-Aktion in Form von Korrekturen (richtig "Reaktion", ich weiß, möchte es nur verdeutlichen).Sofern du nicht gerade bei Google oder Bing dich als Webmaster verifiziert hast, können sie das gar nicht. Insbesondere warten sie nicht auf eine Reaktion, sondern crawlen einfach weiter. (20.11.2013, 13:09)Koelner schrieb: Zum Abstrafen: wie ich anhand des Beispiels mit der Textarea, wie schnell Google eine VERänderung sieht, wenn man im header etwas verändert.Klar sehen sie das, aber woran machst du das Abstrafen fest? Und damit meine ich nicht, dass der Crawler mal ein paar Tage nicht da war, denn das kann reiner Zufall sein. RE: Muss robots.txt von Google gelesen werden können? - Koelner - 20.11.2013 Unsere Erfahrungen liegen voneinander entfernt. Lassen wir mein beh...-forum.com mal Geschichte sein, ich kann nur von dem sprechen bzw. schreiben, was ich während derletzten Monate in den Webmaster-Tools gesehen habe. Habe die robots.txt von Google gerade nochmal geöffnet: es stimmt, beim Überfliegen sind mir bei gut der Hälfte der Einträge Slashes aufgefallen. RE: Muss robots.txt von Google gelesen werden können? - StefanT - 20.11.2013 Dass bei einem kleinen Forum (mit wenig sichtbaren Beiträgen) extreme Schwankungen bei der Crawler-Aktivität hast, ist völlig normal. Das auf bestimmte Aktionen zurückzuführen kann aber zu falschen Schlussfolgerungen führen, schließlich spielen hunderte Faktoren bei Google rein, die man selber gar nicht alle überblicken kann. Google ist zwar schnell, aber bis bestimmte Änderung Wirkung zeigen, können durchaus Wochen vergehen. Daher längerfristige Zeiträume betrachten und nicht ständig Änderung vornehmen... RE: Muss robots.txt von Google gelesen werden können? - Koelner - 20.11.2013 (20.11.2013, 13:59)StefanT schrieb: Dass bei einem kleinen Forum (mit wenig sichtbaren Beiträgen) extreme Schwankungen bei der Crawler-Aktivität hast, ist völlig normal. Die Suchmaschinen haben in meinem Portal Zugriff auf alle Foren. (20.11.2013, 13:59)StefanT schrieb: Das auf bestimmte Aktionen zurückzuführen kann aber zu falschen Schlussfolgerungen führen, schließlich spielen hunderte Faktoren bei Google rein, die man selber gar nicht alle überblicken kann. Das überlasse ich jetzt Google. Solange Google nicht mehr sagt "keinen Zugriff", bin ich voll und ganz zufrieden und warte ab. (20.11.2013, 13:59)StefanT schrieb: Google ist zwar schnell, aber bis bestimmte Änderung Wirkung zeigen, können durchaus Wochen vergehen. Daher längerfristige Zeiträume betrachten und nicht ständig Änderung vornehmen... Genau das habe ich in meinem Beitrag erläutert. Also: statt ewige Schreiberei im header ----> Textarea, und Buttons etc. im header mittels DIV-Container bearbeiten. Und jetzt, wo die robots.txt seit einigen Wochen erst korrekt angepasst ist, kommen auch immer mehr Suchmaschinen, und das immer öfter. Lass uns in anderthalb Jahren oder so nochmal darüber sprechen, bin gespannt, was ich dann darüber schreiben werde. RE: Muss robots.txt von Google gelesen werden können? - Koelner - 21.06.2014 Hallo zusammen, mit dem Thema robots.txt bin ich immer noch nicht durch. Das Crawlen und Indexieren klappt ja inzwischen ganz gut, bin in den Webmastertools registriert. Meine derzeitige robots.txt habe ich ehrlich gesagt von hier geklaut. Die Anzahl der blockierten URLs wird auch immer kleiner (war ja bis vor kurzem noch bei 9.600): Nun findet der G-Robot dafür aber immer mehr Seiten, zu denen sowohl der Zugriff verweigert wird: Außerdem werden immer mehr Seiten nicht gefunden: Zu den nicht gefundenen Seiten und zu den Seiten ohne Zugriff zählen also "newthread.php", "newreply.php" usw. Allerdings weiß ich nicht, was diese und andere Seiten zu bedeuten haben. Erst gestern habe ich zum ersten Mal in einer Seite die Bedeutung einiger URLs in der robots.txt gelesen (siehe sowohl im Screenshot als auch in diesem Link): Nun interessiert mich: welche Bedeutungen haben die - newreply.php - newthread.php - ratethread.php - sendthread.php ..., und warum sollten diese gesperrt sein? Das sind nämlich genau diejenigen, welche der G-Bot nicht findet bzw. auf welche ihm der Zugriff verweigert wird. Gruß Koelner RE: Muss robots.txt von Google gelesen werden können? - StefanT - 22.06.2014 Es gibt im wesentlichen 2 Gründe, warum man URLs in der robots.txt sperrt:
RE: Muss robots.txt von Google gelesen werden können? - Koelner - 22.06.2014 Ach, sieh an: Google kann mit Foren bzw. Unterforen, auf die Gäste keinen Zugriff haben, nichts anfangen? Das sollte in meinem Portal anders sein. Habe eine gesonderte Benutzergruppe für Spider/Bots angelegt und ihnen erlaubt, fast überall lesen, Indexieren und Crawlen zu dürfen, während Gäste nur auf 2 Foren Zugriff haben. RE: Muss robots.txt von Google gelesen werden können? - StefanT - 22.06.2014 Ja gut, dann eben von deiner Benutzergruppe. Abgesehen davon ändert es ja nichts an meiner Aussage, die Foren und Beiträge sind ja sowieso nicht in der robots.txt gesperrt... |