MyBB.de Forum
Muss robots.txt von Google gelesen werden können? - Druckversion

+- MyBB.de Forum (https://www.mybb.de/forum)
+-- Forum: Archiv (https://www.mybb.de/forum/forum-57.html)
+--- Forum: MyBB 1.6.x (https://www.mybb.de/forum/forum-58.html)
+---- Forum: Allgemeiner Support (https://www.mybb.de/forum/forum-59.html)
+---- Thema: Muss robots.txt von Google gelesen werden können? (/thread-28100.html)

Seiten: Seiten: 1 2 3 4


RE: Muss robots.txt von Google gelesen werden können? - StefanT - 20.11.2013

(20.11.2013, 00:17)Koelner schrieb: Selbstverständlich habe ich mich in etlichen anderen Seiten nach der robots.txt erkundigt, eine insgesamt tolle Seite, was HTML angeht, ist diese Seite: de.selhtml.org Darin wird auch toll erläutert, wie eine robots.txt aufgebaut sein sollte und warum sie so aufgebaut sein sollte.
In dieser Seite von selfhtml http://de.selfhtml.org/diverses/robots.htm ist auch bildlich dargestellt, dass man jede Zeile mit einem Slash ("/") schließen soll.

Zitat:Bei den Angaben zu Disallow: können Sie Verzeichnispfade und einzelne Dateien mit Pfadangabe angeben. Wildcards wie * oder *.* sind dabei nicht erlaubt. Achten Sie darauf, bei Verzeichnispfaden einen abschließenden Schrägstrich / zu notieren. Wenn Sie nämlich beispielsweise /index notieren, wäre auch die Datei /index.html betroffen, und nicht nur das Unterverzeichnis /index/.
Google verwendet diese Slashes auch nicht: www.google.de/robots.txt
Wozu das abschließendes Slash gut ist, wurde ja bereits im dem Zitat gut beschrieben, daher wiederhole ich das nicht. Google selbst weiß sehr genau, wo ein Slash nötig ist (und dann haben sie diesen in der robots.txt auch eingefügt) und wo nicht. Ohne Slash besteht die Gefahr, dass zu viel gesperrt wird, andere Auswirkungen hat das nicht.
(20.11.2013, 00:17)Koelner schrieb: Nochmal zum Pagerank: Google straft unwahrscheinlich schnell ab.
Das ist insofern merkwürdig, da der Pagerank nur alle paar Monate neu berechnet wird. Dieses Jahr das letzte Mal offenbar im Februar:
http://onlinemarketing.de/news/google-pagerank-ist-tot-zumindest-fuer-2013
http://flodji.de/wann-kommt-das-naechste-pagerank-update/
Im Ranking für die Suchmaschine geht das viel schneller, ist dort aber kaum nachvollziehbar, da sehr viele Faktoren reinspielen. Schließlich weiß man nicht, ob es an einer bestimmten Änderung lag oder vielleicht doch nur das Ranking angepasst wurde.
(20.11.2013, 00:17)Koelner schrieb: Die robots.txt ist allerdings nicht alleine verantwortlich für das Crawlen. Auch für Suchmaschinen entscheident ist der Traffic, also die Posts, und natürlich die Backlinks innerhalb der Seite bzw. des Forums bzw. des Portals.
Ich würde sogar soweit gehen, dass die robots.txt gar keinen Einfluss aufs Crawlen hat (außer natürlich, dass gesperrte Seiten nicht beachtet werden). Wichtig sind, wie du auch genannt hast, Links von anderen (gut gerankten) Seiten und Aktivität (viele neue Beiträge zeigen Google, dass die Seite öfters gecrawlt werden muss, um aktuell zu bleiben). Wo nichts los ist, schaut Google auch nur selten vorbei, denn unbegrenzt Crawler haben auch die nicht.
(20.11.2013, 00:17)Koelner schrieb: Doch auch wenn Google via Posts Bewegung sieht: stimmt die robots.txt nicht, weiß Google nicht, was für das Crawlen erlaubt und was verboten ist.
Google und andere Suchmaschinen crawlen in dem Fall einfach alles, was ihnen nicht verboten ist. Dass die robots.txt fehlerhaft ist oder gar nicht vorhanden ist, stört sie dabei nicht.


RE: Muss robots.txt von Google gelesen werden können? - Koelner - 20.11.2013

Zur robots.txt von Google: Google nutzt in seiner robots.txt gar keine Slashes, jedenfalls sind mir keine aufgefallen.

Ich kann nicht bestätigen, dass Suchmaschinen indexieren, wenn seitens der Suchmaschinen zum Beispiel zur robots.txt kein Zugriff besteht. Wäre dem doch der Fall, wäre ich euch nicht monatelang damit auf den Wecker gegangen.Wink
Wenn die robots.txt oder auch die Sitemap nicht richtig konfiguriert sind, besuchen nur Google und ganz selten dann Bing die Seite. Heißt aber noch lange nicht, dass dann automatisch auch gecrawlt bzw. indexiert wird. Manchmal kontrollieren die auch einfach nur und verlangen wie gesagt vom Seitenbetreiber eine RE-Aktion in Form von Korrekturen (richtig "Reaktion", ich weiß, möchte es nur verdeutlichen).

Zum Abstrafen: wie ich anhand des Beispiels mit der Textarea, wie schnell Google eine VERänderung sieht, wenn man im header etwas verändert. Und in einigen Seiten zum Thema SEO (ich habe mir die nicht alle gemerkt...), steht auch, dass Google sofort reagiert.
Okay: richtig bemerkbar macht sich das erst bei einem höreren Pagerank. Wenn man gerade erst (von vorne) begonnen hat und die Seite sowieso einen PR von 0 hat, ist das wohl nicht besonders gravierend... Aber man merkt trotzdem, dass in solchen Fällen die Suchmaschinen, allen voran Google, 2-3 Tage wegbleiben.

Zum Pagerank: stimmt, das letzte Update liegt wirklich schon etliche Monate zurück. Sollte man dieser Seite http://www.seo-ranking-tools.de/pagerank-check.html glauben können, dann kommt das mit Februar hin.


RE: Muss robots.txt von Google gelesen werden können? - StefanT - 20.11.2013

(20.11.2013, 13:09)Koelner schrieb: Zur robots.txt von Google: Google nutzt in seiner robots.txt gar keine Slashes, jedenfalls sind mir keine aufgefallen.
Es sind allerdings einige Einträge mit Slash drin... Wink Ich denke ich brauche die jetzt nicht hier zitieren oder?
(20.11.2013, 13:09)Koelner schrieb: Ich kann nicht bestätigen, dass Suchmaschinen indexieren, wenn seitens der Suchmaschinen zum Beispiel zur robots.txt kein Zugriff besteht.
Ich schon, wir haben nämlich z.B. im Crossreference gar keine robots.txt und bei Google sind trotzdem ca. 20 000 Seiten indiziert.
(20.11.2013, 13:09)Koelner schrieb: Wenn die robots.txt oder auch die Sitemap nicht richtig konfiguriert sind, besuchen nur Google und ganz selten dann Bing die Seite.
Das stimmt definitiv nicht. Die robots.txt und Sitemaps sind optional, sie sind bei komplizierten Strukturen wie Foren zwar hilfreich, aber es geht genauso ohne.
(20.11.2013, 13:09)Koelner schrieb: Manchmal kontrollieren die auch einfach nur und verlangen wie gesagt vom Seitenbetreiber eine RE-Aktion in Form von Korrekturen (richtig "Reaktion", ich weiß, möchte es nur verdeutlichen).
Sofern du nicht gerade bei Google oder Bing dich als Webmaster verifiziert hast, können sie das gar nicht. Insbesondere warten sie nicht auf eine Reaktion, sondern crawlen einfach weiter.
(20.11.2013, 13:09)Koelner schrieb: Zum Abstrafen: wie ich anhand des Beispiels mit der Textarea, wie schnell Google eine VERänderung sieht, wenn man im header etwas verändert.
Klar sehen sie das, aber woran machst du das Abstrafen fest? Und damit meine ich nicht, dass der Crawler mal ein paar Tage nicht da war, denn das kann reiner Zufall sein.


RE: Muss robots.txt von Google gelesen werden können? - Koelner - 20.11.2013

Unsere Erfahrungen liegen voneinander entfernt. Lassen wir mein beh...-forum.com mal Geschichte sein, ich kann nur von dem sprechen bzw. schreiben, was ich während derletzten Monate in den Webmaster-Tools gesehen habe.Wink

Habe die robots.txt von Google gerade nochmal geöffnet: es stimmt, beim Überfliegen sind mir bei gut der Hälfte der Einträge Slashes aufgefallen.Wink


RE: Muss robots.txt von Google gelesen werden können? - StefanT - 20.11.2013

Dass bei einem kleinen Forum (mit wenig sichtbaren Beiträgen) extreme Schwankungen bei der Crawler-Aktivität hast, ist völlig normal. Das auf bestimmte Aktionen zurückzuführen kann aber zu falschen Schlussfolgerungen führen, schließlich spielen hunderte Faktoren bei Google rein, die man selber gar nicht alle überblicken kann.

Google ist zwar schnell, aber bis bestimmte Änderung Wirkung zeigen, können durchaus Wochen vergehen. Daher längerfristige Zeiträume betrachten und nicht ständig Änderung vornehmen... Wink


RE: Muss robots.txt von Google gelesen werden können? - Koelner - 20.11.2013

(20.11.2013, 13:59)StefanT schrieb: Dass bei einem kleinen Forum (mit wenig sichtbaren Beiträgen) extreme Schwankungen bei der Crawler-Aktivität hast, ist völlig normal.

Die Suchmaschinen haben in meinem Portal Zugriff auf alle Foren.

(20.11.2013, 13:59)StefanT schrieb: Das auf bestimmte Aktionen zurückzuführen kann aber zu falschen Schlussfolgerungen führen, schließlich spielen hunderte Faktoren bei Google rein, die man selber gar nicht alle überblicken kann.

Das überlasse ich jetzt Google. Solange Google nicht mehr sagt "keinen Zugriff", bin ich voll und ganz zufrieden und warte ab.Big Grin

(20.11.2013, 13:59)StefanT schrieb: Google ist zwar schnell, aber bis bestimmte Änderung Wirkung zeigen, können durchaus Wochen vergehen. Daher längerfristige Zeiträume betrachten und nicht ständig Änderung vornehmen... Wink

Genau das habe ich in meinem Beitrag erläutert. Also: statt ewige Schreiberei im header ----> Textarea, und Buttons etc. im header mittels DIV-Container bearbeiten.Wink

Und jetzt, wo die robots.txt seit einigen Wochen erst korrekt angepasst ist, kommen auch immer mehr Suchmaschinen, und das immer öfter.Wink

Lass uns in anderthalb Jahren oder so nochmal darüber sprechen, bin gespannt, was ich dann darüber schreiben werde.Smile


RE: Muss robots.txt von Google gelesen werden können? - Koelner - 21.06.2014

Hallo zusammen,

mit dem Thema robots.txt bin ich immer noch nicht durch.

Das Crawlen und Indexieren klappt ja inzwischen ganz gut, bin in den Webmastertools registriert. Meine derzeitige robots.txt habe ich ehrlich gesagt von hier geklaut. Die Anzahl der blockierten URLs wird auch immer kleiner (war ja bis vor kurzem noch bei 9.600):

   

Nun findet der G-Robot dafür aber immer mehr Seiten, zu denen sowohl der Zugriff verweigert wird:

   

Außerdem werden immer mehr Seiten nicht gefunden:

   

Zu den nicht gefundenen Seiten und zu den Seiten ohne Zugriff zählen also "newthread.php", "newreply.php" usw.

Allerdings weiß ich nicht, was diese und andere Seiten zu bedeuten haben. Erst gestern habe ich zum ersten Mal in einer Seite die Bedeutung einiger URLs in der robots.txt gelesen (siehe sowohl im Screenshot als auch in diesem Link):

   

Nun interessiert mich: welche Bedeutungen haben die

- newreply.php

- newthread.php

- ratethread.php

- sendthread.php

..., und warum sollten diese gesperrt sein? Das sind nämlich genau diejenigen, welche der G-Bot nicht findet bzw. auf welche ihm der Zugriff verweigert wird.


Gruß
Koelner


RE: Muss robots.txt von Google gelesen werden können? - StefanT - 22.06.2014

Es gibt im wesentlichen 2 Gründe, warum man URLs in der robots.txt sperrt:
  • Öffentlich zugängliche Seiten sollen nicht in der Google-Suche auftauchen
  • Seiten ohne Mehrwert für Google sollen nicht gecrawlt werden

    Aber was bedeutet das?
    Einfach gesagt gibt es auf den Seiten nichts, was Google interessieren könnte. Bei einem MyBB-Forum sind das u.a. Dateien, die man als Gast gar nicht sehen kann oder die keinerlei individuelle Inhalte aufweisen.

    Sollte man diese wirklich sperren?
    Man muss sie nicht in die robots.txt aufnehmen, kann dies aber tun. Das erspart z.B. dem Crawler Arbeit und einem selbst Traffic. Auch führen solche Seiten ansosnten meist zu Crawling-Fehlern wie 403 oder Soft 404 (was im übrigen überhaupt nicht schlimm ist, nur ein Hinweis, dass etwas nicht stimmen könnte).

    Wie finde ich raus, welche Seiten das betrifft?
    Dies ist relativ einfach, man ruft die URLs als Gast auf. Wenn man dort keine Berechtigung hat, dann kann Google nichts damit anfangen. Genauso wenig wird Google Beiträge oder Themen schreiben (newreply.php und newthread.php), Themen bewerten (ratethread.php) oder Themen weiterempfehlen (sendthread.php). Wichtig sind dagegen vor allem die Themen und Beiträge des Forums, diese sollten nicht in der robots.txt aufgeführt werden.
Abschließend noch ein Hinweis: Bis sich Änderungen der robots.txt überall auswirken (Suchindex, Webmaster Tools,...) kann es einige Zeit dauern. Ständiges Änderungen sollten daher vermieden werden, insbesondere um die Wirkung zu "testen". Lieber vorher die Wirkung verstehen und dann passend für das eigene Forum umsetzen... Auch mit SEO hat dies robots.txt nicht allzu viel zu tun. Wink


RE: Muss robots.txt von Google gelesen werden können? - Koelner - 22.06.2014

Ach, sieh an: Google kann mit Foren bzw. Unterforen, auf die Gäste keinen Zugriff haben, nichts anfangen? Das sollte in meinem Portal anders sein. Habe eine gesonderte Benutzergruppe für Spider/Bots angelegt und ihnen erlaubt, fast überall lesen, Indexieren und Crawlen zu dürfen, während Gäste nur auf 2 Foren Zugriff haben.


RE: Muss robots.txt von Google gelesen werden können? - StefanT - 22.06.2014

Ja gut, dann eben von deiner Benutzergruppe. Abgesehen davon ändert es ja nichts an meiner Aussage, die Foren und Beiträge sind ja sowieso nicht in der robots.txt gesperrt... Wink