Hallo, Gast! (Registrieren)

Letzte Ankündigung: MyBB 1.8.38 veröffentlicht (30.04.24)


Benutzer, die gerade dieses Thema anschauen: 2 Gast/Gäste
Muss robots.txt von Google gelesen werden können?
#11
(07.07.2013, 22:12)Koelner schrieb: die Sitemap des Google-SEO-Plugins sitemap-index.xml ist Google nicht ausführlich genug

Was meinst du damit?

Von hier sieht es eigentlich gut aus, aber wenn dein Server unzuverlässig ist oder Google den Zugriff verweigert, wirst du mit deinem Hoster reden müssen.

Der Zugriff auf die robots.txt - wenn vorhanden - sollte immer klappen... wenns da fortlaufend Fehler gibt stimmt was nicht.

(07.07.2013, 22:12)Koelner schrieb: einem von Google empfohlenen Generator erstellt habe

Wäre mir neu, daß Google irgendeinen Sitemap-Generator empfiehlt. Denn das was diese Generatoren machen (deine Seite crawlen und dann als Sitemap ausgeben), das macht Google selbst um längen besser (eben das crawlen).
#12
Welches Problem Google mit der Sitemap des Generators hat, weiß ich auch nicht, das geht auch aus den Webmastertools nicht hervor. Wie gesagt, die Umlaute werden in den URLs in der Sitemap des Generators nicht umgeschrieben.

Und gerade habe ich beide Sitemaps in den Webmastertools nochmal testen lassen - da ist komischerweise bei beiden alles in Ordnung.

Die robots.txt, die ich verwende, hat Google mir vorgegeben.

Edit: Gerade habe ich auch nochmal die robots.txt in den Webmastertools testen lassen: auch in Ordnung (siehe Attachment).

Nur schreibt Google mir fast täglich Emails, dass die robots.txt und die Sitemap nicht in Ordnung sind (siehe Attachments oben).


Angehängte Dateien Thumbnail(s)
   
"Irgendwo anzuecken ist keine Kunst. Denn irgendwo nicht anzuecken, darin liegt die Kunst" (Dieter Hallervorden)
#13
(08.07.2013, 13:28)Koelner schrieb: Die robots.txt, die ich verwende, hat Google mir vorgegeben.

Naja, die die du jetzt hast kannst du jedenfalls löschen oder durch ne leere Datei ersetzen, da ist keine einzige wirksame Anweisung drin.

Bei Google SEO ist eine Beispiel robots.txt im zip archiv dabei.
#14
Beispiele für robots.txts gibt es im Internet mehrere. Nachdem Google erstmals Probleme mit meiner robots.txt gemeldet hatte, hatte ich die des folgenden Generators eingebaut: http://www.seo-ranking-tools.de/robots-t...rator.html Damit hatte Google allerdings auch Probleme.

Übrigens habe ich diesen Thread gestartet, weil ich ursprünglich gar keine robots.txt drin hatte, demnach war im Google-SEO-Plugin auch keine dabei. Das ist keine Anzweiflung deines Plugins und auch keine Kritik an dich, sondern entspricht lediglich der Tatsache. Die ersten 3 Beiträge erläutern meine Aussage.
"Irgendwo anzuecken ist keine Kunst. Denn irgendwo nicht anzuecken, darin liegt die Kunst" (Dieter Hallervorden)
#15
(08.07.2013, 13:44)Koelner schrieb: demnach war im Google-SEO-Plugin auch keine dabei.
Dann solltest du dir das Plugin nochmal anschauen, denn im Paket ist eine robots.txt enthalten. Man muss sie nur anpassen und hochladen. Wink
[Bild: banner.png]

Bitte die Foren-Regeln beachten und im Profil die verwendete MyBB-Version angeben.
#16
Tatsache.Smile

Habe die aus dem Plugin jetzt hochgeladen und werde sie in Google testen und einreichen. Bin gespannt, was Google dann zur robots.txt sagt.
"Irgendwo anzuecken ist keine Kunst. Denn irgendwo nicht anzuecken, darin liegt die Kunst" (Dieter Hallervorden)
#17
Also aktuell ist die robots.txt weiterhin voller Nonsense.

Code:
Sitemap: http://yoursite/MyBB/sitemap-index.xml

User-Agent: *
Disallow: /MyBB/captcha.php
Disallow: /MyBB/editpost.php
Disallow: /MyBB/misc.php
Disallow: /MyBB/modcp.php
Disallow: /MyBB/moderation.php
Disallow: /MyBB/newreply.php
Disallow: /MyBB/newthread.php
Disallow: /MyBB/online.php
Disallow: /MyBB/printthread.php
Disallow: /MyBB/private.php
Disallow: /MyBB/ratethread.php
Disallow: /MyBB/report.php
Disallow: /MyBB/reputation.php
Disallow: /MyBB/search.php
Disallow: /MyBB/sendthread.php
Disallow: /MyBB/task.php
Disallow: /MyBB/usercp.php
Disallow: /MyBB/usercp2.php
Disallow: /MyBB/calendar.php
Disallow: /MyBB/*action=emailuser*
Disallow: /MyBB/*action=nextnewest*
Disallow: /MyBB/*action=nextoldest*
Disallow: /MyBB/*year=*
Disallow: /MyBB/*action=weekview*
Disallow: /MyBB/*action=nextnewest*
Disallow: /MyBB/*action=nextoldest*
Disallow: /MyBB/*sort=*
Disallow: /MyBB/*order=*
Disallow: /MyBB/*mode=*
Disallow: /MyBB/*datecut=*
Allow: /

So wird Google weiterhin meckern. Der Pfad zur Sitemap stimmt nicht und die Pfade zu deinem MyBB ebenfalls nicht. Entweder löschen, oder den Inhalt ordentlich angeben, dann Google dazu veranlassen die robots.txt neu zu crawlen (siehe Google Webmaster Tools). Das kann mitunter bis zu 72 Stunden dauern und in der Zwischenzeit kanns nochmal Mails zu der alten txt geben da das Crawling und der anschließende Mailversand einige Stunde Unterschied betragen kann.
#18
*lach* Hab` ich gar nicht bemerkt, sondern einfach die Datei aus dem Plugin hochgeladen ohne sie zu bearbeiten. Das lässt erahnen, wie ratlos und lustlos ich inzwischen bezüglich dieses Themas geworden bin.Wink

Danke für den Hinweis, derWachert.Smile
"Irgendwo anzuecken ist keine Kunst. Denn irgendwo nicht anzuecken, darin liegt die Kunst" (Dieter Hallervorden)
#19
So. Nachdem ich vor etwa 2 Wochen die robots.txt erneut angepasst habe, und Google vor 2 Tagen trotzdem mal wieder keinen Zugriff hatte, habe ich meine Seite einfach aus den Webmastertools entfernt. Seitdem ist Ruhe.Big Grin

P.S.: Es kann nicht sein, dass ich mehr Arbeit mit Google verbringe als mit dem Löschen von Usern...
"Irgendwo anzuecken ist keine Kunst. Denn irgendwo nicht anzuecken, darin liegt die Kunst" (Dieter Hallervorden)
#20
Hier ein Nachtrag, das ursprüngliche Problem ist längst behoben:



Seit Erstellung meines ursprünglichen Portals im Januar diesen Jahres (musste ja im Juni wg. eines Hackerangriffs von vorne beginnen), hatte ich Schwierigkeiten mit Google, hauptsächlich wegen etlichen Crawlingfehlermeldungen, die Google mir wegen der robots.txt gemeldet hatte, oft hieß es "nicht geunden" oder "Google hat keinen Zugriff auf ihre Seite", hat aber fast täglich mein Portal besucht.
Selbstverständlich habe ich die immer wieder neuen Fehlermeldungen seitens Google im Forum MyBboard gepostet, wirklich helfen konnte mir keiner, versucht haben es einige. das Ganze ging so weit, dass ich Google irgendwann in der Zwischenzeit mein Portal sogar in den Google-Analytics komplett gelöscht und Google das Crawlen meines Portals verboten hatte.

Selbstverständlich habe ich mich in etlichen anderen Seiten nach der robots.txt erkundigt, eine insgesamt tolle Seite, was HTML angeht, ist diese Seite: de.selhtml.org Darin wird auch toll erläutert, wie eine robots.txt aufgebaut sein sollte und warum sie so aufgebaut sein sollte.
In dieser Seite von selfhtml http://de.selfhtml.org/diverses/robots.htm ist auch bildlich dargestellt, dass man jede Zeile mit einem Slash ("/") schließen soll.

Zitat:Bei den Angaben zu Disallow: können Sie Verzeichnispfade und einzelne Dateien mit Pfadangabe angeben. Wildcards wie * oder *.* sind dabei nicht erlaubt. Achten Sie darauf, bei Verzeichnispfaden einen abschließenden Schrägstrich / zu notieren. Wenn Sie nämlich beispielsweise /index notieren, wäre auch die Datei /index.html betroffen, und nicht nur das Unterverzeichnis /index/.

Doch das hat Google immer noch nicht genügt! Allerdings orientieren sich viele Link- und Bannerpartner immer noch nach dem PageRank, obwohl dieser inzwischen gar nicht mehr wichtig ist. Also habe ich etwa Ende Oktober, vor wenigen Wochen also, mit dem Gedanken "Hallo Google. Wie machst DU das denn eigentlich?" nach der robots.txt von Google geschaut. Und siehe da: Google verwendet diese Slashes auch nicht: www.google.de/robots.txt
Mittlerweile besuchen Google und Bing mein Portal mehrfach täglich, und nach dem Neustart im Juni und den ganzen Problemen mit Google bin ich gespannt, was in einigen Monaten über mein Portal in Google zu finden sein wird.

Nochmal zum Pagerank: Google straft unwahrscheinlich schnell ab. Wenn man im Seitenkopftemplate "header" etwas Grundlegendes verändert, merkt sich das Programm von Google sofort und kommt wie "eine beleidigte Leberwurst" quasi ein paar Tage nicht mehr wieder, oder man muss sogar als Webmaster re-agieren und Google zeigen, dass man den Willen hat.
Unter einer grundlegenden Veränderung versteht Google zum Beispiel, dass man eine Textarea einbaut:

PHP-Code:
<textarea rows="5" cols="177">blablabla</textarea

Was danach innerhalb der Textarea geschrieben wird, interessiert Google zwar auch, aber straft Veränderungen innerhalb der Textarea nicht ab. Wenn man aber die Textarea weglässt und den Text immer wieder im header ändert, dann sieht Google eine VERänderung und straft sowas sofort ab.

Gleiches verhalten zeigt Google beim Einfügen zum Beispel von Buttons, man muss eine Zeile dafür anlegen:

PHP-Code:
<div style="text-align: center;">blablabla</div

Fügt man immer wieder neue Buttons ein oder nimmt welche weg, straft Google dies sofort ab und der PageRank kann sogar auf 0 gesetzt werden, egal wie hoch dieser vorher gewesen ist.

Die robots.txt ist allerdings nicht alleine verantwortlich für das Crawlen. Auch für Suchmaschinen entscheident ist der Traffic, also die Posts, und natürlich die Backlinks innerhalb der Seite bzw. des Forums bzw. des Portals. Doch auch wenn Google via Posts Bewegung sieht: stimmt die robots.txt nicht, weiß Google nicht, was für das Crawlen erlaubt und was verboten ist.

Was Google auch sehr gerne abstraft ist das mehrfache Anmelden der eigenen Seite in mehreren Suchmaschinen, dies versteht Google als Spam und straft ebenfalls ab. Google ist es egal, wenn andere Robots & Spider dieselbe Seite crawlen. Allerdings besitze Google den größten Marktanteil aller Suchmaschinen und will stets zuerst craelen dürfen.

Nichts desto trotz möchte ich euch eine Seite mit mehreren verlinkten Seiten nennen, mit welchen ihr eure Seite kostenlos in sämtliche Suchmaschinen - sowohl deutsche als auch nicht-deutsche - eintragen könnt: http://www.kribus.de/Suchmaschinen.htm

Und falls euch das Thema SEO genauer interessiert, habe ich hier noch eine interessante und gut beschriebene Seite für euch: http://www.ranking-check.de/tipps-tools/...n-der-seo/

So. Jetzt habe ich so oft das Wörtchen "Google" erwähnt, dass Google doch bald diesen Thread crawlen müsste.Big Grin


Gruß
Koelner
"Irgendwo anzuecken ist keine Kunst. Denn irgendwo nicht anzuecken, darin liegt die Kunst" (Dieter Hallervorden)


Möglicherweise verwandte Themen…
Thema Verfasser Antworten Ansichten Letzter Beitrag
  robots.txt und google schauan 3 2.285 02.07.2014, 17:16
Letzter Beitrag: StefanT
Wink robot.txt susi 4 2.280 19.03.2014, 19:58
Letzter Beitrag: susi
  htaccess.txt in .htaccess umbenennen Jockl 9 5.621 19.02.2013, 20:07
Letzter Beitrag: Muckelchen
  Seiten mithilfe einer "robots.txt"-Datei blockieren oder entfernen Trust 2 1.604 14.12.2012, 13:08
Letzter Beitrag: frostschutz
  Foren werden nach Betrachten nicht als gelesen markiert Shay 15 4.227 10.12.2011, 15:18
Letzter Beitrag: Schakatak