PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : übles und unnötiges problem mit google und konsorten



AA_
05.02.2009, 23:35
der kalender als teil der navigation ist ja recht hybsch. was ich daran ehrlich gesagt abartig finde, ist, dass suchmaschinen, sämtliche links in diesem kalender abgrasen.

erkennbar ist das an der onlineliste, wenn robots eine fehlermeldung sehen, weil sie auf einem blog sind und dort über den kalender beiträge aus dem jahre 2030 spidern wollen :(

kann man das nicht vernünftig regeln?

also alle links im kalender des blogs, die in der zukunft liegen, mit dem nofollow-tag versehen - weil suchmaschinen nichts als fehler zu sehen bekommen. im übrigen scheint das auch ein fehler zu sein, denn wenn ich zb als AA_ ein anderes blog in der zukunft aufrufe erhalte ich eine fehlermeldung. zb. http://www.vbulletin-germany.com/forum/blog.php?u=2&m=2&y=2010 (pogo, du siehst den fehler nicht!)

auf diesem blog ist der kalender nicht in der zukunft auswählbar.

mache ich das in meinem eigenen blog, erscheint keine fehlermeldung. und ich kann auch in der zukunft herumklickern.

gut. mag sein, dass es damit zusammenhängt, dass man als blogbesitzer auch beiträge automatisch zu einem späteren zeitpunkt veröffentlichen lassen kann und diese beiträge natürlich auch selber aufrufen können muss.

nur - wieviel rechte hat google? nach meinen recherchen sieht google mehr als ein normaler benutzer und kann somit tausende links im kalender spidern und somit sinnlos last und traffic ziehen. ich weiss nicht, welcher sinn darin besteht, dass google bei mir bis ins jahr 1970 zurückgeht und nach oben keine grenzen gesetzt scheinen.

bitte prüfen/beheben lassen.

AA_
05.02.2009, 23:41
falls mein text unverständlich ist:

das hier sehe ich in meinem eigenen blog und kann die links in der zukunft auswählen (rechts neben dem monat):
7355


das hier sehe ich bei pogo im blog und kann keine links in der zukunft wählen:
7356

google und andere suchmaschinen scheinen wie blogbesitzer mit erweiterten rechten ausgestattet zu sein, anders ist es nicht erklärbar, dass suchmaschinen links aus dem jahr 2030 aufrufen können.

s.molinari
06.02.2009, 07:47
Hi AA_,

Ich glaube nicht, dass Google irgendwelche Links verfolgt. Ich würde eher sagen, der Spider sieht Variablen und versucht einfach auf gut Glück die zu verändern, um zu sehen was kommt. Ich nehme an, Google hat nicht genug zu tun.:rolleyes::D

Hast du versucht no-follow in den Links hinzuzufügen?

Scott

AA_
06.02.2009, 08:45
Hi AA_,

Ich glaube nicht, dass Google irgendwelche Links verfolgt. Ich würde eher sagen, der Spider sieht Variablen und versucht einfach auf gut Glück die zu verändern, um zu sehen was kommt. Ich nehme an, Google hat nicht genug zu tun.:rolleyes::D

Hast du versucht no-follow in den Links hinzuzufügen?

Scott

das wäre mir neu, dass suchmaschinen sowas machen. möglicherweise gibt es da aber ausnahmen, zb. wenn parameter wie y=\d{4} oder year=\d{4} in links vorgefunden werden.

ich habe gerade nochmal in den logs nachgesehen (aufrufe im blog aus dem jahre 2011):


cat foo-access.log |grep y=2011
66.249.71.19 - - [01/Feb/2009:08:13:04 +0100] "GET /blog.php?u=18525&m=9&y=2011 HTTP/1.1" 200 5462 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.21 - - [01/Feb/2009:09:14:50 +0100] "GET /blog.php?u=18209&m=8&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.20 - - [01/Feb/2009:10:07:46 +0100] "GET /blog.php?u=18525&m=10&y=2011 HTTP/1.1" 200 5432 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.21 - - [01/Feb/2009:11:13:56 +0100] "GET /blog.php?u=23036&m=8&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.19 - - [01/Feb/2009:13:13:03 +0100] "GET /blog.php?u=25945&m=7&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.21 - - [01/Feb/2009:15:12:10 +0100] "GET /blog.php?do=list&m=8&y=2011 HTTP/1.1" 200 5422 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.21 - - [02/Feb/2009:04:35:22 +0100] "GET /blog.php?u=18902&m=10&y=2011 HTTP/1.1" 200 5462 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.20 - - [02/Feb/2009:11:10:51 +0100] "GET /blog.php?u=18525&m=6&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.21 - - [02/Feb/2009:11:57:05 +0100] "GET /blog.php?u=18902&m=12&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.20 - - [02/Feb/2009:12:22:46 +0100] "GET /blog.php?u=18525&m=12&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.20 - - [02/Feb/2009:18:27:28 +0100] "GET /blog.php?u=25945&m=10&y=2011 HTTP/1.1" 200 5432 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [03/Feb/2009:07:16:06 +0100] "GET /blog.php?u=18209&m=10&y=2011 HTTP/1.1" 200 5462 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [03/Feb/2009:11:13:37 +0100] "GET /blog.php?u=18525&m=3&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [04/Feb/2009:22:37:25 +0100] "GET /blog.php?u=18209&m=7&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [05/Feb/2009:01:59:53 +0100] "GET /blog.php?u=23036&m=1&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [05/Feb/2009:04:05:21 +0100] "GET /blog.php?u=3119&m=12&y=2011 HTTP/1.1" 200 5460 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [05/Feb/2009:13:43:49 +0100] "GET /blog.php?u=15608&m=2&y=2011 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [05/Feb/2009:14:40:54 +0100] "GET /blog.php?u=15608&m=6&y=2011 HTTP/1.1" 200 5430 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [06/Feb/2009:01:59:48 +0100] "GET /blog.php?u=18758&m=5&y=2011 HTTP/1.1" 200 5432 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [06/Feb/2009:05:15:07 +0100] "GET /blog.php?do=list&m=11&y=2011 HTTP/1.1" 200 5453 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"oder für das jahr 2037:

cat foo-access.log |grep y=2037
66.249.71.21 - - [01/Feb/2009:08:08:40 +0100] "GET /blog.php?u=19755&m=3&y=2037 HTTP/1.1" 200 5431 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.20 - - [01/Feb/2009:16:09:31 +0100] "GET /blog.php?u=20870&m=5&y=2037 HTTP/1.1" 200 5429 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.19 - - [02/Feb/2009:08:11:05 +0100] "GET /blog.php?u=20870&m=9&y=2037 HTTP/1.1" 200 5461 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [03/Feb/2009:23:57:10 +0100] "GET /blog.php?u=19755&m=5&y=2037 HTTP/1.1" 200 5430 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [04/Feb/2009:00:23:19 +0100] "GET /blog.php?u=19755&m=11&y=2037 HTTP/1.1" 200 5432 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [04/Feb/2009:06:44:09 +0100] "GET /blog.php?u=19755&m=1&y=2037 HTTP/1.1" 200 5462 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [04/Feb/2009:08:52:03 +0100] "GET /blog.php?u=16759&m=12&y=2037 HTTP/1.1" 200 5433 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [05/Feb/2009:02:29:36 +0100] "GET /blog.php?u=19755&m=4&y=2037 HTTP/1.1" 200 5462 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.240 - - [05/Feb/2009:15:12:59 +0100] "GET /blog.php?u=18504&m=12&y=2037 HTTP/1.1" 200 5432 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"ich habe mir mal das ganze mit dem google-bot referer angesehen und in der tat sieht google keine links auf den blogseiten, die auf einträge in der zukunft zeigen.

ich werde mal bei google anfragen, weshalb so ein grosses interesse an links aus der zukunft besteht.

bezügl. dem nofollow-tag: da sehe ich gerade das problem. a) sieht google keine links im kalender aus der zukunft und b) die links aus der vergangenheit sollen ja gespidert werden.

AA_
19.02.2009, 10:27
das ganze ist noch wirrer, als ich annahm.

suchspider folgen dem link auf der forenstartseite (hier zb. Blogs (http://www.vbulletin-germany.com/forum/blog.php?do=bloglist): 83, Blog-Einträge (http://www.vbulletin-germany.com/forum/blog.php?do=list): 131, Blog-Einträge der letzten 24 Stunden (http://www.vbulletin-germany.com/forum/blog.php?do=list&span=24): 0 )

der aufruf der blogs mit parameter "do=list" aus dieser statistik, führt dazu, dass der minikalender in alle richtungen anklickbar ist:

7433 7434

der link in der mitte (zb. Dezember 2037 (http://www.vbulletin-germany.com/forum/blog.php?do=list&m=12&y=2037) oder Januar 1970 (http://www.vbulletin-germany.com/forum/blog.php?do=list&m=1&y=1970)) wird dabei vom spider ebenfalls erfasst.

kurzum, google fügt hier nicht automatisch von sich aus irgendwelche beliebigen jahreszahlen ein, wie weiter oben vermutet wurde.

ich fürchte, dass dies insgesamt zu einem schlechteren ranking führt. immerhin haben hier tausende links den gleichen content. es macht irgendwie keinen sinn, wenn der googlebot mehrmals am tag vorbeikommt und nachsieht, ob es im jahr 1970 was neues gibt. stattdessen sollte hier doch die aufmerksamkeit auf aktuellen content gelenkt werden, der dabei komplett unterzugehen scheint?!

AA_
19.02.2009, 10:38
nachtrag: ich hab den bug soeben gefunden :)

wenn man ein userblog aufruft, kann man nicht in die zukunft sehen (es sei denn, es ist das eigene blog).

aber - man kann in der vergangenheit surfen, was ja auch erwünscht ist.
nun ist es aber so, dass der kalender beim erreichen von januar 1970 auf dezember 2037 umschaltet und dann geht der ganze spiderspass in alle richtungen zwischen januar 1970 und dezember 2037, also jenem magischen bereich der von (mittlerweile angestaubten) php-funktionen machbar ist.

damit sich niemand zu tode klicken muss, um das zu testen:

http://www.vbulletin-germany.com/forum/blog.php?u=25700&m=3&y=1970

hier wird der blog-content märz 1970 von unknownix (http://www.vbulletin-germany.com/forum/blog.php?u=25700) aufgerufen. blättert man im kalender nach links, kommt man nach 3 klicks zum jahre 2037. die links in der mitte (siehe oben) werden dabei vom googlebot aufgerufen und liefern natürlich lauter unbrauchbaren mist - nur eben keinen content.

AA_
19.02.2009, 11:10
hm... und ich habe auch die ursache gefunden, warum der googlebot bei mir ständig systemfehlermeldungen sieht:

beiträge heute bis dezember 1970 werden mit der meldung angezeigt: "Es wurden keine passenden Blog-Einträge von xxx gefunden."

gelangt der googlebot aber über den kalender zu einem in der zukunft liegenden monat, sieht er eine vbulletin-systemmeldung, dass keine berechtigungen vorliegen.

ich habe jetzt bei mir im blog das archiv, also den kalender komplett deaktiviert. leider habe ich keine einstellung gefunden, diesen unfug global zu deaktivieren :(

pogo
19.02.2009, 11:42
Die Navigation ist ja anscheinend total außer Kontrolle. :confused:
Ich denke nicht, dass eine Navigation außerhalb von Monaten, für die Blog-Einträge existieren, überhaupt in irgendeiner Art und Weise sinnvoll ist.

AA_
19.02.2009, 12:15
Die Navigation ist ja anscheinend total außer Kontrolle. :confused:
Ich denke nicht, dass eine Navigation außerhalb von Monaten, für die Blog-Einträge existieren, überhaupt in irgendeiner Art und Weise sinnvoll ist.

genau. ich habe nur noch nicht nachgesehen, was es "kostet" auf den gemeinsamen seiten (bloglisten) und den einzelnen userblogs zu checken, für welchen zeitraum beiträge vorhanden sind. mit dieser info könnte man dann auch das verhalten der navigation steuern, indem man die navigation nur innerhalb der "content-timeline" zulässt.

AA_
19.02.2009, 13:26
lässt sich lösen :)

SELECT MIN(dateline), MAX(dateline) FROM blog_text WHERE ...

in der where clause muss man dann je nach aktion und betrachter verschiedene dinge beachten (blogbesitzer, status).

das ergebnis kann man allerdings nur über die templates verwenden, weil der kalender selbst losgelöst von irgendwelchen blog-infos erzeugt wird. es wird lediglich ermittelt, welcher jahr-monat angezeigt werden soll in abhängigkeit der aktuell angezeigten inhalte. per default lässt sich das teil quasi in alle richtungen bedienen.

man müsste dann die variable $show['nextmonth'] entsprechend anpassen, was bisher nur in den userblogs erfolgt und nicht in der blogliste.

zusätzlich könnte man eine $show['prevmonth'] einbauen, so dass keine monate in der vergangenheit aufgerufen werden können, die ausserhalb jeglicher inhalte liegen.

um das zusätzliche query kommt man wohl nicht herum, wenn man das vernünftig lösen will. allerdings kann man das mit der ausführungszeit von 0,0001 - 0,0002 sekunden in den skat drücken.

pogo
19.02.2009, 18:22
Ich hab das mal weitergeleitet und hoffe, dass es sinnvoll bearbeitet wird.