Seitenaufrufe der robots einschrÃ¤nken

am 25.09.2007 13:06:52 von schurig

Hallo ng,

meine schöne Zugriffsstatistik wird in den
letzten Tagen massiv von googlebot & Co.
verfälscht.

Technisch sieht die Seite so aus:
eine php-Formularseite schickt per GET die
Anfrage an eine php-Ergebnisseite, die,
neben dem Ergebnis, die php-Formularseite
am Seitenanfang wieder darstellt.

Nun wurde die php-Ergebnisseite(!) im Abstand
von 7-12 Sek. in den letzten Tagen mehrmals einige
Hundert Mal aufgerufen.

Hab mal hier nachgeschaut
http://tools.whois.net/index.php?fuseaction=ipaddress.result s
und da zeigte sich als häufig z.B.
crawl-.....googlebot.com
spider...picsearch.com

Nutzen diese "robots" die GET-Url in der Adresszeile
für die Aufrufe?

Im meinem root-Verzeichnis des Servers habe ich
eine robots.txt liegen (orientiert an
http://www.wikipedia.org/)
würde z.B. ein
User-agent: googlebot.com
Disallow: /
etwas bringen / sinnvoll sein?
(beeinflußt ein Eintrag das Ranking auf der Googleseite?)

Kann man da php-technisch etwas regulieren?
Würde es was ändern, die Abfrage per POST zu schicken?

.... noch ein paar Wochen und smallint reicht nicht
mehr ...

Danke für Tipps,
Grüße, J.

Re: Seitenaufrufe der robots einschrÃ¤nken

am 25.09.2007 13:26:24 von schurig

nachträglich:

seh grad (hat jetzt nichts mit php zu tun ...),
dass ich in Meta-Tags noindex vergessen hatte

sofern die robots sich dran halten ...

Grüße, J.

Re: Seitenaufrufe der robots einschrÃ¤nken

am 01.10.2007 13:56:40 von schurig

hallo,
mmhpf - scheint die falsche Gruppe zu sein??
> ...
das Problem ist jedenfalls noch nicht gebannt.

Diese "Firmen", z.B.
---------
OrgName: Google Inc.
OrgID: GOGL
Address: 1600 Amphitheatre Parkway
City: Mountain View
StateProv: CA
PostalCode: 94043
Country: US
NetRange: 66.249.64.0 - 66.249.95.255
CIDR: 66.249.64.0/19
NetName: GOOGLE ...
---------
haben meine DB-Abfrage im Sekundentakt 20000 aufgerufen
(weiß nicht ob noch andere beteiligt waren, ... check nicht alle ...)
... :-(
Gruß, Jörg

Re: Seitenaufrufe der robots einschrÃ¤nken

am 01.10.2007 15:19:42 von Joerg Behrens

Jörg schrieb:
> hallo,
> mmhpf - scheint die falsche Gruppe zu sein??

Wir hier in de.lang.PHP.DATENBANKEN fuehlen uns nicht so wirklich=20
angesprochen.

>> ...
> das Problem ist jedenfalls noch nicht gebannt.
>=20
> Diese "Firmen", z.B.
> ---------
> OrgName: Google Inc.
> OrgID: GOGL
> Address: 1600 Amphitheatre Parkway
> City: Mountain View
> StateProv: CA
> PostalCode: 94043
> Country: US
> NetRange: 66.249.64.0 - 66.249.95.255
> CIDR: 66.249.64.0/19
> NetName: GOOGLE ...
> ---------
> haben meine DB-Abfrage im Sekundentakt 20000 aufgerufen
> (weiß nicht ob noch andere beteiligt waren, ... check nicht alle ...)=

> ... :-(
> Gruß, Jörg

Wenn deine Seite SessionsIDs per URL transportiert dann kann sich ein=20
crawler schon mal leicht verirren. Fuer den sieht dann unter Umstaenden=20
jede URL anders aus. Hinzu kommt wenn du per Hyperlink z.b die=20
Sortierung einer Datenanzeige umschalten kannst oder unten ein=20
"Weiterblaettern" hast. Ein Crawler versucht halt jeden LINK welchen er=20
da im HTML findet.

Gruss
Joerg

--=20
TakeNet GmbH, Geschaeftsfuehrer Wolfgang Meier
97080 Wuerzburg Tel: +49 931 903-2243
Alfred-Nobel-Straße 20 Fax: +49 931 903-3025
HRB Wuerzburg 6940 http://www.takenet.de

Re: Seitenaufrufe der robots einschrÃ¤nken

am 01.10.2007 16:50:21 von schurig

Hallo Joerg,
> ...
> Wir hier in de.lang.PHP.DATENBANKEN fuehlen uns nicht so wirklich
> angesprochen.
hab keine andere "erkannt". Da dachte ich, weil Datenbank & php ...

> ...
>
> Wenn deine Seite SessionsIDs per URL transportiert dann kann sich ein
> crawler schon mal leicht verirren.
keine SessionsIDs
nur ganz einfach:
file.php?band=45%2F1&jahr=&aut= ...

> Fuer den sieht dann unter Umstaenden
> jede URL anders aus. Hinzu kommt wenn du per Hyperlink z.b die
> Sortierung einer Datenanzeige umschalten kannst
das könnte ich: man kann die Abfrage als Autor-Sortierung,
Jahrgangs-Sortierung, ... abschicken.

> oder unten ein
> "Weiterblaettern" hast.
das gibts nicht.

> Ein Crawler versucht halt jeden LINK welchen er
> da im HTML findet.
also kein "Angriff", nix böswilliges.
Eigenartig, dass die Seite schon 5-6 Jahre ohne Probleme läuft.
Außerdem soll die Seite natürlich laut meta-tags nicht indiziert werden
noindex,nofollow.

So: einfach die Abfrage per POST schicken.?

Danke für die Hinweise,
Grüße, Jörg