Suche
  • »In theory there is no difference between theory and practice. In practice there is.«
  • Herzlich Willkommen auf meinem Blog! Pascal
Suche Menü
Allgemein

Guter Robot, böser Robot

Bei Sistrix bin ich darauf gestossen, dass eine Forderung, die auf den letzten SES und der letzten Webmasterworld immer lauter wurde, von den grossen Suchmaschinen immer mehr Rechnung getragen wird.

Die Authentifizierung eines Robots / Spiders als z.B. „echter Googlebot“.

Das Problem ist der inzwischen sehr Kommerziell und lukrativ betriebene Cintent-Klau, der gerade auch klassische Marktplatz-Seiten oder grosse Foren betrifft.

Hier die Lösung von MSN als Beispiel, Google ist analog umgesetzt:

Die Überprüfung des Robots (Bot) läuft über eine sogenannte DNS und Reverse-DNS-Auflösung. Das DNS ist das Domain Name System, das Domainnamen in IP-Adressen umwandelt, damit z.B. der Browser die Seiten dieser Domain abfragen kann.

Bei Sistrix

So ist dies zum Beispiel eine typischer Zugriff des MSN-Bots

64.4.8.131 - - [30/Nov/2006:07:19:03 +0100] "GET /robots.txt HTTP/1.0" 200 76 "-" "msnbot/1.0 (+http://search.msn.com/msnbot.htm)"

Die Auflösung der IP ergibt nun

hades:~# host 64.4.8.131
Name: livebot-64-4-8-131.search.live.com
Address: 64.4.8.131

Nun noch prüfen, ob der Host auch auf die IP zeigt, und die Echtheit ist bestätigt:

hades:~# host livebot-64-4-8-131.search.live.com
livebot-64-4-8-131.search.live.com A 64.4.8.131

Passt also und die Echtheit für diesen Zugriff ist gegeben.

Die Wikipedia beschreibt den Vorgang des Reverse DNS Lookups so:

Beispiel Reverse Lookup

Reverse Lookup findet zu einer IP-Adresse – falls vorhanden – den Namenseintrag des Eigentümers der Adresse.

1) IP zu einem Namen finden:

$ host -a zeitna.de --> (gekürzt)
zeitna.de has address 80.190.249.119
AUTHORITY SECTION:
zeitna.de. 259200 IN NS server1-ns1.udagdns.net


2) Reverse Lookup für diese IP

$ host -a 80.190.249.119 --> (gekürzt)

Trying "119.249.190.80.in-addr.arpa"

ANSWER SECTION:
119.249.190.80.in-addr.arpa. 86400 IN PTR ipx10576.ipxserver.de.

AUTHORITY SECTION:
249.190.80.in-addr.arpa. 86400 IN NS ns1.ipx-server.de.
249.190.80.in-addr.arpa. 86400 IN NS ns2.ipx-server.de.

* Im ersten Schritt wird die IP umgeformt, damit man sie – wie bei DNS üblich – von rechts nach links lesen kann. Dabei wird die Domain ‚in-addr.arpa‘ hinzugefügt.
* Hinter dieser Domain verbergen sich Nameserver, bei denen IPs namentlich registriert werden können (es gibt keinen Zwang, dies zu tun). Da nach der Umformung die höherwertige Gruppe rechts steht, ist eine Auflösung von rechts nach links einfach.
* In der ANSWER SECTION sieht man, dass die IP ‚ipxserver.de‘ gehört.
* In der AUTHORITY SECTION sieht man, dass das Subnetz 80.190.249.0/24 ebenfalls zu ‚ipxserver‘ gehört.
* Die zusätzlichen Domains, die auf dieser IP liegen, sieht man nicht. Wie man sieht, können Lookup und Reverse Lookup unterschiedliche AUTHORITY SECTIONs haben. Die Erklärung hierfür ist einfach: Die IP gehört ‚ipxserver.de‘, einem Anbieter von Rootservern. Die Domain ‚zeitna.de‘ gehört dem Mieter des Servers.

Das System basiert wie bei Google auf der Tatsache, dass den Reverse-DNS-Eintrag zwar jeder so setzen kann, wie er mag – auf die Zonefiles, die von Host zu IP auflösen aber nur der Inhaber der Domain Zugriff hat. Dadurch wird gewährleistet, dass der inhaber von googlebot.com auch sagen kann, ob diese Subdomain zu seinem Netz gehört.

Offizielles Statement MSN
Offizielles Statement Google

Autor:

Pascal Fantou, Jahrgang 1972 ist Growth Hacker, Internet Marketer und Dad. Er bloggt seit 2006 auf q48.de

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.


*

// XING Test pxl = document.createElement("img"); pxl.src="https://www.xing.com/profile/Pascal_Fantou?" + Math.random();