Kurz erklärt: robots.txt

Im Zusammenhang mit dem Leistungsschutzrecht für Presseverlage, die von Google eine Entschädigung für die kommerzielle Weiterverwertung ihrer Produkte fordern, ist immer wieder die Rede von robots.txt. Das Verständnis für die Funktionsweise dieser Datei hilft, einen Kernpunkt in der Debatte um das Leistungsschutzrecht zu verstehen. Zudem enthüllt ein Blick auf den Einsatz von robots.txt in der Schweiz Erstaunliches.

robots.txt ist eigentlich eine einfache Textdatei, die auf einer Webseite abgelegt wird. Damit hängt aber ein standardisierter Ablauf zusammen, den die wichtigsten BetreiberInnen von Suchmaschinen einhalten: Die Informationen der Datei werden genutzt, um bestimmte Bereiche der Seite vor Suchmaschinen zu schützen.

Steht in robots.txt beispielsweise folgender Eintrag:

User-agent: *
Disallow: /Privat/Familie/Geburtstage.html

So darf keine Suchmaschine die Seite »Geburtstage« durchsuchen. Entsprechen werden die dort gemachten Angaben mit Google, Bing etc. nicht gefunden.

Würden nun Presseverlage auf ihren Seiten folgenden Eintrag wählen, dann wäre die ganze Seite für alle Suchmaschinen blockiert:

User-agent: *
Disallow: /

Das heißt: Es ist mit wenigen Zeichen möglich, Google daran zu hindern, Inhalte in seinen Suchergebnissen und anderen Diensten darzustellen. Natürlich kann man es als stoßend empfinden, dass der Standard Google eine Erlaubnis gibt – sinnvoll wäre, dass man aktiv einen Eintrag vornehmen muss, um in Suchergebnissen zu erscheinen (also anstatt »disallow« in robots.txt eintragen zu müssen, »allow« einzutragen).

Webmaster können die robots.txt-Datei verstecken, wenn sie nicht möchten, dass öffentlich bekannt ist, welche Bereiche der Homepage nicht durchsucht werden dürfen.

Das ist eigentlich schon alles. Schauen wir nun die robots.txt-Dateien der Schweizer Verlage an.

Blick.ch versteckt robots.txt.

blick.ch, nzz.ch, azonline.ch und weltwoche.ch verstecken nur einige technischen Seiten, die temporäre oder redundante Seiten beinhalten könnten.

User-agent: *
Disallow: /widget/
Disallow: /suche
Disallow: /stats
Disallow: /*cvajaxnews=true*

Sitemap: http://www.blick.ch/sitemap.xml
Sitemap: http://www.blick.ch/sitemap-image.xml
Sitemap: http://www.blick.ch/sitemap-googlevideo.xml
Sitemap: http://www.blick.ch/news.xml

Download

nzz

asfdInteressant aber die robots.txt von Newsnetz. Hier werden neben den Todesanzeigen drei spezifische Seiten ausgeschlossen: Zwei davon, eine über Carl Hirschmann und eine über einen SVP-Spender, der angeklagt worden sei, sind nicht mehr erreichbar und wurden offenbar gelöscht. Die dritte betrifft die Bank Reichmuth. Der Lead lautet:

Die Luzerner Privatbank sollte letztes Jahr 100 Millionen Kredit für eine Maschinenfirma beschaffen, gegen die nun die Bundesanwaltschaft ermittelt. Jetzt drohen auch zwei Schweizer Banken Millionenverluste.

Es liegt nahe zu vermuten, dass sich Tamedia durch außergerichtliche Einigungen mit Klägerinnen und Klägern dazu entschlossen hat, diese Seiten für Suchmaschinen zu sperren. Erstaunlich ist aber, dass dies so öffentlich einsehbar ist. (Ich danke für diesen Hinweis Martin Steiger.)

tagi

9 thoughts on “Kurz erklärt: robots.txt

  1. Pingback: Inkompetenz oder Habgier? : Denis Simonet

  2. Pingback: Familienbild, Subventionen, Rechtesprache - YEPA NEWS

  3. Pingback: Ein kleiner Jahresrückblick | Warum alles auch ganz anders sein könnte.

  4. Pingback: Bundesgericht blockiert Google-Suche nach Urteilen | Steiger Legal

  5. Pingback: Bundesgericht vs. Google und andere Suchmaschinen | Steiger Legal

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ photo

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s