Sonderfall: Information als freies Gut

Was ist ein robots.txt?
Roboter oder Spider nennt sich die Software, die Suchmaschinen benutzen, um Seiten zu indizieren. Doch bevor etwas untersucht wird, schauen die Spider in eine extra für sie geschriebene Datei – den robots.txt.

Verlage wollen nun ein Robots.txt 2.0.
Das lässt sich mit ihrem Angebot von Content erklären. Content ist das liebste Kind der Verlage und auch das Gefährdetste im Umschwung von analog zu digital. Deswegen treiben sie das Automated Content Access Protocol voran.

Warum? Kontrolle:
Das Internet Archive archiviert nach dem Indexieren historische Webdokumente, es sei denn, die Website-Betreiber untersagen dies durch einen entsprechenden Eintrag in der Datei robots.txt. Und dann sollten ehemals aktuelle Berichte, Artikel, Websiten… Content eben, nicht mehr abrufbar sein. Das alles konnte man bislang auch in der herkömmlichen robots.txt einstellen – aber anscheinend nicht nachhaltig genug. Ist der Zugriff auf archivierte Dokumente verwehrt, kann man das wohl ohne nennenswerten Aufwand umgehen.

Deswegen wollen Verlage nun ein Robots.txt 2.0. Inhalt: ACAP, das Automated Content Access Protocol 1.0:
ACAP erlaubt beispielsweise die Festlegung, wie lange Suchmaschinen Inhalte speichern sollen, oder das grundsätzliche Folgen von Links zu untersagen. Das Archiv könnte man so abschließen.

Viel dürfe man sich von diesem Protokoll bislang aber nicht erwarten – die Suchmaschinen sind nicht gezwungen, die neue Robots.txt auszulesen.

» Um dennoch die Verbreitung von ACAP voranzutreiben, stehen Werkzeuge bereit, um die Angaben einer Robots.txt in ACAP zu übersetzen. Beide Dateien können parallel benutzt werden. «

Hm, Information als freies Gut: Sonderfall! Information als Wirtschaftsgut: zur richtigen Zeit am richtigen Platz: Vorteil gegen Mehrwert.

Weitere Beiträge zum Thema: