Universität Bielefeld - Technische Fakultät

2. Uniform Resource Identifiers

Der Zweck eines Uniform Resource Identifiers (URI) ist, Informationen über eine Ressource im Internet zu repräsentieren. Dabei ist der Begriff Information so allgemein wie möglich zu verstehen. Zu den Informationen, die mit einem URI gespeichert werden sollen, gehören ein eindeutiger Bezeichner für eine Ressource, eine Adresse im Internet, und zusätzliche Informationen, die für einen Benutzer wichtig sein könnten.

2.1 Anforderungen

Ein URI muß zwei gegensätzliche Anforderungen erfüllen: Zum einen muß er möglichst flexibel sein, um alle Informationen darstellen zu können. Zum anderen muß er möglichst leicht darstellbar sein, damit er fehlerfrei weitergegeben werden kann.

Die Flexibilität ergibt sich aus der Forderung, daß sehr unterschiedliche Informationen dargestellt werden sollen. So müssen z.B. Adressen im Internet kodiert werden, aber auch Informationen für einen Benutzer im Klartext dargestellt werden können. Flexibilität heißt auch, daß das Konzept erweiterbar ist. Neue, bis jetzt nicht existierende Formen von URIs müssen sich in das Konzept einbetten lassen, ohne daß Inkonsistenzen entstehen.

Die leichte Darstellbarkeit wird gefordert, damit ein URI auf vielen verschiedenen Medien übertragen werden kann. Er soll z.B. per mail verschickt werden können, ohne daß dabei Zeichen durch inkompatible Zeichensätze verändert werden. Er soll aber auch von einem Menschen handschriftlich auf einem Stück Papier dargestellt werden können, und zwar so, daß er von einem anderen Menschen anschließend wieder zu lesen ist.

2.2 Syntax

Die Forderung nach leichter Darstellbarkeit wird dadurch erfüllt, daß ein URI nur Zeichen des 7-Bit-ASCII-Zeichensatzes enthalten darf. Wenn andere Zeichen benötigt werden, können sie kodiert dargestellt werden.

Ein URI besteht aus einem Präfix, der die Art des URIs festlegt. Im URI-Jargon heißt dieser Teil auch Schema (engl. scheme). Das Schema legt fest, wie der nachfolgende Teil des URIs interpretiert wird.

Vom Schema durch einen Doppelpunkt : getrennt, folgt der Pfad (engl. path), der, je nach verwendetem Schema, unterschiedliche Bedeutung hat. Es kann ein tatsächlicher Pfad in einer Dateihierarchie sein, oder es kann ein Text mit Informationen über die Ressource sein.

Falls Zeichen benötigt werden, die nicht im 7-Bit-ASCII-Zeichensatz vorkommen, kann durch das Prozentzeichen % eine Escape-Sequenz eingeleitet werden. Nach dem Prozentzeichen folgt eine zweistellige Hexadezimalzahl, die das gewünschte Zeichen im ISO Latin 1 Zeichensatz angibt.

2.3 Spezielle URIs

Zur Zeit gibt es vier Formen von Resource Identifiern, wobei jede Form eine spezielle Aufgabe innerhalb des Gesamtkonzepts übernimmt. Sie sind in Abbildung 1 dargestellt. In den nächsten Kapiteln werden sie ausführlich vorgestellt.

Abbildung 1: Die verschiedenen Formen der URIs

Diese Darstellung muß nicht vollständig sein. Das URI-Konzept ist so flexibel angelegt, daß sich neue Formen, falls sich die Notwendigkeit dafür ergibt, leicht einfügen lassen.


Weiter mit Kapitel 3, zurück zur Einführung oder ganz zurück zum Inhaltsverzeichnis.


Jörn Clausen, 1994-10-06