Universität Bielefeld - Technische Fakultät

5. Einbindung von Meta-Information

Da URNs lediglich einen ID-String enthalten, lösen auch sie nicht das Problem, Informationen über eine Ressource zu vermitteln, bevor auf die Ressource tatsächlich zugegriffen wurde. Abhilfe sollen hier die Uniform Resource Characteristics (URCs, manchmal auch mit UR Citations übersetzt) liefern, die Meta-Informationen enthalten. Um schließlich einen URL mit seinem zugehörigem URN und zusätzlichen URCs zu verknüpfen, wurden die Uniform Resource Templates (URTs) entwickelt.

5.1 Uniform Resource Characteristics

Ein URC beginnt, wie jeder URI, mit dem Schema. Danach folgt ein Bezeichner, der festlegt, welche Informationen in dem URC enthalten sind. So kann eine bestimmte Reihenfolge von Informationen festgelegt werden, die immer vorhanden sein müssen, z.B. sollten die URCs aller ftp-baren Ressourcen Informationen über den Autor und die Dateilänge enthalten. Der Sinn dieser Festlegung ist, daß URCs dann automatisch ausgewertet und archiviert werden können. Dies ist Voraussetzung für ein System, daß gezielt URCs zu einem bestimmten Thema sucht.

Danach folgen Informationen zur verwendeten Sprache. Da ein URC Informationen enthalten soll, die für einen Menschen lesbar sind, müssen bei seiner Definition mehr Freiheiten zugelassen werden. Insbesondere können die Informationen in einer anderen Sprache als Englisch vorliegen, und daher auch in einem anderen Zeichensatz kodiert sein als ASCII. Entweder wird ein Landescode nach dem ISO 639 Standard und ein Sprachcode nach dem ISO 3316 Standard angegeben, oder das Schlüsselwort "MIME". MIME stellt eine Methode zur Verfügung, andere Zeichensätze durch 7-Bit-ASCII-Zeichen darzustellen.

Anschließend folgt noch die Angabe der ISO-Nummer der verwendeten Zeichensatzes, falls die Daten nicht MIME-kodiert dargestellt werden sollen.

Bis jetzt kann ein URC also folgendermaßen aussehen:

   URC:IAFA:en_US.iso88591
   URC:IAFA:MIME

Im ersten URC liegen die Daten also in amerikanischem Englisch vor und sind im ISO 88591 Zeichensatz dargestellt, im zweiten URC sind die Daten nach dem MIME-Verfahren kodiert.

Die eigentlichen Informationen folgen als Liste von Strings, die jeweils in Anführungszeichen " eingeschlossen sind. Die einzelnen Strings sind durch zwei Doppelpunkte :: voneinander getrennt. Diese Strings können jetzt im Prinzip jede Information aufnehmen, die für wichtig gehalten wird. Der URC wird mit drei Doppelpunkten ::: beendet.

Ein URC für die mit LaTeX erstellte Version dieses Textes könnte also z.B. so aussehen:

   URC:IAFA:de_DE.iso88591::
   "Art: Seminararbeit"::
   "Titel: Uniform Resource Identifiers"::
   "Autor: Jörn Clausen"::
   "Format: dvi":::

Die Zeilenumbrüche sind möglich, falls sie durch die angegebene Zeichenkodierung richtig behandelt werden können.

5.2 Uniform Resource Templates

Bis jetzt existieren die vorgestellen Konzepte alle nebeneinander, aber es gibt keine Verbindung zwischen ihnen. Es fehlt ein Mechanismus, bei gegebenem URN einen zugehörigen URL oder passende Informationen per URC zu erhalten. Als weiteres, bislang letztes Konzept wurden daher die Uniform Resource Templates (URTs) vorgeschlagen. Sie verknüpfen einen URN mit einem, oder auch mehreren, URLs und einem URC. Dadurch sind alle relevanten Informationen an einer Stelle zusammengefaßt. Diese URTs müssen nun an einer allgemein zugänglichen Stelle aufbewahrt werden, und ein Benutzer kann durch die Angabe eines URNs alle anderen für ihn wichtigen Informationen erhalten.

Die Anzahl der URNs, URLs und URCs in einem URT ist nicht beschränkt. Dies hat den Zweck, daß z.B. URNs, die weiterführende Informationen enthalten, bereits hier angegeben werden können. Damit aber weiterhin eine eindeutige Zuordnung von URCs und URLs zu ihrem URN möglich ist, ist die Reihenfolge im URT relevant.

Da ein URN nicht gelöscht werden kann, hat er Priorität gegenüber allen anderen URIs. Ein zugehöriger URL kann zwar wechseln, der URN selbst aber nicht. Daher ist es sinnvoll, den URN an die erste Stelle zu setzen. URCs können sich vielleicht auch ändern, obwohl URN und URL gleich bleiben. Daher sollte der URL an die zweite Stelle (möglicherweise gefolgt von weiteren URLs), und anschließend die zugehörige URC. Anschließend kann wieder ein URN mit nachfolgenden verknüpften URIs kommen.

So könnte z.B. ein URT, der auf das oberste Menu des gopher-Servers der Vereinten Nationen verweist, so aussehen:

   URN:ASCII:IANA:IAIS:UNOGOPH
   URL:gopher://gopher.undp.org/1/
   URC:IAFA:en_US.iso88591::
   "Art: gopher server"::
   "Titel: Hauptmenue des gopher-Servers der Vereinten Nationen"::
   "Anbieter: Vereinte Nationen, New York"::
   "Bemerkung: wichtige":::

Meines Erachtens ist die Verteilung von Doppelpunkten noch nicht zufriedenstellend gelöst. Zwar könnte der obige URT sicherlich von einem Computer zerlegt und analysiert werden, doch es würde die Sache bestimmt vereinfachen, nach jedem einzelnen URI zwei Doppelpunkte zu setzen, dafür z.B. zwischen den Daten-Strings des URCs jeweils nur einen. Auf diese Weise könnte man schon auf einen Blick die einzelnen URIs trennen, um sie anschließend einzeln weiter zu analysieren.


Weiter mit Kapitel 6, zurück zu Kapitel 4 oder ganz zurück zum Inhaltsverzeichnis.


Jörn Clausen, 1994-10-06, 1997-08-12