8.2Eigenschaften von XML-Dokumenten
8.2.1Elemente und Attribute
Der Inhalt eines XML-Dokuments besteht aus strukturierten Elementen, die hierarchisch geschachtelt sind. Dazwischen befindet sich der Inhalt, der aus weiteren Elementen (daher »hierarchisch«) und reinem Text bestehen kann. Die Elemente können Attribute enthalten, die zusätzliche Informationen in einem Element ablegen:
Listing 8.1party.xml
<party datum="31.12.2012">
<gast name="Albert Angsthase">
<getraenk>Wein</getraenk>
<getraenk>Bier</getraenk>
<zustand ledig="true" nuechtern="false"/>
</gast>
</party>
Die Groß- und Kleinschreibung der Namen für Elemente und Attribute ist für die Unterscheidung wichtig. Ein Attribut besteht aus einem Attributnamen und einem Wert. Der Attributwert steht immer in einfachen oder doppelten Anführungszeichen, und das Gleichheitszeichen weist dem Attributnamen den Wert zu.
Verwendung von Tags
Gemäß der Reference Concrete Syntax geben Elemente in spitzen Klammern die Tags an. Elemente existieren in zwei Varianten: Falls das Element einen Wert einschließt, besteht es aus einem Anfangs-Tag und einem End-Tag.
Element = öffnendes Tag + Inhalt + schließendes Tag
Das Anfangs-Tag gibt den Namen des Tags vor und enthält die Attribute. Das End-Tag hat den gleichen Namen wie das Anfangs-Tag und wird durch einen Schrägstrich nach der ersten Klammer gekennzeichnet. Zwischen dem Anfangs- und dem End-Tag befindet sich der Inhalt des Elements.
[zB]Beispiel
Das Element <getraenk> mit dem Wert Wein:
Ein Element, das keine Inhalte einschließt, besteht aus nur einem Tag mit einem Schrägstrich vor der schließenden spitzen Klammer. Diese Tags haben entweder Attribute als Inhalt, oder das Auftreten des Tags ist Bestandteil des Inhalts.
[zB]Beispiel
Das Element <zustand> mit den Attributen ledig und nuechtern:
Bedeutung der Tags
Durch die freie Namensvergabe in XML-Dokumenten ist eine formatierte Darstellung eines Dokuments nicht möglich. Anders als bei HTML gibt es keine festgelegte Menge von Tags, die den Inhalt nach bestimmten Kriterien formatieren. Falls das XML-Dokument in einem Browser dargestellt werden soll, sind zusätzliche Beschreibungen in Form von Formatvorlagen (Stylesheets) für die Darstellung in HTML notwendig.
Wohlgeformt
Ein XML-Dokument muss einige Bedingungen erfüllen, damit es wohlgeformt ist. Wenn es nicht wohlgeformt ist, ist es auch kein XML-Dokument. Damit ein XML-Dokument wohlgeformt ist, muss jedes Element aus einem Anfangs- und einem End-Tag oder nur aus einem abgeschlossenen Tag bestehen. Hierarchische Elemente müssen in umgekehrter Reihenfolge ihrer Öffnung wieder geschlossen werden. Die Anordnung der öffnenden und schließenden Tags legt die Struktur eines XML-Dokuments fest. Jedes XML-Dokument muss ein Wurzelelement enthalten, das alle anderen Elemente einschließt.
[zB]Beispiel
Das Wurzelelement heißt <party> und schließt das Element <gast> ein:
<gast name="Albert Angsthase"></gast>
</party>
Spezielle Zeichen in XML (Entitäten)
Wir müssen darauf achten, dass einige Zeichen in XML bestimmte Bedeutungen haben. Dazu gehören &, <, >, " und '. Sie werden im Text durch spezielle Abkürzungen, die Entitäten, abgebildet. Dies sind für die oben genannten Zeichen &, <, >, " und '. Diese Entitäten für die Sonderzeichen sind als einzige durch den Standard festgelegt.
<!-- Kommentare -->
XML-Dokumente können auch Kommentare enthalten. Diese werden beim Auswerten der Daten übergangen. Kommentare verbessern die Qualität des XML-Dokuments für den Benutzer wesentlich. Sie können an jeder Stelle des Dokuments verwendet werden, nur nicht innerhalb der Tags. Kommentare haben die Form:
Der beste Kommentar eines XML-Dokuments ist die sinnvolle Gliederung des Dokuments und die Wahl selbsterklärender Namen für Tags und Attribute.
Kopfdefinition
Die Wohlgeformtheit muss mindestens erfüllt sein. Zusätzlich dürfen andere Elemente eingebaut werden. Dazu gehört etwa eine Kopfdefinition, die beispielsweise
lauten kann. Diese Kopfdefinition lässt sich durch Attribute erweitern. In diesem Beispiel werden die verwendete XML-Version und die Zeichenkodierung angegeben:
Wenn eine XML-Deklaration vorhanden ist, muss sie ganz am Anfang des Dokuments stehen. Dort lässt sich im Prinzip die benutzte Zeichenkodierung definieren, wenn sie nicht automatisch UTF-8 oder UTF-16 ist. Automatisch kann jedes beliebige Unicode-Zeichen unabhängig von der Kodierung über das Kürzel ꯍ (A, B, C, D stehen für Hexadezimalzeichen) dargestellt werden.
[»]Hinweis
Java und andere XML-Parser nehmen standardmäßig die Zeichenkodierung UTF-8 an. Es ist daher eine gute Idee, grundsätzlich alle XML-Dokumente in UTF-8 abzulegen.
8.2.2Beschreibungssprache für den Aufbau von XML-Dokumenten
Im Gegensatz zu HTML ist bei XML die Menge der Tags und deren Kombination nicht festgelegt. Für jede Anwendung können Entwickler beliebige Tags definieren und verwenden. Um aber überprüfen zu können, ob eine XML-Datei für eine bestimmte Anwendung die richtige Form hat, wird eine formale Beschreibung dieser Struktur benötigt. Diese formale Struktur ist in einem bestimmten Format beschrieben, wobei zwei Formate populär sind: das XML Schema und die Document Type Definition (DTD). Sie legen fest, welche Tags zwingend vorgeschrieben sind, welche Art Inhalt diese Elemente haben, wie Tags miteinander verschachtelt sind und welche Attribute ein Element besitzen darf. Hält sich ein XML-Dokument an die Definition, ist es gültig (engl. valid).
Mittlerweile gibt es eine große Anzahl von Beschreibungen in Form von Schemas und DTDs, die Gültigkeiten für die verschiedensten Daten definieren. Einige DTDs sind unter http://tutego.de/go/xmlapplications aufgeführt. Um einen Datenaustausch für eine bestimmte Anwendung zu gewährleisten, ist eine eindeutige Beschreibung unerlässlich. Es wäre problematisch, wenn die Unternehmen unter der Struktur einer Rechnung immer etwas anderes verstünden.
Document Type Definition (DTD)
Für die folgende XML-Datei entwickeln wir eine DTD zur Beschreibung der Struktur:
Listing 8.2party.xml
<party datum="31.12.2012">
<gast name="Albert Angsthase">
<getraenk>Wein</getraenk>
<getraenk>Bier</getraenk>
<zustand ledig="true" nuechtern="false"/>
</gast>
<gast name="Martina Mutig">
<getraenk>Apfelsaft</getraenk>
<zustand ledig="true" nuechtern="true"/>
</gast>
<gast name="Zacharias Zottelig"></gast>
</party>
Für diese XML-Datei legen wir die Struktur fest und beschreiben sie in einer DTD. Dazu sammeln wir zuerst die Daten, die in dieser XML-Datei stehen:
Elementname | Attribute | Untergeordnete | Aufgabe |
---|---|---|---|
party | datum | gast | Wurzelelement mit dem Datum der Party als Attribut |
gast | name | getraenk und zustand | die Gäste der Party; Name des Gastes als Attribut |
getraenk | Getränk des Gastes als Text | ||
zustand | ledig und nuechtern | Familienstand und Zustand als Attribute |
Tabelle 8.1Struktur der Beispiel-XML-Datei
Elementbeschreibung
Die Beschreibung der Struktur eines Elements besteht aus dem Elementnamen und dem Typ. Sie kann auch aus einem oder mehreren untergeordneten Elementen in Klammern bestehen. Der Typ legt die Art der Daten in dem Element fest. Mögliche Typen sind etwa PCDATA (Parsed Character Data) für einfachen Text oder ANY für beliebige Daten.
Untergeordnete Elemente werden als Liste der Elementnamen angegeben. Die Namen sind durch ein Komma getrennt. Falls verschiedene Elemente oder Datentypen alternativ vorkommen können, werden diese ebenfalls in Klammern angegeben und mit dem Oder-Operator (|) verknüpft. Hinter jedem Element und hinter der Liste von Elementen legt ein Operator fest, wie häufig das Element oder die Folgen von Elementen erscheinen müssen. Falls kein Operator angegeben ist, muss das Element oder die Elementliste genau einmal erscheinen. Folgende Operatoren stehen zur Verfügung:
Operator | Wie oft erscheint das Element? |
---|---|
? | einmal oder gar nicht |
+ | mindestens einmal |
* | keinmal, einmal oder beliebig oft |
Tabelle 8.2DTD-Operatoren für Wiederholungen
[zB]Beispiel
Das Element <party> erlaubt beliebig viele Unterelemente vom Typ <gast>:
Drückt aus, dass auf einer Party beliebig viele Gäste erscheinen können.
Attributbeschreibung
Die Beschreibung der Attribute sieht sehr ähnlich aus. Sie besteht aus dem Element, den Attributnamen, den Datentypen der Attribute und einem Modifizierer. In einem Attribut können als Werte keine Elemente angegeben werden, sondern nur Datentypen wie CDATA (Character Data). Der Modifizierer legt fest, ob ein Attribut zwingend vorgeschrieben ist oder nicht. Folgende Modifizierer stehen zur Verfügung:
Modifizierer | Erläuterung |
---|---|
#IMPLIED | Muss nicht vorkommen. |
#REQUIRED | Muss auf jeden Fall vorkommen. |
#FIXED [Wert] | Wert wird gesetzt und kann nicht verändert werden. |
Tabelle 8.3Attribut-Modifizierer
[zB]Beispiel
Das Attribut datum für das Element <party>:
Der Wert des Attributs datum ist Text und muss angegeben sein (festgelegt durch den Modifizierer #REQUIRED).
Kümmern wir uns um die Beschreibung eines Gastes, der einen Namen und einen Zustand hat:
<!ATTLIST gast name CDATA #REQUIRED>
Das Element hat als Attribut name und die Unterelemente <getraenk> und <zustand>. Ein Gast kann kein Getränk, ein Getränk oder viele einnehmen. Die Attribute des Elements <zustand> müssen genau einmal oder gar nicht vorkommen.
Das Element <getraenk> hat keine Unterelemente, aber einen Text, der das Getränk beschreibt:
Das Element <zustand> hat keinen Text und keine Unterelemente, aber die Attribute ledig und nuechtern, die mit Text gefüllt sind. Die Attribute müssen nicht unbedingt angegeben werden (Modifizierer #IMPLIED).
<!ATTLIST zustand ledig CDATA #IMPLIED
nuechtern CDATA #IMPLIED>
Bezugnahme auf eine DTD
Falls die DTD in einer speziellen Datei steht, wird im Kopf der XML-Datei angegeben, wo die DTD für dieses XML-Dokument steht:
Hinter DOCTYPE steht das Wurzelelement der zu beschreibenden XML-Datei. Hinter SYSTEM steht der URI mit der Adresse der DTD-Datei. Die DTD selbst kann in einer eigenen Datei stehen oder Bestandteil der XML-Datei sein.
Die vollständige DTD zu dem Party-Beispiel sieht folgendermaßen aus:
Listing 8.3party.dtd
<!ATTLIST party datum CDATA #REQUIRED>
<!ELEMENT gast (getraenk*, zustand?)>
<!ATTLIST gast name CDATA #REQUIRED>
<!ELEMENT getraenk (#PCDATA)>
<!ELEMENT zustand EMPTY>
<!ATTLIST zustand ledig CDATA #IMPLIED nuechtern CDATA #IMPLIED>
Diese DTD definiert somit die Struktur aller XML-Dateien, die die Party beschreiben.
8.2.3Schema – die moderne Alternative zu DTD
Ein anderes Verfahren, um die Struktur von XML-Dateien zu beschreiben, ist das Schema. Es ermöglicht eine Strukturbeschreibung wie eine DTD – nur in Form einer XML-Datei. Das vereinfacht das Parsen der Schema-Datei, da die Strukturbeschreibung und die Daten vom gleichen Dateityp sind. Ein Schema beschreibt im Gegensatz zu einer DTD die Datentypen der Elemente und Attribute einer XML-Datei viel detaillierter. Die üblichen Datentypen wie string, integer und double der gängigen Programmiersprachen sind bereits vorhanden. Weitere Datentypen wie date und duration existieren ebenfalls. Zusätzlich ist es möglich, eigene Datentypen zu definieren. Mit einem Schema kann weiterhin festgelegt werden, ob ein Element wie eine Ganzzahl in einem speziellen Wertebereich liegt oder ein String auf einen regulären Ausdruck passt. Die Vorteile sind eine genauere Beschreibung der Daten, die in einer XML-Datei dargestellt werden. Das macht aber auch die Strukturbeschreibung aufwändiger als mit einer DTD. Durch die detaillierte Beschreibung der XML-Struktur ist jedoch der Mehraufwand gerechtfertigt.
Party-Schema
Hier ist ein Beispiel für ein Schema, das die Struktur der Datei party.xml beschreibt:
Listing 8.4party.xsd
<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<xsd:element name="party" type="partyType" />
<xsd:complexType name="partyType">
<xsd:sequence>
<xsd:element name="gast" type="gastType" />
</xsd:sequence>
<xsd:attribute name="datum" type="datumType" />
</xsd:complexType>
<xsd:complexType name="gastType">
<xsd:sequence>
<xsd:element name="getraenk" type="xsd:string" />
<xsd:element name="zustand" type="zustandType" />
</xsd:sequence>
</xsd:complexType>
<xsd:simpleType name="datumType">
<xsd:restriction base="xsd:string">
<xsd:pattern value="[0-3][0-9].[0-1][0-9].[0-9]{4}" />
</xsd:restriction>
</xsd:simpleType>
<xsd:complexType name="zustandType">
<xsd:complexContent>
<xsd:restriction base="xsd:anyType">
<xsd:attribute name="nuechtern" type="xsd:boolean" />
<xsd:attribute name="ledig" type="xsd:boolean" />
</xsd:restriction>
</xsd:complexContent>
</xsd:complexType>
</xsd:schema>
In diesem Beispiel werden die Typen string (für die Beschreibung des Elements <getraenk>) und boolean (für die Beschreibung des Elements <ledig>) verwendet. Die Typen gastType und datumType sind selbst definierte Typen. Ein sehr einfacher regulärer Ausdruck beschreibt die Form eines Datums. Ein Datum besteht aus drei Gruppen zu je zwei Ziffern, die durch Punkte getrennt werden. Die erste Ziffer der ersten Zifferngruppe muss aus dem Zahlenbereich 0 bis 3 stammen.
In der Schema-Datei basieren die Typen datumType und zustandType auf vorhandenen Schema-Typen, um diese einzuschränken. So schränkt datumType den Typ string auf die gewünschte Form eines Datums ein, und zustandType schränkt den anyType auf die beiden Attribute nuechtern und ledig ein. Die Schreibweise erzeugt einen neuen Typ, der keinen Text als Inhalt enthält, sondern nur die beiden Attribute nuechtern und ledig erlaubt. Der Wert der beiden Attribute ist ein Wahrheitswert.
Simple und komplexe Typen
Ein XML-Schema unterscheidet zwischen simplen und komplexen Typen. Simple Typen sind alle Typen, die keine Unterelemente und keine Attribute haben, sondern nur textbasierten Inhalt.
[zB]Beispiel
Das Element <getraenk> besteht nur aus einer Zeichenkette:
Komplexe Typen können neben textbasiertem Inhalt auch Unterelemente und Attribute inkludieren.
[zB]Beispiel
Das Element <gast> hat den Typ gastType und die Unterelemente <getraenk> und <zustand>:
<xsd:complexType name="gastType">
<xsd:sequence>
<xsd:element name="getraenk" type="xsd:string" />
<xsd:element name="zustand" type="zustandType" />
</xsd:sequence>
</xsd:complexType>
Simple und komplexe Typen können andere Typen einschränken. Komplexe Typen können zusätzlich andere Typen erweitern. Beim Erweitern ist es möglich, mehrere Typen miteinander zu kombinieren, um einen neuen Typ mit Eigenschaften verschiedener Typen zu erschaffen.
Das vorige Beispiel kann nur einen kleinen Einblick in die Möglichkeiten von XML-Schemas geben. Eine umfangreiche Dokumentation ist unter der URL http://www.w3.org/XML/Schema vorhanden. Dort gibt es drei verschiedene Dokumentationen zum Schema:
Schema Part0 Primer: gut lesbares Tutorial mit vielen Beispielen
Schema Part1 Structures: genaue Beschreibung der Struktur einer Schema-Datei
Schema Part2 Datatypes: Beschreibung der Datentypen, die in XML-Schemas verwendet werden
Der erste Teil bietet eine grundlegende Einführung mit vielen Beispielen. Die beiden anderen Teile dienen als Referenzen für spezielle Fragestellungen.
8.2.4Namensraum (Namespace)
Das Konzept des Namensraums ist besonders wichtig, wenn
XML-Daten nicht nur lokal mit einer Anwendung benutzt werden,
Daten ausgetauscht oder
XML-Dateien kombiniert werden.
Eine Überschneidung der Namen der Tags, die in den einzelnen XML-Dateien verwendet werden, lässt sich nicht verhindern. Daher ist es möglich, einer XML-Datei einen Namensraum oder mehrere Namensräume zuzuordnen.
Der Namensraum ist eine Verknüpfung zwischen einem Präfix, das vor den Elementnamen steht, und einem URI. Ein Namensraum wird als Attribut an ein Element (typischerweise das Wurzelelement) gebunden und kann dann von allen Elementen verwendet werden. Das Attribut hat die Form:
Dem Element, das den Namensraum deklariert, wird ein Präfix vorangestellt. Es hat die Form:
Das Präfix ist ein frei wählbares Kürzel, das den Namensraum benennt. Dieses Kürzel wird dem Namen der Elemente, die zu diesem Namensraum gehören, vorangestellt. Der Name eines Elements des Namensraums Präfix hat die Form:
Angenommen, wir möchten für unsere Party das Namensraum-Präfix geburtstag verwenden. Der URI für diesen Namensraum ist http://www.geburtstag.de. Der Namensraum wird in dem Wurzelelement party deklariert. Das Präfix wird jedem Element zugeordnet:
geburtstag:datum="31.12.2012">
<geburtstag:gast geburtstag:name="Albert Angsthase">
</geburtstag:gast>
</geburtstag:party>
Eine weitere wichtige Anwendung von Namensräumen ist es, Tags bestimmter Technologien zu kennzeichnen. Für die XML-Technologien, etwa für Schemas, werden feste Namensräume vergeben.
[zB]Beispiel
Namensraumdefinition für ein XML-Schema:
Eine Anwendung, die XML-Dateien verarbeitet, kann anhand des Namensraums erkennen, welche Technologie verwendet wird. Dabei ist nicht das Präfix, sondern der URI für die Identifikation des Namensraums entscheidend. Für XML-Dateien, die eine Strukturbeschreibung in Form eines Schemas definieren, ist es üblich, das Präfix xsd zu verwenden. Es ist aber jedes andere Präfix möglich, wenn der URI auf die Adresse http://www.w3.org/2001/XMLSchema verweist. Diese Adresse muss nicht unbedingt existieren, und eine Anwendung kann auch nicht erwarten, dass sich hinter dieser Adresse eine konkrete HTML-Seite verbirgt. Der URI dient nur der Identifikation des Namensraums für eine XML-Datei.
8.2.5XML-Applikationen *
Eine XML-Applikation ist eine festgelegte Auswahl von XML-Elementen und einem Namensraum. XHTML ist eine XML-Applikation, bei der die XML-Elemente die HTML-Elemente zur Beschreibung von Webseiten sind. Durch die Beschränkung auf eine bestimmte Menge von Elementen ist es möglich, diese XML-Dateien für bestimmte Anwendungen zu nutzen. Der Namensraum legt fest, zu welcher Applikation die einzelnen XML-Elemente gehören. Dadurch können verschiedene XML-Applikationen miteinander kombiniert werden.
Eine bekannte XML-Applikation ist XHTML. Unterschiedliche DTDs beschreiben die Menge möglicher Tags. Für XHTML 1.0 sind es folgende:
XHTML1-strict.dtd: minimale Menge von HTML-Tags
XHTML1-transitional.dtd: die gängigsten HTML-Tags
XHTML1-frameset.dtd: HTML-Tags zur Beschreibung von Frames
Der Standard XHTML 1.1 geht noch einen Schritt weiter und bietet modulare DTDs an. Hier kann sehr genau differenziert werden, welche HTML-Tags für die eigene XML-Applikation gültig sind. Dadurch ist es sehr einfach möglich, XHTML-Elemente mit eigenen XML-Elementen zu kombinieren. Durch die Verwendung von Namensräumen können die XHTML- und die XML-Tags zur Datenbeschreibung unterschieden werden.