2.3 Die neuen Dateiformate
Nachdem Microsoft bereits mit Excel XP ein XML-basiertes Dateiformat als Zweitformat eingeführt hatte und in der Version Excel 2003 die XML-Unterstützung noch einmal deutlich ausgeweitet wurde, ist mit Excel 2007 die Reihenfolge nun umgestülpt worden. Die Dateiformate auf der Basis von XML stellen jetzt die Standardformate dar, die binäre Variante der Arbeitsmappe wird dagegen als Zweitformat angeboten. Damit trägt Microsoft der Tatsache Rechnung, dass sich XML-Dokumente inzwischen weltweit als plattformübergreifender Standard für die Datenspeicherung durchgesetzt haben.
Hinweise zur Sprachfamilie XML
XML, Kürzel für »extensible markup language«, ist heute als Standard für die Beschreibung von strukturierten Daten etabliert. Die vom World Wide Web Consortium (W3C) kontrollierte Sprache benutzt ähnlich wie HTML einfache Element-Tags und Attribute, die aber im Unterschied zu HTML nicht die Darstellung von Datenelementen festlegen, sondern nur ihre Bedeutung. Der Inhalt der Information wird dabei streng von ihrer Form getrennt. Die Formatierung für die Ausgabe von XML-Dokumenten in den verschiedenen Medien wird über separate Stylesheets geregelt.
Der Anwender kann die Bedeutung der Tags selbst festlegen oder vordefinierte Vokabulare nutzen, die für bestimmte Sachgebiete öffentlich angeboten werden. Die Sprache ist, wie das X im Namen ankündigt, von vornherein auf Erweiterbarkeit ausgelegt.
Wie HTML-Dokumente sind auch XML-Dokumente reine Textdateien. Da das Datenformat völlig unabhängig von der gewählten Plattform und der eingesetzten Anwendung ist, eignet es sich hervorragend für den Datenaustausch zwischen ungleichen Systemen und Anwendungen. Die Dokumente bestehen aus einer Hierarchie von Elementen, die immer von einem Wurzelelement ausgeht und sich deshalb als Baum darstellen lässt. Elemente können weitere Kindelemente oder Inhalte enthalten.
Ein XML-Dokument wird als wohlgeformt eingestuft, wenn es bestimmte formale Regeln einhält, insbesondere die, dass zu jedem Start-Tag ein genau passendes End-Tag existiert – was beispielsweise in HTML keineswegs immer der Fall ist und dort so toleriert wird. Wohlgeformte XML-Dokumente können von entsprechenden Parsern zusätzlich auf Gültigkeit geprüft werden, wenn Schemas definiert sind, die festlegen, welche Tags und Attribute wo und wie zum Einsatz kommen dürfen. (Mehr zum Thema XML finden Sie in: Helmut Vonhoegen, Einstieg in XML, Galileo Computing 2007.)
Die Tatsache, dass XML als Datenformat unabhängig von konkreten Anwendungen und Plattformen ist, eröffnet Excel eine beträchtliche Erweiterung seiner Einsatzmöglichkeiten. Durch die Unterstützung von XML wird das Programm zum Analysewerkzeug für Informationen beliebiger Herkunft und kann seine Ergebnisse wiederum an Anwendungen auf beliebigen Plattformen weiterreichen, die ebenfalls mit XML umgehen können.
Der neue Standard Open XML
Für die Kernprogramme seines Office-Pakets verwendet Microsoft mit der Version Office 2007 nun einheitlich XML-basierte Dateiformate: Excel, Word und PowerPoint.
Anders als noch in der Version Office 2003 kombiniert Microsoft allerdings nun die XML-Formate mit der inzwischen zu einem Quasi-Standard gewordenen ZIP-Technologie. Wird eine Arbeitsmappe erstellt, entsteht also ein ZIP-Archiv, auch wenn die Dateiendung .XLSX dies nicht auf den ersten Blick erkennen lässt.
Wenn Sie ein solches Archiv mit einem üblichen ZIP-Programm öffnen und den Inhalt in einen Ordner extrahieren, finden Sie eine mehrstufige Hierarchie von Komponenten, von denen nun die große Mehrzahl aus XML-Dokumenten besteht, die sich mit jedem Texteditor ansehen und bearbeiten lassen. Während noch in Excel 2003 das Zweitformat XML-Kalkulationstabelle ein einziges – allerdings meist ziemlich komplexes – XML-Dokument generierte, wird die Arbeitsmappe nun beim Abspeichern in eine Vielzahl von Komponenten zerlegt, die sich, da es sich hauptsächlich um reine Textdateien handelt, sehr gut komprimieren lassen, sodass im Endeffekt kleinere Dateigrößen möglich sind.
Microsoft trennt gleichzeitig Arbeitsmappen, die keine Makros enthalten, von solchen, die Makros enthalten. Im Normalfall enthält eine Arbeitsmappe keinen ausführbaren Code, sodass sie ohne Risiko per E-Mail oder innerhalb von Netzen ausgetauscht werden kann. Einer solchen Datei kann auch nicht nachträglich ein Makro zugefügt werden.
Arbeitsmappen, die Makros oder OLE-Objekte enthalten, werden mit einer eigenen Dateiendung geführt und können leicht identifiziert werden, um eventuell notwendige Sicherheitsmaßnahmen ergreifen zu können.
Das neue Dateiformat ist also im Kern ein Container-Format, bei dem festgelegt ist, in welchen Beziehungen die darin enthaltenen Komponenten stehen.
Vorteile der neuen Formate
Als einer der Vorteile dieses auf den ersten Blick kompliziert wirkenden Verfahrens wird angeführt, dass das Dokument auch dann noch verwendet werden kann, wenn einzelne Komponenten defekt sind, etwa durch Übertragungsfehler im Netz. Bei einer binären Datei führte ein solcher Fehler oft dazu, dass die Datei insgesamt nicht mehr geöffnet werden konnte.
Ein weiterer Vorteil ist, dass einzelne Komponenten, etwa ein eingefügtes Bild, ausgetauscht werden können, ohne auf Excel zurückgreifen zu müssen.
Dokumenteigenschaften wie der Name des Autors, Themen oder Stichwörter lassen sich ebenfalls »von außen« ändern, etwa durch eine kleine Batch-Anwendung, die in mehreren Dokumenten nach einem Namen sucht und ihn austauscht.
Die in den verschiedenen XML-Dateien verwendeten Schemas sind von Microsoft offen gelegt, die Beschreibung des Standards ist allerdings 6 000 Seiten stark, was es den Konkurrenten nicht gerade einfach macht. Die Spezifikation für die Formate und Schemas ist unter einer gebührenfreien Lizenz veröffentlicht, wie bereits die Microsoft Office 2003-Referenzschemas.
Struktur der Open XML-Formate
Eine Datei im neuen Format besteht aus einer beliebigen Anzahl von Komponenten, die über eine Auflistung zusammengehalten werden. Die Mehrzahl der Komponenten sind XML-Dateien, im Container können aber auch Nicht-XML-Komponenten vorhanden sein, etwa Binärdateien, die eingebettete Bilder oder OLE-Objekte darstellen. Es wird also darauf verzichtet, Bilder in XML zu codieren, was ja durchaus möglich wäre. Der Zusammenhang der einzelnen Komponenten wird durch spezielle Beziehungskomponenten festgelegt.
Durch die Zusammenfassung der Komponenten in einem ZIP-Container bleibt das Dokument für den Anwender eine einzelne Dateiinstanz, die er wie gewohnt speichern oder öffnen kann. Der komplexe Untergrund bleibt im Verborgenen.
Beziehungen zwischen den Komponenten in einem Dateicontainer in Excel 2007
Die Abbildung zeigt, in welche Komponenten eine Arbeitsmappe hauptsächlich zerlegt wird und wie diese miteinander zusammenhängen.
Excel 2007 erzeugt zwar eine vorgegebene Ordnerstruktur, die in der folgenden Abbildung für eine Beispielsdatei gezeigt wird. Diese Ordnerhierarchie ist aber nicht verpflichtend. Die Anordnung und auch die Namen der Komponenten können innerhalb des ZIP-Containers geändert werden, allerdings müssen dann auch die definierten Beziehungen entsprechend angepasst werden.
Für die verschiedenen Inhaltstypen werden jeweils Komponenten auf der Basis der zugehörigen XML-Schemas erzeugt.
Beispiel für die Ordner- und Dateienhierarchie in einem XSLX-Archiv
Die Abbildung zeigt einen _rels-Ordner, der eine .RELS-Datei enthält. In diesem XML-Dokument werden die Basisbeziehungen innerhalb des Pakets definiert. Die Komponenten werden dabei jeweils durch ID-Attribute eindeutig identifiziert. Das Beziehungssystem geht jeweils von einer Hauptkomponente aus und navigiert von dort zu den untergeordneten Komponenten. Die Beziehung verweist jeweils auf eine Zielkomponente, die über ein Target-Attribut angegeben wird. Die folgenden Zeilen verweisen beispielsweise auf ein Tabellenblatt und auf eine Liste mit Metadaten:
<Relationship ID="rId1" Type="http://schemas.microsoft.com/office/2005/8/relationships/ xlWorksheet" Target="worksheets/Sheet1.xml"/> <Relationship ID="rId5" Type="http://schemas.microsoft.com/office/2005/8/relationships/ xlMetadata" Target="metadata.xml"/>
Auffällig ist, dass die Beschriftungen einer Tabelle separat von den Zellwerten in den entsprechenden Spalten gespeichert werden. Die Beschriftungen sind in sharedStrings.xml zu finden.
<si> <t>Hardwarekosten für die Arbeitsgruppe</t> </si> <si> <t>Komponenten</t> </si> <si> <t>Anzahl</t> </si>
Die zugehörigen Daten finden Sie dagegen beispielsweise in sheets1.xml, also der Komponente für das erste Blatt in der Arbeitsmappe.
<row r="10" spans="1:6"> <c r="A10" t="s"> <v>19</v> </c> <c r="B10"> <v>1</v> </c> <c r="C10" t="s"> <v>20</v> </c> <c r="D10" t="s"> <v>21</v> </c> <c r="E10" s="2"> <v>200</v> </c> <c r="F10" s="3"> <f t="shared" si="0"/> <v>200</v> </c> </row>
Neue Dateierweiterungen
Excel 2007 verwendet als Standarddateiformat nun Dateien mit der Typenbezeichnung .XLSX. Die altbekannte Dateierweiterung wird also um ein X am Ende erweitert, um darauf hinzuweisen, dass es sich um ein XML-Dokument handelt. Enthält die Mappe Makros, wird die Endung .XLSM verwendet.
Sie haben zusätzlich die Möglichkeit, den aktuellen Zustand des Arbeitsbereichs mit den Informationen über die gerade gewählten Einstellungen und die geöffneten Arbeitsmappen in eine kleine Aufgabenbereichsdatei mit der Typenbezeichnung .XLW zu speichern. Durch Öffnen dieser Datei kann eine bestimmte Arbeitssituation komplett wiederhergestellt werden.
Für Mustervorlagen wird der Dateityp .XLTX verwendet. Mustervorlagen sind Dateien, die als Gestaltungsmuster für Tabellen, Diagramme oder Makrovorlagen dienen. Beispiele sind etwa Rechnungs- oder Bestellformulare.
Zusatzprogramme, das sind Add-Ins, die in Excel eingebunden werden können, haben den Dateityp .XLAM.
Es bleibt als Alternative aber auch die Möglichkeit, Arbeitsmappen wie bisher in einem binären Format zu speichern. In diesem Fall wird die Dateierweiterung .XLSB verwendet.
Konvertierung
Wird eine Arbeitsmappe geladen, die in einer älteren Dateiversion gespeichert ist, verwendet Excel 2007 den Kompatibilitätsmodus, was auch in der Titelleiste angezeigt wird. In diesem Modus sind die neueren Features von Excel 2007 automatisch deaktiviert und können auch nicht manuell aktiviert werden. Im Office-Menü wird dann der Befehl Konvertieren angeboten, der die Datei in das neue Format umwandelt und dabei die bisherige Datei löscht. Je nachdem, ob die Datei Makros enthält oder nicht, wird als Zielformat automatisch XLSM oder XLSX verwendet. Unter Umständen erhalten Sie Hinweise auf Genauigkeitsverluste, die bei der Konvertierung auftreten können.
Die Arbeitsmappe muss dann einmal geschlossen und erneut geöffnet werden, um mit dem neuen Format arbeiten zu können. Dies wird nach Abschluss der Konvertierung über ein Dialogfeld auch angeboten. (Aus Gründen der Vorsicht kann es allerdings sinnvoll sein, die Datei nicht auf der Stelle zu konvertieren, sondern sie zunächst unter einem anderen Namen im neuen Format zu speichern.)
Damit auch ältere Excel-Versionen die neuen Formate verarbeiten können, werden kostenlose Konvertierungsprogramme von Microsoft zum Download angeboten.
Ihre Meinung
Wie hat Ihnen das Openbook gefallen? Wir freuen uns immer über Ihre Rückmeldung. Schreiben Sie uns gerne Ihr Feedback als E-Mail an kommunikation@rheinwerk-verlag.de.