7.7Vermittler zwischen Byte-Streams und Unicode-Strömen
Dateien bestehen immer aus Bytes, also Sammlungen von 8-Bit-Werten. Zeichen dagegen bestehen in der Regel aus 16-Bit-Unicode-Werten. Daraus ist abzuleiten, dass es eine Konvertierung geben muss von einer byteweisen Speicherung und einer zeichenbasierten Java-Repräsentation. Im Mittelpunkt stehen zwei Kassen: InputStreamReader und OutputStreamWriter:
Beliebiger Writer schreibt Zeichen in OutputStreamWriter, der konvertiert in Bytes und schreibt in OutputStream.
Beliebiger Reader liest Zeichen aus InputStreamReader, der liest aus InputStream und konvertiert von Bytes.
Die Angabe der Zeichenkodierung erfolgt über einen String, über ein Charset oder über einen CharsetEncoder. Für ein Charset stehen Konstanten in StandardCharsets bereit.
7.7.1Datenkonvertierung durch den OutputStreamWriter
Die Klasse OutputStreamWriter ist sehr interessant, da sie Konvertierungen der Zeichen nach einer Zeichenkodierung vornimmt. So wird sie, unterstützt durch die einzige Unterklasse FileWriter, für Ausgaben in Dateien noch wichtiger. Jeder OutputStreamWriter konvertiert auf diese Weise Zeichenströme von einer Zeichenkodierung (etwa EBCDIC) in die andere (etwa Latin-1). Die Zeichenkodierung kann im Konstruktor eines OutputStreamWriter-Objekts angegeben werden. Ohne Angabe ist es der Standardkonvertierer, der in den Systemeigenschaften unter dem Schlüssel file.encoding geschrieben ist. Die Kodierung der Zeichen nimmt ein StreamEncoder im Paket sun.nio.cs vor.
extends Writer
OutputStreamWriter(OutputStream out)
Erzeugt einen OutputStreamWriter, der die Standardkodierung zur Umwandlung von Bytes in Zeichen verwendet.OutputStreamWriter(OutputStream out, Charset cs)
OutputStreamWriter(OutputStream out, CharsetEncoder enc)
Erzeugt einen OutputStreamWriter mit einem Charset oder einem CharsetEncoder.OutputStreamWriter(OutputStream out, String enc)
Erzeugt einen OutputStreamWriter mit der vorgegebenen Kodierung.void close()
Schließt den Datenstrom.void flush()
Schreibt den gepufferten Strom.String getEncoding()
Liefert die Kodierung des Datenstroms als String.void write(char[] cbuf, int off, int len)
Schreibt Zeichen des Feldes.void write(int c)
Schreibt ein einzelnes Zeichen.void write(String str, int off, int len)
Schreibt den Teil eines Strings.
FileWriter, OutputStreamWriter und FileOutputStream
OutputStreamWriter ist die Basisklasse für die konkrete Klasse FileWriter und ist für die Konvertierung der Zeichen in Bytefolgen verantwortlich. Die Konstruktoren bauen ein FileOutputStream-Objekt auf und füttern damit den Konstruktor von OutputStreamWriter. Die write(…)-Methoden vom OutputStreamWriter konvertieren die Zeichen in Bytes, die letztendlich der FileOutputStream schreibt:
Listing 7.24java/io/FileWriter.java, Ausschnitt
public FileWriter(String fileName) throws IOException {
super(new FileOutputStream(fileName));
}
public FileWriter(String fileName, boolean append)
throws IOException {
super(new FileOutputStream(fileName, append));
}
…
}
7.7.2Automatische Konvertierungen mit dem InputStreamReader
Die konkrete Klasse InputStreamReader nimmt eine Konvertierung zwischen Byte- und Zeichen-Streams vor. Sie arbeitet wie ein OutputStreamWriter und konvertiert die Daten mithilfe eines sun.nio.cs.StreamDecoder.
extends Reader
InputStreamReader(InputStream in)
Erzeugt einen InputStreamReader mit der Standardkodierung.InputStreamReader(InputStream in, String enc)
throws UnsupportedEncodingException
Erzeugt einen InputStreamReader, der die angegebene Zeichenkodierung anwendet.String getEncoding()
Liefert einen String mit dem Namen der Kodierung zurück. Der Name ist kanonisch und kann sich daher von dem String unterscheiden, der im Konstruktor übergeben wurde.int read() throws IOException
Liest ein einzelnes Zeichen oder gibt –1 zurück, falls der Stream am Ende ist.int read(char[] cbuf, int off, int len) throws IOException
Liest Zeichen in einen Teil eines Feldes.boolean ready() throws IOException
Kann vom Stream gelesen werden. Ein InputStreamReader ist bereit, wenn der Eingabepuffer nicht leer ist oder Bytes des darunter befindlichen InputStreams anliegen.
Wie wir an dieser Stelle bemerken, unterstützt ein reiner InputStream kein mark() und reset(). Da FileReader die einzige Klasse in der Java-Bibliothek ist, die einen InputStreamReader erweitert, und da diese Klasse ebenfalls kein mark(int) bzw. reset() unterstützt, lässt sich sagen, dass kein InputStreamReader der Standardbibliothek Positionsmarkierungen erlaubt.
Vergleich Reader und InputStream *
Wir erinnern uns, dass Java standardmäßig 16-Bit-Unicode-Zeichen verwendet, aber viele Computersysteme nur mit 8-Bit-ASCII-Zeichen arbeiten. Wenn wir also ein einzelnes Zeichen lesen, muss die passende Konvertierung in das richtige Zeichenformat gesichert sein. Der einfachste Weg besteht darin, ein Zeichen zu lesen und es in ein char – allerdings ohne Konvertierung – zu casten, beispielsweise wie folgt:
DataInputStream dis = new DataInputStream( fis ) ) {
char c = (char) dis.readByte();
}
Da die Lösung keine Konvertierung durchführt, ist dieser Weg nicht so gut. Empfehlenswert ist die Verwendung eines InputStreamReader, der die 8 Bit in ein Unicode-Zeichen portiert. Der InputStreamReader ist ein Adapter, der aus einem Byte lesenden InputStream einen Unicode-Zeichen gebenden Reader macht:
Reader isr = new InputStreamReader( fis ) ) {
char c = (char) isr.read();
}
In der Regel es ratsam, die Konvertierung explizit zu dokumentieren, also zu schreiben:
Die Klasse FileReader ist eine Unterklasse von InputStreamReader, die direkt eine Datei öffnet und den FileInputStream für uns anlegt. Allerdings lässt sich die Konvertierung nicht angeben, sodass FileReader keine so gute Wahl ist.