7.9Prüfsummen
Damit Fehler bei Dateien oder bei Übertragungen von Daten auffallen, werden vor der Übertragung Prüfsummen (engl. checksums) gebildet und mit dem Paket versendet. Der Empfänger berechnet diese Prüfsumme neu und vergleicht sie mit dem übertragenen Wert. Stimmt der berechnete Wert mit dem übertragenen überein, so war die Übertragung höchstwahrscheinlich in Ordnung. Es sollte ziemlich unwahrscheinlich sein, dass eine Änderung einzelner Bits nicht auffällt.
Prüfsummen erkennen auch beschädigte Archive. Pro Datei wird eine Prüfsumme berechnet. Soll die Datei entpackt werden, so errechnen wir wieder die Summe. Ist diese fehlerhaft, muss auch die Datei fehlerhaft sein (wir wollen hier ausschließen, dass zufälligerweise die Prüfsumme fehlerhaft ist, was natürlich ebenfalls der Fall sein kann).
7.9.1Die Schnittstelle Checksum
Wir finden Zugang zur Prüfsummenberechnung über die Schnittstelle java.util.zip.Checksum, die für ganz allgemeine Prüfsummen steht. Eine Prüfsumme wird entweder für ein Feld oder ein Byte berechnet. Checksum liefert die Schnittstelle zum Initialisieren und Auslesen von Prüfsummen, die die konkreten Prüfsummen-Klassen implementieren müssen.
long getValue()
Liefert die aktuelle Prüfsumme.void reset()
Setzt die aktuelle Prüfsumme auf einen Anfangswert.void update(int b)
Aktualisiert die aktuelle Prüfsumme mit b.void update(byte[] b, int off, int len)
Aktualisiert die aktuelle Prüfsumme mit dem Feld.
Die Standardbibliothek bietet bisher zwei Klassen für die Prüfsummenberechnung als Implementierungen von Checksum:
java.util.zip.CRC32: CRC-32 basiert auf einer zyklischen Redundanzprüfung und testet etwa ZIP-Archive oder PNG-Grafiken.
java.util.zip.Adler32: Die Berechnung von CRC-32-Prüfsummen kostet – obwohl sie in C programmiert ist – viel Zeit. Eine Adler-32-Prüfsumme kann wesentlich schneller berechnet werden und bietet eine ebenso geringe Wahrscheinlichkeit, dass Fehler unentdeckt bleiben.
Abbildung 7.14UML-Diagramm der Prüfsummenklassen Adler32 und CRC32
7.9.2Die Klasse CRC32
Oft sind Polynome die Basis der Prüfsummenberechnung. Eine häufig für Dateien verwendete Prüfsumme ist CRC-32, und das bildende Polynom lautet:
x32 + x26 + x23 + x22 + x16 + x12 + x11 + x10 + x8 + x7 + x5 + x4 + x2 + x + 1
Nun lässt sich zu einer 32-Bit-Zahl eine Prüfsumme berechnen, die genau für diese 4 Byte steht. Damit bekommen wir aber noch keinen ganzen Block kodiert. Um das zu erreichen, berechnen wir den Wert eines Zeichens und XOR-verknüpfen den alten CRC-Wert mit dem neuen. Jetzt lassen sich beliebig Blöcke sichern. Die Berechnung ist insgesamt sehr zeitaufwändig, und Adler-32 stellt eine schnellere Alternative dar.
[zB]Beispiel
Die Klasse CRC32 berechnet eine Prüfsumme über alle durchlaufenden Bytes, die gereicht werden als einzelne Bytes oder Felder. In aller Kürze sieht ein Programm zur Berechnung von Prüfsummen für ein paar Eingaben folgendermaßen aus:
crc.update( 1 );
crc.update( new byte[]{ 2, 3, 4, 5, 6, 7 } );
System.out.println( crc.getValue() ); // 1894017160
CRC32 implementiert nicht nur alle Methoden, sondern fügt noch zwei Methoden und natürlich einen Konstruktor hinzu:
implements Checksum
CRC32()
Erzeugt ein neues CRC32-Objekt mit der Start-Prüfsumme 0.long getValue()
Liefert den CRC32-Wert.void reset()
Setzt die interne Prüfsumme auf 0.void update(byte[] b)
Aktualisiert die Prüfsumme mit dem Feld durch Aufruf von update(b, 0, b.length).void update(int b)
Implementiert update(int) aus Checksum für ein Byte. Nativ implementiert.void update(byte[] b, int off, int len)
Implementiert update(byte[], int, int) aus Checksum für ein Feld. Nativ implementiert.void update(ByteBuffer buffer)
Aktualisiert die Prüfsumme mit den Bytes des NIO-ByteBuffer. Neu in Java 8.
CRC eines Datenstroms berechnen
Eine Möglichkeit, die CRC32 eines Datenstroms zu berechnen, bestünde darin, einen Datenstrom entgegenzunehmen und anschließend so lange Byte-Folgen auszulesen, bis available() null liefert. An diesem Punkt lässt sich mit update(…) jeweils die Prüfsumme korrigieren. Bei großen Dateien ist es sicherlich angebracht, Blöcke einzulesen, die crc.update(byte[]) verarbeitet. Für diese Aufgabe verfügt die Java-Bibliothek über zwei Filterklassen: CheckedInputStream und CheckedOutputStream. Beide sind Filter, die existierende andere Streams ummanteln und gleichzeitig die Berechnung erledigen:
Listing 7.29com/tutego/insel/io/CRC32Demo.java, main()
try ( InputStream in = CRC32Demo.class.getResourceAsStream( "/lyrics.txt" );
InputStream cis = new CheckedInputStream( in, crc );
InputStream bis = new BufferedInputStream( cis ) ) {
while ( cis.read() != -1 ) { /* Bis zum Ende */ }
System.out.printf( "%08X", crc.getValue() ); // F9A39CFC
}
catch ( IOException e ) {
e.printStackTrace();
}
7.9.3Die Adler32-Klasse
Der Algorithmus Adler-32 ist nach seinem Programmierer Mark Adler benannt und im RFC 1950 beschrieben. Die Adler-32-Prüfsumme gilt für 32-Bit-Zahlen und setzt sich aus zwei Summen für ein Byte zusammen. s1 ist die Summe aller Bytes und s2 die Summe aller s1. Beide Werte werden Modulo 65521 genommen. Am Anfang ist s1 = 1 und s2 = 0. Die Prüfsumme speichert den Wert als s2 * 65536 + s1 in der MSB-Reihenfolge (most significant byte first, Netzwerkreihenfolge).
implements Checksum
Adler32()
Erzeugt ein neues Adler32-Objekt mit der Start-Prüfsumme 1.long getValue()
Liefert den Adler32-Wert.void reset()
Setzt die interne Prüfsumme auf 1.
Aus der Schnittstelle Checksum implementiert Adler32 natürlich auch die update(…)-Methoden und seit Java 8 update(ByteBuffer buffer).