Rheinwerk Computing < openbook >

 
Inhaltsverzeichnis
1 Einleitung
2 Die Programmiersprache Python
Teil I Einstieg in Python
3 Erste Schritte im interaktiven Modus
4 Der Weg zum ersten Programm
5 Kontrollstrukturen
6 Dateien
7 Das Laufzeitmodell
8 Funktionen, Methoden und Attribute
9 Informationsquellen zu Python
Teil II Datentypen
10 Das Nichts – NoneType
11 Operatoren
12 Numerische Datentypen
13 Sequenzielle Datentypen
14 Zuordnungen
15 Mengen
16 Collections
17 Datum und Zeit
18 Aufzählungstypen – Enum
Teil III Fortgeschrittene Programmiertechniken
19 Funktionen
20 Modularisierung
21 Objektorientierung
22 Ausnahmebehandlung
23 Iteratoren
24 Kontextobjekte
25 Manipulation von Funktionen und Methoden
Teil IV Die Standardbibliothek
26 Mathematik
27 Kryptografie
28 Reguläre Ausdrücke
29 Schnittstelle zu Betriebssystem und Laufzeitumgebung
30 Kommandozeilenparameter
31 Dateisystem
32 Parallele Programmierung
33 Datenspeicherung
34 Netzwerkkommunikation
35 Debugging und Qualitätssicherung
36 Dokumentation
Teil V Weiterführende Themen
37 Anbindung an andere Programmiersprachen
38 Distribution von Python-Projekten
39 Grafische Benutzeroberflächen
40 Python als serverseitige Programmiersprache im WWW – ein Einstieg in Django
41 Wissenschaftliches Rechnen
42 Insiderwissen
43 Von Python 2 nach Python 3
A Anhang
Stichwortverzeichnis

Download:
- Beispielprogramme, ca. 464 KB

Jetzt Buch bestellen
Ihre Meinung?

Spacer
<< zurück
Python 3 von Johannes Ernesti, Peter Kaiser
Das umfassende Handbuch
Buch: Python 3

Python 3
Pfeil 28 Reguläre Ausdrücke
Pfeil 28.1 Syntax regulärer Ausdrücke
Pfeil 28.1.1 Beliebige Zeichen
Pfeil 28.1.2 Zeichenklassen
Pfeil 28.1.3 Quantoren
Pfeil 28.1.4 Vordefinierte Zeichenklassen
Pfeil 28.1.5 Weitere Sonderzeichen
Pfeil 28.1.6 Genügsame Quantoren
Pfeil 28.1.7 Gruppen
Pfeil 28.1.8 Alternativen
Pfeil 28.1.9 Extensions
Pfeil 28.2 Verwendung des Moduls
Pfeil 28.2.1 Searching
Pfeil 28.2.2 Matching
Pfeil 28.2.3 Einen String aufspalten
Pfeil 28.2.4 Teile eines Strings ersetzen
Pfeil 28.2.5 Problematische Zeichen ersetzen
Pfeil 28.2.6 Einen regulären Ausdruck kompilieren
Pfeil 28.2.7 Flags
Pfeil 28.2.8 Das Match-Objekt
Pfeil 28.3 Ein einfaches Beispielprogramm – Searching
Pfeil 28.4 Ein komplexeres Beispielprogramm – Matching
 
Zum Seitenanfang

28.4    Ein komplexeres Beispielprogramm – Matching Zur vorigen ÜberschriftZur nächsten Überschrift

Es ist besonders im Web ein häufiges Problem, eingegebene Formulardaten zu validieren und die wichtigen Informationen aus den Eingaben herauszufiltern. Dies ist selbstverständlich auch mit normalen String-Operationen möglich, doch lässt sich dieses Problem mithilfe regulärer Ausdrücke elegant und mit verhältnismäßig wenig Code lösen.

Unser Beispielprogramm soll aus einer Art elektronischer Visitenkarte alle relevanten Informationen auslesen und maschinenlesbar aufbereiten. Die Visitenkarte ist in einer Textdatei in folgendem Format gespeichert:

Name: Max Mustermann
Adr: Musterstr 123
12345 Musterhausen
Tel: +49 1234 56789

Das Programm soll nun diese Textdatei einlesen, die enthaltenen Informationen extrahieren und zu einem solchen Dictionary aufbereiten:

{
'Tel': ('+49', '1234', '56789'),
'Name': ('Max', 'Mustermann'),
'Adr': ('Musterstr', '123', '12345', 'Musterhausen')
}

In der Textdatei steht dabei immer nur ein Datensatz.

Zunächst gehen wir detaillierter auf die Funktionsweise des Beispielprogramms ein. Die Visitenkarte besteht aus verschiedenen Informationen, denen immer eine Überschrift bzw. Kategorie gegeben wurde (»Name«, »Adr« und »Tel«). Die Kategorie von der Information zu trennen, ist keine komplizierte Angelegenheit, da der Doppelpunkt innerhalb der Kategorienamen nicht vorkommt und somit das erste Auftreten eines Doppelpunktes in einer Zeile stets den Übergang zwischen Kategorie und Information markiert. Ein Problem ist die dritte Zeile, da hier keine explizite Überschrift gegeben ist. In einem solchen Fall wird die Zeile an die Information der vorherigen Überschrift angehängt. Auf diese Weise lässt sich ein Dictionary erzeugen, das die Überschriften auf die jeweiligen Informationen abbildet.

Kommen wir zur Implementierung. Dazu schreiben wir zunächst eine Funktion, die die Daten zeilenweise einliest und zu einem Dictionary aufbereitet:

def leseDatei(datei):
d = {}
f = open(datei)
for zeile in f:
if ":" in zeile:
key, d[key] = (s.strip() for s in zeile.split(":",1))
elif "key" in locals():
d[key] += "\n{}".format(zeile.strip())
f.close()
return d

Die Funktion leseDatei bekommt den String datei mit einer Pfadangabe übergeben. Innerhalb der Funktion wird die Datei zeilenweise eingelesen. Jede Zeile wird anhand des ersten Doppelpunktes in die beiden Teile »Kategorie« und »Information« aufgeteilt und, durch Einsatz der Methode strip, von überflüssigen Leerzeichen befreit. Danach werden Überschrift und Information in das Dictionary d geschrieben, und die jeweils aktuelle Überschrift wird zusätzlich durch key referenziert.

Wenn in einer Zeile kein Doppelpunkt vorkommt, wurde die Information auf mehrere Zeilen umbrochen. Das bedeutet für uns, dass wir zunächst auch die Methode strip auf den kompletten Zeileninhalt anwenden und sie dann unter der Überschrift key an den bereits bestehenden Wert im Dictionary anhängen. Zu diesem Zweck muss die Referenz key selbstverständlich existieren. Da diese erst innerhalb der if‐Anweisung angelegt wird, wird vorausgesetzt, dass eine Zeile mit Doppelpunkt vor einer Zeile ohne Doppelpunkt kommen muss. Obwohl es keine sinnvolle Datei gibt, in der das nicht gilt, überprüfen wir im elif-Zweig explizit, ob die Referenz key existiert.

Das Resultat dieser Funktion ist ein Dictionary mit den Überschriften als Schlüsseln und den dazugehörigen Informationen (in Form von Strings) als Werten. Die zweite Funktion des Beispiels analysiert die Daten mithilfe regulärer Ausdrücke und legt sie dann als Tupel im Dictionary ab. Dazu erzeugen wir zunächst ein Dictionary namens regexp, das für jede Überschrift einen regulären Ausdruck bereitstellt, der verwendet werden kann, um die Information zu validieren:

regexp = {
"Name" : r"([A-Za-z]+)\s([A-Za-z]+)",
"Adr" : r"([A-Za-z]+)\s(\d+)\s*(\d{5})\s([A-Za-z]+)",
"Tel" : r"(\+\d{2})\s(\d{4})\s(\d{3,})"
}

Diese regulären Ausdrücke verfügen über mehrere Gruppen, um das Aufteilen der Information in die verschiedenen Einzelinformationen zu erleichtern.

Die Funktion, mit der die Daten analysiert werden, sieht folgendermaßen aus:

def analysiereDaten(daten, regexp):
for key in daten:
if key not in regexp:
return False
m = re.match(regexp[key], daten[key])
if not m:
return False
daten[key] = m.groups()
return True

Die Funktion analysiereDaten bekommt zwei Dictionarys als Parameter übergeben: zum einen das soeben erstellte Dictionary regexp und zum anderen das Dictionary, das von der Funktion leseDatei erstellt wurde und die eingelesenen Daten enthält.

Die Funktion iteriert in einer for-Schleife über das Dictionary daten und wendet, jeweils passend zur aktuellen Überschrift, mithilfe der Funktion re.match den regulären Ausdruck auf den eingelesenen String an. Das zurückgegebene Match-Objekt wird durch m referenziert.

Im Folgenden wird getestet, ob re.match den Wert None zurückgegeben hat. Ist das der Fall, gibt die Funktion analysiereDaten ihrerseits False zurück. Andernfalls wird der aktuelle Wert des Dictionarys daten mit den Teil-Strings überschrieben, die auf die einzelnen Gruppen der regulären Ausdrücke gepasst haben. Die Methode group des Match-Objekts gibt ein Tupel von Strings zurück. Nach dem Durchlaufen der Funktion analysiereDaten enthält das Dictionary die gewünschten Daten in aufbereiteter Form.

Zu guter Letzt fehlt noch der Code, der den Anstoß zum Einlesen und Aufbereiten der Daten gibt:

daten = leseDatei("id.txt")
if analysiereDaten(daten, regexp):
print(daten)
else:
print("Die Angaben sind fehlerhaft")

Je nachdem, welchen Wahrheitswert die Funktion analysiereDaten zurückgegeben hat, werden die aufbereiteten Daten oder eine Fehlermeldung ausgegeben.

Hoffentlich haben Ihnen die beiden Beispiele geholfen, einen praxisbezogenen Einstieg in die Welt der regulären Ausdrücke zu finden. Bleibt noch zu sagen, dass das vorgestellte Programm zwar funktioniert, aber nicht perfekt ist. Fühlen Sie sich dazu ermutigt, es zu erweitern oder anzupassen. So erlauben die regulären Ausdrücke etwa noch keine Umlaute oder Interpunktionszeichen im Straßennamen. Sie könnten beispielsweise auch Visitenkarte und Programm um die Angabe einer E-Mail-Adresse erweitern.

 


Ihre Meinung

Wie hat Ihnen das Openbook gefallen? Wir freuen uns immer über Ihre Rückmeldung. Schreiben Sie uns gerne Ihr Feedback als E-Mail an kommunikation@rheinwerk-verlag.de.

<< zurück
 Zum Rheinwerk-Shop
Zum Rheinwerk-Shop: Python 3 Python 3
Jetzt Buch bestellen

 Buchempfehlungen
Zum Rheinwerk-Shop: Einstieg in Python
Einstieg in Python


Zum Rheinwerk-Shop: Python. Der Grundkurs
Python. Der Grundkurs


Zum Rheinwerk-Shop: Algorithmen mit Python
Algorithmen mit Python


Zum Rheinwerk-Shop: Objektorientierte Programmierung
Objektorientierte Programmierung


Zum Rheinwerk-Shop: Raspberry Pi. Das umfassende Handbuch
Raspberry Pi. Das umfassende Handbuch


Zum Rheinwerk-Shop: Roboter-Autos mit dem Raspberry Pi
Roboter-Autos mit dem Raspberry Pi


Zum Rheinwerk-Shop: Neuronale Netze programmieren mit Python
Neuronale Netze programmieren mit Python


 Lieferung
Versandkostenfrei bestellen in Deutschland, Österreich und der Schweiz
InfoInfo

 
 


Copyright © Rheinwerk Verlag GmbH 2020
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das Openbook denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt.
Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

 
[Rheinwerk Computing]

Rheinwerk Verlag GmbH, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, service@rheinwerk-verlag.de

Cookie-Einstellungen ändern