Rheinwerk Computing < openbook >

 
Inhaltsverzeichnis
1 Einleitung
2 Die Programmiersprache Python
Teil I Einstieg in Python
3 Erste Schritte im interaktiven Modus
4 Der Weg zum ersten Programm
5 Kontrollstrukturen
6 Dateien
7 Das Laufzeitmodell
8 Funktionen, Methoden und Attribute
9 Informationsquellen zu Python
Teil II Datentypen
10 Das Nichts – NoneType
11 Operatoren
12 Numerische Datentypen
13 Sequenzielle Datentypen
14 Zuordnungen
15 Mengen
16 Collections
17 Datum und Zeit
18 Aufzählungstypen – Enum
Teil III Fortgeschrittene Programmiertechniken
19 Funktionen
20 Modularisierung
21 Objektorientierung
22 Ausnahmebehandlung
23 Iteratoren
24 Kontextobjekte
25 Manipulation von Funktionen und Methoden
Teil IV Die Standardbibliothek
26 Mathematik
27 Kryptografie
28 Reguläre Ausdrücke
29 Schnittstelle zu Betriebssystem und Laufzeitumgebung
30 Kommandozeilenparameter
31 Dateisystem
32 Parallele Programmierung
33 Datenspeicherung
34 Netzwerkkommunikation
35 Debugging und Qualitätssicherung
36 Dokumentation
Teil V Weiterführende Themen
37 Anbindung an andere Programmiersprachen
38 Distribution von Python-Projekten
39 Grafische Benutzeroberflächen
40 Python als serverseitige Programmiersprache im WWW – ein Einstieg in Django
41 Wissenschaftliches Rechnen
42 Insiderwissen
43 Von Python 2 nach Python 3
A Anhang
Stichwortverzeichnis

Download:
- Beispielprogramme, ca. 464 KB

Jetzt Buch bestellen
Ihre Meinung?

Spacer
<< zurück
Python 3 von Johannes Ernesti, Peter Kaiser
Das umfassende Handbuch
Buch: Python 3

Python 3
Pfeil 28 Reguläre Ausdrücke
Pfeil 28.1 Syntax regulärer Ausdrücke
Pfeil 28.1.1 Beliebige Zeichen
Pfeil 28.1.2 Zeichenklassen
Pfeil 28.1.3 Quantoren
Pfeil 28.1.4 Vordefinierte Zeichenklassen
Pfeil 28.1.5 Weitere Sonderzeichen
Pfeil 28.1.6 Genügsame Quantoren
Pfeil 28.1.7 Gruppen
Pfeil 28.1.8 Alternativen
Pfeil 28.1.9 Extensions
Pfeil 28.2 Verwendung des Moduls
Pfeil 28.2.1 Searching
Pfeil 28.2.2 Matching
Pfeil 28.2.3 Einen String aufspalten
Pfeil 28.2.4 Teile eines Strings ersetzen
Pfeil 28.2.5 Problematische Zeichen ersetzen
Pfeil 28.2.6 Einen regulären Ausdruck kompilieren
Pfeil 28.2.7 Flags
Pfeil 28.2.8 Das Match-Objekt
Pfeil 28.3 Ein einfaches Beispielprogramm – Searching
Pfeil 28.4 Ein komplexeres Beispielprogramm – Matching
 
Zum Seitenanfang

28.3    Ein einfaches Beispielprogramm – Searching Zur vorigen ÜberschriftZur nächsten Überschrift

Bisher wurden die Syntax regulärer Ausdrücke und deren Verwendung durch das Modul re der Standardbibliothek besprochen. Wir möchten Ihnen an dieser Stelle noch zwei kleine Beispielprojekte vorstellen, bei denen die Anwendung regulärer Ausdrücke im Mittelpunkt steht. Zunächst erklären wir in diesem einfach gehaltenen Beispiel das Searching und im nächsten, etwas komplexeren Beispiel das Matching.

Mithilfe des Searchings werden Muster innerhalb eines längeren Textes gefunden und herausgefiltert. In unserem Beispielprogramm soll das Searching dazu dienen, alle Links aus einer beliebigen HTML-Datei mitsamt Beschreibung herauszulesen. Dazu müssen wir uns zunächst den Aufbau eines HTML-Links vergegenwärtigen:

<a href="URL">Beschreibung</a>

Dazu ist zu sagen, dass HTML nicht zwischen Groß- und Kleinschreibung unterscheidet, wir den regulären Ausdruck also mit dem IGNORECASE-Flag verwenden sollten. Darüber hinaus handelt es sich bei dem oben dargestellten Beispiel um die einfachste Form eines HTML-Links, denn neben der URL und der Beschreibung können weitere Angaben gemacht werden.

Der folgende reguläre Ausdruck passt sowohl auf den oben beschriebenen als auch auf weitere, komplexere HTML-Links:

r"<a.*?href=[\"\'](.*?)[\"\'].*?>(.*?)</a>"

Der reguläre Ausdruck enthält zwei Gruppen, jeweils für die URL und die Beschreibung, sodass diese beiden Angaben später ausgelesen werden können. Innerhalb dieser Gruppen werden »genügsame« Quantoren eingesetzt, da sonst mehrere Links fälschlicherweise zu einem zusammengefasst werden könnten.

Doch nun zum Beispielprogramm:

import re
f = open("test.html", "r")
html = f.read()
f.close()
it = re.finditer(r"<a .*?href=[\"\'](.*?)[\"\'].*?>(.*?)</a>", html, re.I)
for m in it:
print("Name: {}, Link: {}".format(m.group(2), m.group(1)))

Zunächst wird eine HTML-Datei, in diesem Fall test.html, geöffnet und mithilfe der Methode read des Dateiobjekts ausgelesen. Danach wird die Funktion finditer des Moduls re aufgerufen, um alle Übereinstimmungen mit dem vorhin besprochenen regulären Ausdruck im HTML-Code zu finden. Das Ergebnis wird als Iterator zurückgegeben und von it referenziert.

Schließlich wird über it iteriert, wobei in jedem Iterationsschritt die aktuelle Übereinstimmung als Match-Objekt m verfügbar ist. Jetzt werden noch die Teil-Strings ausgegeben, die auf die beiden Gruppen des regulären Ausdrucks gepasst haben.

Sie können das Programm mit beliebigen HTML-Seiten testen. Besuchen Sie dazu im Internet eine möglichst komplexe Website, beispielsweise die eines Nachrichtenmagazins, und speichern Sie diese als HTML-Datei ab. Sie werden sehen, dass das Beispielprogramm auch hier die enthaltenen Links findet.

[»]  Hinweis

Dieses Beispiel demonstriert die Arbeit mit regulären Ausdrücken. Allerdings sollten Sie in der Praxis HTML-Dateien aufgrund ihrer Komplexität nicht mit regulären Ausdrücken verarbeiten, sondern stattdessen auf einen HTML-Parser zurückgreifen.

 


Ihre Meinung

Wie hat Ihnen das Openbook gefallen? Wir freuen uns immer über Ihre Rückmeldung. Schreiben Sie uns gerne Ihr Feedback als E-Mail an kommunikation@rheinwerk-verlag.de.

<< zurück
 Zum Rheinwerk-Shop
Zum Rheinwerk-Shop: Python 3 Python 3
Jetzt Buch bestellen

 Buchempfehlungen
Zum Rheinwerk-Shop: Einstieg in Python
Einstieg in Python


Zum Rheinwerk-Shop: Python. Der Grundkurs
Python. Der Grundkurs


Zum Rheinwerk-Shop: Algorithmen mit Python
Algorithmen mit Python


Zum Rheinwerk-Shop: Objektorientierte Programmierung
Objektorientierte Programmierung


Zum Rheinwerk-Shop: Raspberry Pi. Das umfassende Handbuch
Raspberry Pi. Das umfassende Handbuch


Zum Rheinwerk-Shop: Roboter-Autos mit dem Raspberry Pi
Roboter-Autos mit dem Raspberry Pi


Zum Rheinwerk-Shop: Neuronale Netze programmieren mit Python
Neuronale Netze programmieren mit Python


 Lieferung
Versandkostenfrei bestellen in Deutschland, Österreich und der Schweiz
InfoInfo

 
 


Copyright © Rheinwerk Verlag GmbH 2020
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das Openbook denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt.
Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

 
[Rheinwerk Computing]

Rheinwerk Verlag GmbH, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, service@rheinwerk-verlag.de

Cookie-Einstellungen ändern