Rheinwerk Computing :: Python 3 - Reguläre Ausdrücke

28.3 Ein einfaches Beispielprogramm – Searching

Bisher wurden die Syntax regulärer Ausdrücke und deren Verwendung durch das Modul re der Standardbibliothek besprochen. Wir möchten Ihnen an dieser Stelle noch zwei kleine Beispielprojekte vorstellen, bei denen die Anwendung regulärer Ausdrücke im Mittelpunkt steht. Zunächst erklären wir in diesem einfach gehaltenen Beispiel das Searching und im nächsten, etwas komplexeren Beispiel das Matching.

Mithilfe des Searchings werden Muster innerhalb eines längeren Textes gefunden und herausgefiltert. In unserem Beispielprogramm soll das Searching dazu dienen, alle Links aus einer beliebigen HTML-Datei mitsamt Beschreibung herauszulesen. Dazu müssen wir uns zunächst den Aufbau eines HTML-Links vergegenwärtigen:

<a href="URL">Beschreibung</a>

Dazu ist zu sagen, dass HTML nicht zwischen Groß- und Kleinschreibung unterscheidet, wir den regulären Ausdruck also mit dem IGNORECASE-Flag verwenden sollten. Darüber hinaus handelt es sich bei dem oben dargestellten Beispiel um die einfachste Form eines HTML-Links, denn neben der URL und der Beschreibung können weitere Angaben gemacht werden.

Der folgende reguläre Ausdruck passt sowohl auf den oben beschriebenen als auch auf weitere, komplexere HTML-Links:

r"<a.*?href=[\"\'](.*?)[\"\'].*?>(.*?)</a>"

Der reguläre Ausdruck enthält zwei Gruppen, jeweils für die URL und die Beschreibung, sodass diese beiden Angaben später ausgelesen werden können. Innerhalb dieser Gruppen werden »genügsame« Quantoren eingesetzt, da sonst mehrere Links fälschlicherweise zu einem zusammengefasst werden könnten.

Doch nun zum Beispielprogramm:

import re
f = open("test.html", "r")
html = f.read()
f.close()
it = re.finditer(r"<a .*?href=[\"\'](.*?)[\"\'].*?>(.*?)</a>", html, re.I)
for m in it:
    print("Name: {}, Link: {}".format(m.group(2), m.group(1)))

Zunächst wird eine HTML-Datei, in diesem Fall test.html, geöffnet und mithilfe der Methode read des Dateiobjekts ausgelesen. Danach wird die Funktion finditer des Moduls re aufgerufen, um alle Übereinstimmungen mit dem vorhin besprochenen regulären Ausdruck im HTML-Code zu finden. Das Ergebnis wird als Iterator zurückgegeben und von it referenziert.

Schließlich wird über it iteriert, wobei in jedem Iterationsschritt die aktuelle Übereinstimmung als Match-Objekt m verfügbar ist. Jetzt werden noch die Teil-Strings ausgegeben, die auf die beiden Gruppen des regulären Ausdrucks gepasst haben.

Sie können das Programm mit beliebigen HTML-Seiten testen. Besuchen Sie dazu im Internet eine möglichst komplexe Website, beispielsweise die eines Nachrichtenmagazins, und speichern Sie diese als HTML-Datei ab. Sie werden sehen, dass das Beispielprogramm auch hier die enthaltenen Links findet.

[»] Hinweis

Dieses Beispiel demonstriert die Arbeit mit regulären Ausdrücken. Allerdings sollten Sie in der Praxis HTML-Dateien aufgrund ihrer Komplexität nicht mit regulären Ausdrücken verarbeiten, sondern stattdessen auf einen HTML-Parser zurückgreifen.

Wie hat Ihnen das Openbook gefallen? Wir freuen uns immer über Ihre Rückmeldung. Schreiben Sie uns gerne Ihr Feedback als E-Mail an kommunikation@rheinwerk-verlag.de.

Name	Technologie	Erhobene Daten	Speicherdauer	Verwendungszweck
csrftoken	Cookie	UUID	364 Tage	Sicherheits-Token zur Formularübermittlung
gx_sessionid	Cookie	UUID	28 Tage	Cookie für Nutzeranmeldungen und Warenkörbe
bo_sessionid	Cookie	UUID	Session	Cookie für Nutzeranmeldungen
oscar_open_basket	Cookie	Integer (Basket-ID) + Hash	7 Tage	Cookie für Warenkörbe
oscar_history	Cookie	Liste Produkt-IDs	7 Tage	Cookie für Warenkorb-Historie
dsag	Cookie	DSAG-Nummer und Firmenname + Hash	Session	Cookie für DSAG-Kunden
upgrade	Cookie	Integer (Produkt-ID) + Lizenzschlüssel + Hash	Session	Cookie zur Verarbeitung von E-Book-Käufen
list_style	Cookie	String	Session	Speicherung gewählter Layouts
list_filter	Cookie	Integer	Session	Speicherung gewählter Filter
aftg	Cookie	eigene ID	Session	Cookie für Partner-Bestellungen
bg_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung Microsoft Advertising ("Bing")
fb_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung Facebook Pixel, Remarketing und Custom Audiences
ga_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung Google Analytics
gr_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung Google reCAPTCHA
gt_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung Google Ads Tags
li_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung LinkedIn
tw_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung Twitter
ws_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung notwendige Website-Funktionen
yt_consent	Cookie	true/false	180 Tage	Verwaltung Einwilligung Einbindung von YouTube Videos

28.3 Ein einfaches Beispielprogramm – Searching

[»] Hinweis

Ihre Meinung