Rheinwerk Computing < openbook >

 
Inhaltsverzeichnis
1 Einleitung
2 Die Programmiersprache Python
Teil I Einstieg in Python
3 Erste Schritte im interaktiven Modus
4 Der Weg zum ersten Programm
5 Kontrollstrukturen
6 Dateien
7 Das Laufzeitmodell
8 Funktionen, Methoden und Attribute
9 Informationsquellen zu Python
Teil II Datentypen
10 Das Nichts – NoneType
11 Operatoren
12 Numerische Datentypen
13 Sequenzielle Datentypen
14 Zuordnungen
15 Mengen
16 Collections
17 Datum und Zeit
18 Aufzählungstypen – Enum
Teil III Fortgeschrittene Programmiertechniken
19 Funktionen
20 Modularisierung
21 Objektorientierung
22 Ausnahmebehandlung
23 Iteratoren
24 Kontextobjekte
25 Manipulation von Funktionen und Methoden
Teil IV Die Standardbibliothek
26 Mathematik
27 Kryptografie
28 Reguläre Ausdrücke
29 Schnittstelle zu Betriebssystem und Laufzeitumgebung
30 Kommandozeilenparameter
31 Dateisystem
32 Parallele Programmierung
33 Datenspeicherung
34 Netzwerkkommunikation
35 Debugging und Qualitätssicherung
36 Dokumentation
Teil V Weiterführende Themen
37 Anbindung an andere Programmiersprachen
38 Distribution von Python-Projekten
39 Grafische Benutzeroberflächen
40 Python als serverseitige Programmiersprache im WWW – ein Einstieg in Django
41 Wissenschaftliches Rechnen
42 Insiderwissen
43 Von Python 2 nach Python 3
A Anhang
Stichwortverzeichnis

Download:
- Beispielprogramme, ca. 464 KB

Jetzt Buch bestellen
Ihre Meinung?

Spacer
<< zurück
Python 3 von Johannes Ernesti, Peter Kaiser
Das umfassende Handbuch
Buch: Python 3

Python 3
Pfeil 34 Netzwerkkommunikation
Pfeil 34.1 Socket API
Pfeil 34.1.1 Client-Server-Systeme
Pfeil 34.1.2 UDP
Pfeil 34.1.3 TCP
Pfeil 34.1.4 Blockierende und nicht-blockierende Sockets
Pfeil 34.1.5 Erzeugen eines Sockets
Pfeil 34.1.6 Die Socket-Klasse
Pfeil 34.1.7 Netzwerk-Byte-Order
Pfeil 34.1.8 Multiplexende Server – selectors
Pfeil 34.1.9 Objektorientierte Serverentwicklung – socketserver
Pfeil 34.2 URLs – urllib
Pfeil 34.2.1 Zugriff auf entfernte Ressourcen – urllib.request
Pfeil 34.2.2 Einlesen und Verarbeiten von URLs – urllib.parse
Pfeil 34.3 FTP – ftplib
Pfeil 34.3.1 Mit einem FTP-Server verbinden
Pfeil 34.3.2 FTP-Kommandos ausführen
Pfeil 34.3.3 Mit Dateien und Verzeichnissen arbeiten
Pfeil 34.3.4 Übertragen von Dateien
Pfeil 34.4 E‐Mail
Pfeil 34.4.1 SMTP – smtplib
Pfeil 34.4.2 POP3 – poplib
Pfeil 34.4.3 IMAP4 – imaplib
Pfeil 34.4.4 Erstellen komplexer E‐Mails – email
Pfeil 34.5 Telnet – telnetlib
Pfeil 34.5.1 Die Klasse Telnet
Pfeil 34.5.2 Beispiel
Pfeil 34.6 XML-RPC
Pfeil 34.6.1 Der Server
Pfeil 34.6.2 Der Client
Pfeil 34.6.3 Multicall
Pfeil 34.6.4 Einschränkungen
 
Zum Seitenanfang

34.2    URLs – urllib Zur vorigen ÜberschriftZur nächsten Überschrift

Eine URL (für Uniform Resource Locator) spezifiziert eine Ressource, beispielsweise im Internet, über ihren Ort und das zum Zugriff zu verwendende Protokoll.

Das Paket urllib bietet eine komfortable Schnittstelle zum Umgang mit Ressourcen im Internet. Dazu enthält urllib die folgenden Module:

Modul Beschreibung Abschnitt
urllib.request Enthält Funktionen und Klassen zum Zugriff auf eine Ressource im Internet. 34.2.1
urllib.response Enthält die im urllib-Paket verwendeten Datentypen.
urllib.parse Enthält Funktionen zum komfortablen Einlesen, Verarbeiten und Erstellen von URLs. 34.2.2
urllib.error Enthält die im urllib-Paket verwendeten Exception-Klassen.
urllib.robotparser Enthält eine Klasse, die die robots.txt-Datei* einer Website interpretiert.
* Programme, die automatisiert das Internet durchforsten, lesen in der Regel zunächst eine Datei namens robots.txt im Hauptverzeichnis des Webservers. Dort kann festgelegt werden, welche Teile der Website durchsucht werden dürfen.

Tabelle 34.4    Module des Pakets urllib

In den folgenden Abschnitten sollen die Module request und parse des Pakets urllib erläutert werden.

 
Zum Seitenanfang

34.2.1    Zugriff auf entfernte Ressourcen – urllib.request Zur vorigen ÜberschriftZur nächsten Überschrift

Die zentrale Funktion des Moduls urllib.request zum Zugriff auf entfernte Ressourcen ist urlopen, die der eingebauten Funktion open ähnelt, bis auf die Tatsache, dass anstelle eines Dateinamens eine URL übergeben wird. Außerdem können auf dem resultierenden Dateiobjekt aus naheliegendem Grund keine Schreiboperationen durchgeführt werden.

Im Folgenden werden die wichtigsten im Modul urllib.request enthaltenen Funktionen detailliert besprochen. Um die Beispiele nachzuvollziehen, muss das Modul request des Pakets urllib eingebunden werden:

>>> import urllib.request

urllib.request.urlopen(url, [data, timeout], {cafile, capath})

Die Funktion urlopen greift auf die durch url adressierte Netzwerkressource zu und gibt ein geöffnetes Dateiobjekt auf dieser Ressource zurück. Damit ermöglicht die Funktion es beispielsweise, den Quelltext einer Website herunterzuladen und wie eine lokale Datei einzulesen.

Für url kann entweder eine URL als String oder ein Request-Objekt angegeben werden. Näheres zu Request-Objekten erfahren Sie weiter unten. Wenn bei der URL kein Protokoll wie beispielsweise http:// oder ftp:// angegeben wurde, wird angenommen, dass die URL auf eine Ressource der lokalen Festplatte verweist. Für Zugriffe auf die lokale Festplatte können Sie außerdem das Protokoll file:// angeben.

Über den dritten optionalen Parameter timeout wird ein Zeitlimit in Sekunden festgelegt, das beim Zugriff auf eine Internetressource berücksichtigt werden soll. Wenn dieser Parameter nicht übergeben wird, wird ein Standardwert des Betriebssystems verwendet.

Die optionalen reinen Schlüsselwortparameter cafile und capath erlauben es, Zertifikate bereitzustellen, über die sich die Funktion urlopen bei der Gegenstelle authentifiziert. Für cafile kann ein Pfad zu einer Datei angegeben werden, die ein Zertifikat im PEM-Format enthält. Über den Parameter capath können Sie ein Verzeichnis festlegen, in dem die Zertifikat-Dateien liegen.

Parameterübergabe

Wenn das verwendete Protokoll http ist, dient der optionale Parameter data der Funktion urlopen dazu, POST-Parameter[ 147 ](Das HTTP-Protokoll kennt zwei Arten der Argumentübertragung: Bei POST werden die Daten für den Benutzer unsichtbar im HTTP-Body mitgesendet, während sie bei GET in die URL hineincodiert werden. ) an die Ressource zu übermitteln. Für den Parameter data müssen diese POST-Werte speziell aufbereitet werden. Dazu wird die Funktion urlencode des Moduls urllib.parse verwendet:

>>> prm = urllib.parse.urlencode({"prm1" : "wert1", "prm2" : "wert2"})
>>> urllib.request.urlopen("http://www.beispiel.de", prm.encode("ascii"))
<http.client.HTTPResponse object at 0x7fa3f74b4e48>

Neben POST existiert eine weitere Methode zur Parameterübergabe an eine Website: GET. Bei GET werden die Parameter direkt in die URL geschrieben:

>>> urllib.request.urlopen("http://www.beispiel.de?prm=wert")
<http.client.HTTPResponse object at 0x7fa3f74b4860>

Rückgabewert

Das von der Funktion urlopen zurückgegebene Dateiobjekt ist ein dateiähnliches Objekt (engl. file-like object), da es nur eine Untermenge der Funktionalität eines echten Dateiobjekts bereitstellt. Tabelle 34.5 zeigt die wichtigsten verfügbaren Methoden des dateiähnlichen Objekts mit einer kurzen Beschreibung.

Methode Beschreibung
read([size]) Liest size Byte aus der Ressource aus und gibt sie als bytes-String zurück. Wenn size nicht angegeben wurde, wird der komplette Inhalt ausgelesen.
readline([size]) Liest eine Zeile aus der Ressource aus und gibt sie als bytes-String zurück. Wenn size angegeben wurde, werden maximal size Byte gelesen.
readlines([sizehint]) Liest die Ressource zeilenweise aus und gibt sie in Form einer Liste von Strings zurück. Wird sizehint angegeben, werden Zeilen nur so lange eingelesen, bis die Gesamtgröße der gelesenen Zeilen sizehint überschreitet.
close() Schließt das geöffnete Objekt. Nach Aufruf dieser Methode sind keine weiteren Operationen mehr möglich.
info() Gibt ein dictionary-ähnliches Info-Objekt zurück, das Metainformationen der heruntergeladenen Seite enthält.
geturl() Gibt einen String mit der URL der Ressource zurück.

Tabelle 34.5    Methoden des zurückgegebenen dateiähnlichen Objekts

Info-Objekte

Die Methode info des von urlopen zurückgegebenen dateiähnlichen Objekts stellt eine Instanz bereit, die verschiedene Informationen über die Netzwerkressource enthält. Auf diese Informationen kann wie bei einem Dictionary zugegriffen werden. Dazu folgendes Beispiel:

>>> f = urllib.request.urlopen("http://www.rheinwerk-verlag.de/?GPP=openbook")
>>> d = f.info()
>>> d.keys()
['Server', 'Date', 'Content-Type', 'Content-Length', 'Connection', 'Vary', 'Strict-Transport-Security', 'Accept-Ranges']

Im Beispiel wurde auf die Internetressource http://www.rheinwerk-verlag.de zugegriffen und durch Aufruf der Methode info das dictionary-ähnliche Objekt erzeugt, das Informationen zu der Website enthält. Durch die Methode keys eines Dictionarys lassen sich alle enthaltenen Schlüssel anzeigen. Welche Informationen enthalten sind, hängt vom verwendeten Protokoll ab. Beim HTTP-Protokoll enthält das dictionary-ähnliche Objekt alle vom Server gesendeten Informationen. So können Sie beispielsweise über die Schlüssel "Content-Length" und "Server" die Größe der heruntergeladenen Datei in Byte bzw. den Identifikationsstring der Serversoftware auslesen:

>>> d["Content-Length"]
'223290'
>>> d["Server"]
'nginx/1.10.2'

Request-Objekte

Die Funktion urlopen erwartet als ersten Parameter entweder eine URL als String oder ein sogenanntes Request-Objekt. Das ist eine Instanz der Klasse Request, die es ermöglicht, die Zugriffseigenschaften detaillierter festzulegen:

>>> req = urllib.request.Request("http://www.rheinwerk-verlag.de/?GPP=openbook")
>>> f = urllib.request.urlopen(req)

Das Request-Objekt kann beispielsweise verwendet werden, um den bei einem HTTP-Zugriff mitgeschickten Header zu modifizieren. Auf diese Weise lässt sich zum Beispiel die Browserkennung verändern:[ 148 ](Einige Webseiten nutzen diese Kennung, um spezifische Features von Browsern auszunutzen oder nicht unterstützte Browser auszuschließen. Deshalb kann es hilfreich sein, über den HTTP-Header einen bekannten Browser vorzutäuschen. )

>>> req = urllib.request.Request("http://www.rheinwerk-verlag.de/?GPP=openbook")
>>> req.add_header("User-agent", "Mein Browser")
>>> req.header_items()
[('User-agent', 'Mein Browser')]
>>> f = urllib.request.urlopen(req)

Installieren von Openern

Beim Zugriff auf entfernte Ressourcen gibt es viele Spezialfälle, die über die bislang besprochene Standardmethode hinausgehen. So muss man sich beispielsweise bei vielen Servern vor einem Zugriff authentifizieren. Ein anderes Beispiel sind Zugriffe, die über einen Proxy-Server laufen sollen.

Um solche komplexeren Zugriffe zu realisieren, muss ein eigener sogenannter Opener erzeugt und verwendet werden. Ein Opener ist eine Instanz der Klasse OpenerDirector, die dafür zuständig ist, auf die durch die URL beschriebene Ressource zuzugreifen. Es gibt einen Standard-Opener, den wir in den vorangegangenen Beispielen implizit verwendet haben.

Ein Opener besitzt einen oder mehrere Handler, aus denen er den für einen Zugriff passenden aussucht. Jeder Handler ist für einen konkreten Anwendungsfall konzipiert.

>>> opener = urllib.request.OpenerDirector()
>>> opener.add_handler(urllib.request.HTTPHandler())
>>> opener.open("http://www.rheinwerk-verlag.de/?GPP=openbook")
<http.client.HTTPResponse object at 0x7f37b9334fd0>

Im Beispiel wurde ein Opener erzeugt, der nur den Standard-HTTP-Handler besitzt. Dieser Opener kann mithilfe seiner Methode open für einen Zugriff verwendet werden. Alternativ kann der Opener installiert werden, wodurch er auch von der Funktion urlopen verwendet wird:

>>> urllib.request.install_opener(opener)

Neben dem Standard HTTP-Handler existiert eine Reihe weiterer Handler. Dazu zählen HTTPDefaultErrorHandler und HTTPRedirectHandler für das Behandeln von Fehlern und Umleitungen in HTTP-Zugriffen, ProxyHandler und ProxyBasicAuthHandler für das Zwischenschalten von Proxy-Servern, HTTPBasicAuthHandler und HTTPDigestAuthHandler für die Authentifizierung bei HTTP-Servern sowie HTTPSHandler, FTPHandler und FileHandler für die Protokolle HTTPS, FTP bzw. für lokale Dateien.

 
Zum Seitenanfang

34.2.2    Einlesen und Verarbeiten von URLs – urllib.parse Zur vorigen ÜberschriftZur nächsten Überschrift

Das Modul urllib.parse enthält Funktionen, die es ermöglichen, eine URL in ihre Bestandteile zu zerlegen oder diese Bestandteile wieder zu einer gültigen URL zusammenzufügen.

Um die Beispiele ausführen zu können, muss zuvor das Modul urllib.parse eingebunden worden sein:

>>> import urllib.parse

Escape-Sequenzen

Die Funktion quote ersetzt Sonderzeichen, die in einer URL nicht als solche vorkommen dürfen, durch Escape-Sequenzen der Form %xx, wie sie in URLs erlaubt sind. Durch den optionalen Parameter safe, einen String, geben Sie Zeichen an, die nicht in eine Escape-Sequenz umgewandelt werden sollen.

>>> urllib.parse.quote("www.test.de/hallo welt.html")
'www.test.de/hallo%20welt.html'

Das Gegenstück zu quote heißt unquote:

>>> urllib.parse.unquote("www.test.de/hallo%20welt.html")
'www.test.de/hallo welt.html'

Neben den Funktionen quote_from_bytes und unquote_to_bytes für bytes-Strings existieren die Funktionen quote_plus bzw. unquote_plus, die sich wie quote bzw. unquote verhalten, zusätzlich aber ein Leerzeichen in der URL durch ein + ersetzen. Dies ist insbesondere im Zusammenhang mit HTML-Formularen interessant.

Aufbrechen und Zusammensetzen einer URL

Die Funktion urlparse bricht eine URL in mehrere Teile auf. Dabei kann eine URL grundsätzlich aus sechs Teilen[ 149 ](Der params-Teil einer URL wird nur sehr selten verwendet. ) bestehen:

scheme://netloc/path;params?query#fragment

Der netloc-Bereich der URL wird außerdem in vier weitere Bereiche unterteilt:

username:password@host:port

Bis auf die Host-Angabe im netloc-Bereich sind alle Angaben optional und können weggelassen werden.

Die sechs Bestandteile der URL werden in Form eines tupelähnlichen Objekts mit sechs Elementen zurückgegeben. Diese am meisten verwendeten Teile der URL lassen sich wie bei einem echten Tupel über die Indizes 0 bis 5 ansprechen. Zusätzlich – und das unterscheidet die zurückgegebene Instanz von einem Tupel – kann auf alle Teile der URL über Attribute der Instanz zugegriffen werden. Sie können über Attribute auch auf die vier Unterbereiche des netloc-Teils zugreifen, die nicht über einen Index erreichbar sind.

Tabelle 34.6 listet alle Attribute des Rückgabewertes der Funktion urlparse auf und erläutert sie jeweils mit einem kurzen Satz. Zusätzlich ist der entsprechende Index angegeben, sofern sich das entsprechende Attribut auch über einen Index ansprechen lässt. Die Attributnamen entsprechen den Namen der Bereiche, wie sie in den oben dargestellten URL-Beispielen verwendet wurden.

Attribut Index Beschreibung
scheme 0 das Protokoll der URL, beispielsweise http oder file
netloc 1 Die Network Location besteht üblicherweise aus einem Domainnamen mit Subdomain und TLD. Optional können auch Benutzername, Passwort und Portnummer in netloc enthalten sein.
path 2 eine Pfadangabe, die einen Unterordner der Network Location kennzeichnet
params 3 Parameter für das letzte Element des Pfades
query 4 Über den Query-String können zusätzliche Informationen an ein serverseitiges Skript übertragen werden.
fragment 5 Das Fragment, auch Anker genannt. Ein geläufiges Beispiel für einen Anker ist eine Sprungmarke innerhalb einer HTML-Datei.
username der in der URL angegebene Benutzername, sofern vorhanden
password das in der URL angegebene Passwort, sofern vorhanden
hostname der Hostname der URL
port die in der URL angegebene Portnummer, sofern vorhanden

Tabelle 34.6    Teile einer URL

Im folgenden Beispiel wird die URL

http://www.beispiel.de/pfad/zur/datei.py?prm=abc 

in ihre Bestandteile zerlegt:

>>> url = "http://www.beispiel.de/pfad/zur/datei.py?prm=abc"
>>> teile = urllib.parse.urlparse(url)
>>> teile.scheme
'http'
>>> teile.netloc
'www.beispiel.de'
>>> teile.path
'/pfad/zur/datei.py'
>>> teile.params
''
>>> teile.query
'prm=abc'
>>> teile.fragment
''
>>> teile.hostname
'www.beispiel.de'

Als Gegenstück zu urlparse existiert die Funktion urlunparse, die aus einem Tupel mit sechs Elementen einen URL-String erzeugt. Anstelle eines reinen Tupels können Sie ein beliebiges iterierbares Objekt mit sechs Elementen, unter anderem beispielsweise auch den Rückgabewert von urlparse, übergeben.

>>> url = ("http", "beispiel.de", "/pfad/datei.py", "", "", "")
>>> urllib.parse.urlunparse(url)
'http://beispiel.de/pfad/datei.py'
[»]  Hinweis

Der Ausdruck

urllib.parse.urlunparse(urllib.parse.urlparse(url)) == url

ergibt nicht immer True, da überflüssige Angaben, wie beispielsweise ein leeres Fragment am Ende einer URL, beim Aufruf von urlparse verloren gehen.

Aufbrechen und Zusammensetzen eines Query-Strings

Die Funktionen parse_qs und parse_qsl ermöglichen das Zerlegen des Query-Strings einer URL in seine Bestandteile. Die im Query-String enthaltenen Schlüssel und Werte werden zu einem Dictionary bzw. einer Liste aufbereitet und zurückgegeben:

>>> url = "http://www.beispiel.de?hallo=welt&hallo=blubb&xyz=12"
>>> teile = urllib.parse.urlparse(url)
>>> urllib.parse.parse_qs(teile.query)
{'hallo': ['welt', 'blubb'], 'xyz': ['12']}
>>> urllib.parse.parse_qsl(teile.query)
[('hallo', 'welt'), ('hallo', 'blubb'), ('xyz', '12')]

Als Gegenstück erzeugt die Funktion urlencode aus den Schlüssel-Wert-Paaren des Dictionarys query einen String des folgenden Formats:

>>> urllib.parse.urlencode({"abc" : 1, "def" : "ghi"})
'abc=1&def=ghi'

URLs kombinieren

Die Funktion urljoin kombiniert die Basis-URL und eine relative URL zu einer absoluten Pfadangabe:

>>> base = "http://www.test.de"
>>> relativ = "pfad/zur/datei.py"
>>> urllib.parse.urljoin(base, relativ)
'http://www.test.de/pfad/zur/datei.py'
>>> base = "http://www.test.de/hallo/welt.py"
>>> relativ = "du.py"
>>> urllib.parse.urljoin(base, relativ)
'http://www.test.de/hallo/du.py'

Sie sehen, dass urljoin die beiden übergebenen Pfade nicht einfach aneinanderhängt, sondern Dateinamen am Ende der Basis-URL abschneidet.

 


Ihre Meinung

Wie hat Ihnen das Openbook gefallen? Wir freuen uns immer über Ihre Rückmeldung. Schreiben Sie uns gerne Ihr Feedback als E-Mail an kommunikation@rheinwerk-verlag.de.

<< zurück
 Zum Rheinwerk-Shop
Zum Rheinwerk-Shop: Python 3 Python 3
Jetzt Buch bestellen

 Buchempfehlungen
Zum Rheinwerk-Shop: Einstieg in Python
Einstieg in Python


Zum Rheinwerk-Shop: Python. Der Grundkurs
Python. Der Grundkurs


Zum Rheinwerk-Shop: Algorithmen mit Python
Algorithmen mit Python


Zum Rheinwerk-Shop: Objektorientierte Programmierung
Objektorientierte Programmierung


Zum Rheinwerk-Shop: Raspberry Pi. Das umfassende Handbuch
Raspberry Pi. Das umfassende Handbuch


Zum Rheinwerk-Shop: Roboter-Autos mit dem Raspberry Pi
Roboter-Autos mit dem Raspberry Pi


Zum Rheinwerk-Shop: Neuronale Netze programmieren mit Python
Neuronale Netze programmieren mit Python


 Lieferung
Versandkostenfrei bestellen in Deutschland, Österreich und der Schweiz
InfoInfo

 
 


Copyright © Rheinwerk Verlag GmbH 2020
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das Openbook denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt.
Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

 
[Rheinwerk Computing]

Rheinwerk Verlag GmbH, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, service@rheinwerk-verlag.de

Cookie-Einstellungen ändern