Rheinwerk Computing < openbook >

 
Inhaltsverzeichnis
1 Einleitung
2 Die Programmiersprache Python
Teil I Einstieg in Python
3 Erste Schritte im interaktiven Modus
4 Der Weg zum ersten Programm
5 Kontrollstrukturen
6 Dateien
7 Das Laufzeitmodell
8 Funktionen, Methoden und Attribute
9 Informationsquellen zu Python
Teil II Datentypen
10 Das Nichts – NoneType
11 Operatoren
12 Numerische Datentypen
13 Sequenzielle Datentypen
14 Zuordnungen
15 Mengen
16 Collections
17 Datum und Zeit
18 Aufzählungstypen – Enum
Teil III Fortgeschrittene Programmiertechniken
19 Funktionen
20 Modularisierung
21 Objektorientierung
22 Ausnahmebehandlung
23 Iteratoren
24 Kontextobjekte
25 Manipulation von Funktionen und Methoden
Teil IV Die Standardbibliothek
26 Mathematik
27 Kryptografie
28 Reguläre Ausdrücke
29 Schnittstelle zu Betriebssystem und Laufzeitumgebung
30 Kommandozeilenparameter
31 Dateisystem
32 Parallele Programmierung
33 Datenspeicherung
34 Netzwerkkommunikation
35 Debugging und Qualitätssicherung
36 Dokumentation
Teil V Weiterführende Themen
37 Anbindung an andere Programmiersprachen
38 Distribution von Python-Projekten
39 Grafische Benutzeroberflächen
40 Python als serverseitige Programmiersprache im WWW – ein Einstieg in Django
41 Wissenschaftliches Rechnen
42 Insiderwissen
43 Von Python 2 nach Python 3
A Anhang
Stichwortverzeichnis

Download:
- Beispielprogramme, ca. 464 KB

Jetzt Buch bestellen
Ihre Meinung?

Spacer
<< zurück
Python 3 von Johannes Ernesti, Peter Kaiser
Das umfassende Handbuch
Buch: Python 3

Python 3
Pfeil 16 Collections
Pfeil 16.1 Verkettete Dictionarys
Pfeil 16.2 Zählen von Häufigkeiten
Pfeil 16.3 Dictionarys mit Standardwerten
Pfeil 16.4 Doppelt verkettete Listen
Pfeil 16.5 Benannte Tupel
Pfeil 16.6 Sortierte Dictionarys
 
Zum Seitenanfang

16.2    Zählen von Häufigkeiten Zur vorigen ÜberschriftZur nächsten Überschrift

Oft ist man an der Häufigkeitsverteilung der Elemente eines iterierbaren Objekts interessiert, beispielsweise daran, wie oft einzelne Buchstaben in einem String auftreten.[ 58 ](Über so eine Häufigkeitsanalyse lässt sich beispielsweise das Cäsar-Verschlüsselungsverfahren brechen. Dabei macht man es sich zunutze, dass die Buchstaben in natürlichsprachigem Text nicht gleichmäßig verteilt sind. So ist das e in der deutschen Sprache der am häufigsten vorkommende Buchstabe. ) Dieses Problem lässt sich elegant mit einem Dictionary lösen:

>>> t = "Dies ist der Text"
>>> d = {}
>>> for c in t:
... if c in d:
... d[c] += 1
... else:
... d[c] = 1
...
>>> d
{'D': 1, 'i': 2, 'e': 3, 's': 2, ' ': 3, 't': 2, 'd': 1, 'r': 1, 'T': 1,
'x': 1}

Der Datentyp Counter des Moduls collections ist ein Dictionary, das bei einem Zugriff mit einem unbekannten Schlüssel k automatisch ein Schlüssel-Wert-Paar k : 0 hinzufügt. Mit diesem Datentyp lässt sich der oben dargestellte Code vereinfachen:

>>> t = "Dies ist der Text"
>>> d = collections.Counter()
>>> for c in t:
... d[c] += 1
...
>>> d
Counter({'e': 3, ' ': 3, 'i': 2, 's': 2, 't': 2, 'D': 1, 'd': 1, 'r': 1,
'T': 1, 'x': 1})

Im Beispiel liegen die Daten bereits in Form eines iterierbaren Objekts vor. In einem solchen Fall kann dieses Objekt bei der Instanziierung von Counter übergeben werden. Damit wird das Beispiel zu einem Einzeiler:

>>> collections.Counter("Dies ist der Text")
Counter({'e': 3, ' ': 3, 'i': 2, 's': 2, 't': 2, 'D': 1, 'd': 1, 'r': 1,
'T': 1, 'x': 1})

Der Datentyp Counter stellt zusätzlich zu der Funktionalität eines Dictionarys einige Methoden bereit, die im Folgenden besprochen werden. Die Beispiele verstehen sich im Kontext der im vorangegangenen Beispiel angelegten Counter-Instanz d.

d.elements()

Diese Methode gibt einen Iterator über die Elemente einer Counter-Instanz zurück. Dabei wird jedes Element so oft durchlaufen, wie sein aktueller Zählerstand ist.

>>> list(d.elements())
['D', 'i', 'i', 'e', 'e', 'e', 's', 's', ' ', ' ', ' ', 't', 't', 'd', 'r',
'T', 'x']

d.most_common([n])

Diese Methode gibt eine Liste der n häufigsten Elemente zurück. Die Liste besteht dabei aus Tupeln, die das jeweilige Element und dessen Häufigkeit enthalten.

>>> d.most_common(3)
[('e', 3), (' ', 3), ('i', 2)]

Wenn der Parameter n nicht angegeben wird, enthält die zurückgegebene Liste alle Elemente.

d.subtract([iterable-or-mapping])

Diese Methode subtrahiert die Häufigkeiten der Elemente von iterable-or-mapping von den Häufigkeiten in d. So lassen sich beispielsweise die Zeichen finden, an deren Häufigkeiten deutsch- und englischsprachige Texte am besten voneinander zu unterscheiden sind:

>>> import collections
>>> ger = collections.Counter(
... open("deutsch.txt", "r").read().lower())
>>> eng = collections.Counter(
... open("englisch.txt", "r").read().lower())
>>> eng.most_common(5)
[('e', 6357), ('a', 4188), ('n', 4154), ('t', 4150), ('r', 3822)]
>>> ger.most_common(5)
[('e', 8030), ('n', 4953), ('i', 3819), ('r', 3581), ('s', 3276)]
>>> eng.subtract(ger)
>>> eng.most_common(5)
[('o', 2030), ('a', 1494), ('t', 938), ('y', 758), ('p', 531)]

Zunächst wird der Inhalt zweier gleich großer Dateien, die jeweils einen deutschen und einen englischen Text enthalten, eingelesen und eine Häufigkeitsanalyse mithilfe des Counter-Datentyps durchgeführt. Abgesehen von Umlauten sind die Texte frei von Sonderzeichen. Mithilfe der subtract-Methode werden die deutschen Buchstabenhäufigkeiten von den englischen abgezogen. Anhand des Ergebnisses wird sichtbar, dass sich ein englischer Text offenbar gut anhand der absoluten Häufigkeiten der Buchstaben o und a von einem deutschen unterscheidet.[ 59 ](Interessanter als die absolute Häufigkeitsverteilung ist eigentlich die relative Häufigkeit, bei der das y sehr signifikant ist. Dieser Buchstabe stellt im Deutschen nur 0,04 % der Zeichen, während es im Englischen 1,974 % sind. Anhand dieses Unterschieds lassen sich die beiden Sprachen mit einer großen Sicherheit voneinander unterscheiden. )

d.update([iterable-or-mapping])

Die Funktion update verhält sich so wie subtract, mit dem Unterschied, dass die in iterable-or-mapping enthaltenen Häufigkeiten nicht subtrahiert, sondern auf die Häufigkeiten von d addiert werden.

 


Ihre Meinung

Wie hat Ihnen das Openbook gefallen? Wir freuen uns immer über Ihre Rückmeldung. Schreiben Sie uns gerne Ihr Feedback als E-Mail an kommunikation@rheinwerk-verlag.de.

<< zurück
 Zum Rheinwerk-Shop
Zum Rheinwerk-Shop: Python 3 Python 3
Jetzt Buch bestellen

 Buchempfehlungen
Zum Rheinwerk-Shop: Einstieg in Python
Einstieg in Python


Zum Rheinwerk-Shop: Python. Der Grundkurs
Python. Der Grundkurs


Zum Rheinwerk-Shop: Algorithmen mit Python
Algorithmen mit Python


Zum Rheinwerk-Shop: Objektorientierte Programmierung
Objektorientierte Programmierung


Zum Rheinwerk-Shop: Raspberry Pi. Das umfassende Handbuch
Raspberry Pi. Das umfassende Handbuch


Zum Rheinwerk-Shop: Roboter-Autos mit dem Raspberry Pi
Roboter-Autos mit dem Raspberry Pi


Zum Rheinwerk-Shop: Neuronale Netze programmieren mit Python
Neuronale Netze programmieren mit Python


 Lieferung
Versandkostenfrei bestellen in Deutschland, Österreich und der Schweiz
InfoInfo

 
 


Copyright © Rheinwerk Verlag GmbH 2020
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das Openbook denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt.
Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

 
[Rheinwerk Computing]

Rheinwerk Verlag GmbH, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, service@rheinwerk-verlag.de

Cookie-Einstellungen ändern