Ausführbare Python-Docs: Regex

Q: Was ist der Unterschied zwischen re.match und re.search?

re.match matcht nur am Anfang des Strings. re.search scannt den ganzen String und findet den ersten Treffer irgendwo. Im Zweifel: search - das entspricht der menschlichen Intuition besser.

Q: Soll ich für Regex-Muster immer Raw-Strings nutzen?

Ja. Regex-Muster enthalten oft Backslashes (\d, \s, \b), die Python-Strings als Escape-Sequenzen interpretieren. Ein vorangestelltes r - r'\d+' - sagt Python, den String wörtlich zu nehmen, was die Regex selbst lesbar hält.

Wann du zu Regex greifst

Reguläre Ausdrücke sind eine kleine Sprache zum Beschreiben von Textmustern. Sie sind mächtig und leicht zu überstrapazieren.

Bevor du zu re greifst, frag, ob schlichte String-Methoden reichen. .split(), .replace(), .startswith(), "target" in text - die sind schneller, lesbarer und weniger fehleranfällig als die entsprechenden Regexes. Heb dir Regex für das auf, wenn das gewünschte Muster wirklich strukturiert ist, aber zu flexibel für feste String-Operationen: E-Mail-Adressen, Telefonnummern, Logzeilen mit bekannter Form, HTML- oder Markdown-Schnipsel, jede „finde diese Art Ding“-Suche.

Das Grundvokabular

Ein Regex-Muster ist ein String, der beschreibt, wonach du suchst. Ein paar Bausteine:

. - ein beliebiges einzelnes Zeichen
\d - eine beliebige Ziffer (0–9)
\w - ein beliebiges „Wort“-Zeichen (Buchstabe, Ziffer, Unterstrich)
\s - ein beliebiges Leerzeichen
^ - Stringanfang
$ - Stringende
[abc] - eines von a, b oder c
[^abc] - irgendein Zeichen außer a, b, c
a|b - a oder b
* - null oder mehr vom Vorherigen
+ - eins oder mehr
? - null oder eins
{3} - genau 3
{2,5} - zwischen 2 und 5
( ... ) - Gruppe (fängt den Treffer darin ein)

Das reicht für die meisten realen Regexes.

Die Schlüsselfunktionen

re.search(pattern, text) findet den ersten Treffer irgendwo im String. Liefert ein Match-Objekt oder None:

import re

text = "Order 12345 shipped on 2026-04-20"
match = re.search(r"\d{5}", text)

if match:
    print("Found:", match.group())
    print("Position:", match.start(), "-", match.end())
else:
    print("No match")

Nutz immer einen Raw-String (r"...") für Regex-Muster. Sonst versucht Python, die Backslashes als String-Escapes zu interpretieren, und du bekommst ein anderes Muster als getippt.

re.match(pattern, text) ist wie search, matcht aber nur am Anfang:

import re

print(re.search(r"hello", "say hello"))   # match
print(re.match(r"hello", "say hello"))    # None - didn't start with hello

Meistens willst du search.

re.findall(pattern, text) liefert alle überlappungsfreien Treffer als Liste:

import re

text = "Apples 3, oranges 12, pears 7"
numbers = re.findall(r"\d+", text)
print(numbers)   # ['3', '12', '7']

Beachte: findall liefert Strings, keine Match-Objekte. Hat dein Muster eine Gruppe, bekommst du den Gruppeninhalt zurück. Mit mehreren Gruppen bekommst du eine Liste von Tupeln.

Gruppen einfangen

Klammern in einem Muster fangen ein, was darin gematcht wurde:

import re

line = "2026-04-20: server started"
match = re.search(r"(\d{4})-(\d{2})-(\d{2}): (.+)", line)

if match:
    print(match.group(0))  # the whole match
    print(match.group(1))  # '2026' - first group
    print(match.group(2))  # '04'
    print(match.group(3))  # '20'
    print(match.group(4))  # 'server started'
    print(match.groups())  # tuple of all groups

Benannte Gruppen sind meistens klarer:

import re

line = "2026-04-20: server started"
pattern = r"(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2}): (?P<msg>.+)"
match = re.search(pattern, line)

if match:
    print(match["year"], match["month"], match["day"])
    print(match.groupdict())

Hat die Regex mehr als eine Gruppe, macht Benennen den Extraktionscode viel leichter verfolgbar.

Ersetzen mit `re.sub`

re.sub(pattern, replacement, text) ersetzt jeden Treffer:

import re

text = "Call me at (415) 555-1234 or 212.555.5678"
cleaned = re.sub(r"[^\d]", "", text)
print(cleaned)

Das entfernt alles, was keine Ziffer ist. Die Ersetzung kann eingefangene Gruppen mit \1, \2 usw. referenzieren - oder in Raw-Strings ist \g<1> klarer:

import re

text = "Alice Johnson, Bob Smith, Carol Tran"
swapped = re.sub(r"(\w+) (\w+)", r"\2, \1", text)
print(swapped)

Du kannst auch eine Funktion als Ersetzung übergeben. Das ist nützlich für Transformationen, die kein simpler Tausch sind:

import re

text = "Prices: 10, 20, 30"
doubled = re.sub(r"\d+", lambda m: str(int(m.group()) * 2), text)
print(doubled)

Muster zur Wiederverwendung kompilieren

Nutzt du dasselbe Muster oft - besonders in einer Schleife -, kompilier es einmal:

import re

DATE = re.compile(r"\d{4}-\d{2}-\d{2}")

lines = [
    "started at 2026-04-20",
    "no timestamp here",
    "finished 2026-04-21",
]

for line in lines:
    match = DATE.search(line)
    if match:
        print(match.group())

Kompilierte Muster bieten dieselben Methoden - search, match, findall, sub - ohne das Muster als erstes Argument. Etwas effizienter, oft lesbarer.

Flags

Gebräuchliche Modifikatoren, als flags=-Argument oder per OR verknüpft:

re.IGNORECASE (re.I) - case-insensitive Matching.
re.MULTILINE (re.M) - ^ und $ matchen an jeder Zeile, nicht nur an den String-Rändern.
re.DOTALL (re.S) - . matcht auch Zeilenumbrüche (standardmäßig nicht).
re.VERBOSE (re.X) - erlaubt Leerzeichen und #-Kommentare im Muster für Lesbarkeit.

import re

text = "HELLO world"
print(re.search(r"hello", text))
print(re.search(r"hello", text, re.IGNORECASE))

re.VERBOSE ist besonders nützlich für komplexe Muster:

import re

pattern = re.compile(r"""
    (?P<user>[\w.]+)    # username part
    @                    # literal at sign
    (?P<domain>[\w.-]+)  # domain
""", re.VERBOSE)

match = pattern.search("Contact me at rosa@example.com")
if match:
    print(match.groupdict())

Mehrzeilige, kommentierte Regexes sind viel leichter zu pflegen als undurchsichtige Einzeiler.

Gierig vs. Faul

Quantifier (*, +, ?, {n,}) sind standardmäßig gierig - sie matchen, so viel sie können. Ein angefügtes ? macht sie faul:

import re

html = "<b>bold</b> and <i>italic</i>"

# Greedy - matches from the first < to the last >
print(re.findall(r"<.+>", html))

# Lazy - matches each tag separately
print(re.findall(r"<.+?>", html))

Die gierige Version fängt den ganzen Teilstring von <b> bis </i> ein - wahrscheinlich nicht das, was du wolltest. Das faule .+? stoppt am ersten >.

(Nebenbei: parse HTML in Produktion nicht mit Regex. Nimm html.parser oder BeautifulSoup. Das Beispiel oben soll nur Gier illustrieren.)

Ein realistisches Beispiel

Zeilen aus einem einfachen Log-Format parsen:

import re

log = """
2026-04-20 09:00:12 INFO  Server started
2026-04-20 09:01:45 WARN  Slow query detected
2026-04-20 09:03:01 ERROR Database connection lost
"""

pattern = re.compile(r"""
    (?P<date>\d{4}-\d{2}-\d{2})\s+
    (?P<time>\d{2}:\d{2}:\d{2})\s+
    (?P<level>INFO|WARN|ERROR)\s+
    (?P<message>.+)
""", re.VERBOSE)

for line in log.strip().splitlines():
    match = pattern.match(line)
    if match:
        print(match.groupdict())

Viel Power in wenigen Zeilen.

Ein paar Gewohnheiten

Nutz immer Raw-Strings für Muster.
Beginn mit dem einfachsten funktionierenden Muster; zieh es später enger.
Nutz benannte Gruppen, sobald du mehr als eine hast.
Kompilier Muster, die du wiederverwendest.
Regex ist langsamer als schlichte String-Methoden. Reicht .split(), nimm .split().

Als Nächstes: Fehler und Debugging

Damit schließt die Tour durch echte Daten - Dateien, JSON, CSV, HTTP, Daten und Regex. In einem echten Programm trifft früher oder später jedes auf einen Fehler, und Python-Tracebacks gut zu lesen ist die größte einzelne Debugging-Fertigkeit, die du dir aneignen kannst. Das letzte Kapitel behandelt Ausnahmen und die konkreten Fehler, denen du am häufigsten begegnest.

Häufig gestellte Fragen

Was ist Regex in Python?

Ein regulärer Ausdruck (Regex) ist eine kleine Sprache, um Muster in Text zu beschreiben. Pythons re-Modul erlaubt dir, nach Mustern zu suchen, Teile zu extrahieren und Treffer zu ersetzen. Für einfache String-Operationen ist es übertrieben - nimm zuerst String-Methoden wie .split() oder .replace() -, aber für strukturierte Mustererkennung unschlagbar.

Was ist der Unterschied zwischen re.match und re.search?

re.match matcht nur am Anfang des Strings. re.search scannt den ganzen String und findet den ersten Treffer irgendwo. Im Zweifel: search - das entspricht der menschlichen Intuition besser.

Soll ich für Regex-Muster immer Raw-Strings nutzen?

Ja. Regex-Muster enthalten oft Backslashes (\d, \s, \b), die Python-Strings als Escape-Sequenzen interpretieren. Ein vorangestelltes r - r'\d+' - sagt Python, den String wörtlich zu nehmen, was die Regex selbst lesbar hält.

Verwandte Konzepte

Verwandtes Tool ausprobieren

Kostenlose Browser-Tools, die dieses Konzept in die Praxis umsetzen.

Regex TesterTest regular expressions with animated match highlighting.

Python-Regex-Tutorial: re-Modul, Muster, Gruppen und Ersetzen

Wann du zu Regex greifst

Das Grundvokabular

Die Schlüsselfunktionen

Gruppen einfangen

Ersetzen mit `re.sub`

Muster zur Wiederverwendung kompilieren

Flags

Gierig vs. Faul

Ein realistisches Beispiel

Ein paar Gewohnheiten

Als Nächstes: Fehler und Debugging

Häufig gestellte Fragen

Lerne mit Coddy zu programmieren

Wann du zu Regex greifst

Das Grundvokabular

Die Schlüsselfunktionen

Gruppen einfangen

Ersetzen mit re.sub

Muster zur Wiederverwendung kompilieren

Flags

Gierig vs. Faul

Ein realistisches Beispiel

Ein paar Gewohnheiten

Als Nächstes: Fehler und Debugging

Häufig gestellte Fragen

Lerne mit Coddy zu programmieren

Ersetzen mit `re.sub`