Docs ejecutables de Python: Regex

Q: ¿Cuál es la diferencia entre re.match y re.search?

re.match solo hace match al principio del string. re.search escanea el string entero y encuentra la primera coincidencia en cualquier sitio. En caso de duda, usa search - coincide mejor con la intuición humana.

Cuándo recurrir a regex

Las expresiones regulares son un pequeño lenguaje para describir patrones de texto. Son potentes y fáciles de usar en exceso.

Antes de recurrir a re, pregúntate si los métodos de string planos lo harían. .split(), .replace(), .startswith(), "target" in text - son más rápidos, más legibles y menos propensos a error que la regex equivalente. Guarda regex para cuando el patrón que te importa sea genuinamente estructurado pero demasiado flexible para operaciones fijas de string: direcciones de email, números de teléfono, líneas de log con formas conocidas, snippets de HTML o Markdown, cualquier búsqueda "encuentra este tipo de cosa".

El vocabulario básico

Un patrón regex es un string que describe lo que estás buscando. Unos cuantos bloques de construcción:

. - cualquier carácter único
\d - cualquier dígito (0–9)
\w - cualquier carácter de "palabra" (letra, dígito, guion bajo)
\s - cualquier carácter de espacio en blanco
^ - inicio del string
$ - fin del string
[abc] - cualquiera de a, b o c
[^abc] - cualquier carácter excepto a, b, c
a|b - a o b
* - cero o más de lo anterior
+ - uno o más
? - cero o uno
{3} - exactamente 3
{2,5} - entre 2 y 5
( ... ) - grupo (captura la coincidencia de dentro)

Eso es suficiente para la mayoría de regex del mundo real.

Las funciones clave

re.search(pattern, text) encuentra la primera coincidencia en cualquier sitio del string. Devuelve un objeto match o None:

import re

text = "Order 12345 shipped on 2026-04-20"
match = re.search(r"\d{5}", text)

if match:
    print("Found:", match.group())
    print("Position:", match.start(), "-", match.end())
else:
    print("No match")

Usa siempre un string raw (r"...") para patrones regex. Si no, Python intenta interpretar las barras invertidas como escapes de string y obtienes un patrón distinto al que tecleaste.

re.match(pattern, text) es como search pero solo hace match al principio:

import re

print(re.search(r"hello", "say hello"))   # match
print(re.match(r"hello", "say hello"))    # None - no empezaba con hello

La mayor parte del tiempo quieres search.

re.findall(pattern, text) devuelve todas las coincidencias no solapadas como lista:

import re

text = "Apples 3, oranges 12, pears 7"
numbers = re.findall(r"\d+", text)
print(numbers)   # ['3', '12', '7']

Fíjate en que findall devuelve strings, no objetos match. Si tienes un patrón con un grupo, obtienes el contenido del grupo. Con varios grupos, obtienes una lista de tuplas.

Grupos de captura

Los paréntesis en un patrón capturan lo que haya coincidido dentro:

import re

line = "2026-04-20: server started"
match = re.search(r"(\d{4})-(\d{2})-(\d{2}): (.+)", line)

if match:
    print(match.group(0))  # toda la coincidencia
    print(match.group(1))  # '2026' - primer grupo
    print(match.group(2))  # '04'
    print(match.group(3))  # '20'
    print(match.group(4))  # 'server started'
    print(match.groups())  # tupla de todos los grupos

Los grupos con nombre suelen ser más claros:

import re

line = "2026-04-20: server started"
pattern = r"(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2}): (?P<msg>.+)"
match = re.search(pattern, line)

if match:
    print(match["year"], match["month"], match["day"])
    print(match.groupdict())

Una vez que la regex tiene más de un grupo, nombrarlos hace el código de extracción mucho más fácil de seguir.

Reemplazar con `re.sub`

re.sub(pattern, replacement, text) reemplaza cada coincidencia:

import re

text = "Call me at (415) 555-1234 or 212.555.5678"
cleaned = re.sub(r"[^\d]", "", text)
print(cleaned)

Eso quita todo lo que no sea un dígito. El reemplazo puede referenciar grupos capturados con \1, \2, etc. - o en strings raw, \g<1> es más claro:

import re

text = "Alice Johnson, Bob Smith, Carol Tran"
swapped = re.sub(r"(\w+) (\w+)", r"\2, \1", text)
print(swapped)

También puedes pasar una función como reemplazo. Eso es útil para transformaciones que no son un simple intercambio:

import re

text = "Prices: 10, 20, 30"
doubled = re.sub(r"\d+", lambda m: str(int(m.group()) * 2), text)
print(doubled)

Compilar patrones para reutilizar

Si usas el mismo patrón muchas veces - especialmente en un bucle - compílalo una vez:

import re

DATE = re.compile(r"\d{4}-\d{2}-\d{2}")

lines = [
    "started at 2026-04-20",
    "no timestamp here",
    "finished 2026-04-21",
]

for line in lines:
    match = DATE.search(line)
    if match:
        print(match.group())

Los patrones compilados exponen los mismos métodos - search, match, findall, sub - sin el patrón como primer argumento. Ligeramente más eficiente, a menudo más legible.

Flags

Modificadores comunes, pasados como argumento flags= u OR'd juntos:

re.IGNORECASE (re.I) - coincidencia sin distinguir mayúsculas.
re.MULTILINE (re.M) - ^ y $ coinciden en cada línea, no solo en los límites del string.
re.DOTALL (re.S) - . coincide también con saltos de línea (por defecto no).
re.VERBOSE (re.X) - permite espacios en blanco y comentarios # en el patrón, para legibilidad.

import re

text = "HELLO world"
print(re.search(r"hello", text))
print(re.search(r"hello", text, re.IGNORECASE))

re.VERBOSE es especialmente útil para patrones complejos:

import re

pattern = re.compile(r"""
    (?P<user>[\w.]+)    # parte del usuario
    @                    # arroba literal
    (?P<domain>[\w.-]+)  # dominio
""", re.VERBOSE)

match = pattern.search("Contact me at rosa@example.com")
if match:
    print(match.groupdict())

Las regex multilínea y comentadas son muchísimo más fáciles de mantener que one-liners opacos.

Greedy vs lazy

Los cuantificadores (*, +, ?, {n,}) son greedy por defecto - hacen match de tanto como puedan. Añade un ? para hacerlos lazy:

import re

html = "<b>bold</b> and <i>italic</i>"

# Greedy - hace match desde el primer < hasta el último >
print(re.findall(r"<.+>", html))

# Lazy - hace match a cada tag por separado
print(re.findall(r"<.+?>", html))

La versión greedy captura toda la subcadena desde <b> hasta </i> - probablemente no lo que querías. El .+? lazy para en el primer >.

(Nota al margen: no parsees HTML con regex en producción. Usa html.parser o BeautifulSoup. El ejemplo de arriba es solo para ilustrar la greediness.)

Un ejemplo realista

Parsear líneas de un formato de log simple:

import re

log = """
2026-04-20 09:00:12 INFO  Server started
2026-04-20 09:01:45 WARN  Slow query detected
2026-04-20 09:03:01 ERROR Database connection lost
"""

pattern = re.compile(r"""
    (?P<date>\d{4}-\d{2}-\d{2})\s+
    (?P<time>\d{2}:\d{2}:\d{2})\s+
    (?P<level>INFO|WARN|ERROR)\s+
    (?P<message>.+)
""", re.VERBOSE)

for line in log.strip().splitlines():
    match = pattern.match(line)
    if match:
        print(match.groupdict())

Eso es mucha potencia en no muchas líneas.

Unos cuantos hábitos

Usa siempre strings raw para patrones.
Empieza con el patrón más simple que funcione; afínalo después.
Usa grupos con nombre cuando tengas más de un grupo.
Compila los patrones que vayas a reutilizar.
Regex es más lento que los métodos planos de string. Si .split() sirve, usa .split().

Siguiente: errores y depuración

Eso cierra el tour de datos reales - archivos, JSON, CSV, HTTP, fechas y regex. Cualquier cosa en un programa real tarde o temprano se topa con un error, eso sí, y leer bien los tracebacks de Python es la habilidad de depuración más importante que puedes coger. El último capítulo cubre excepciones y los errores específicos con los que te encontrarás más a menudo.

Preguntas frecuentes

¿Qué es regex en Python?

Una expresión regular (regex) es un pequeño lenguaje para describir patrones en texto. El módulo re de Python te deja buscar patrones, extraer piezas y reemplazar coincidencias. Es excesivo para operaciones simples de string - usa métodos de string como .split() o .replace() primero - pero insuperable para coincidencias estructuradas de patrones.

¿Cuál es la diferencia entre re.match y re.search?

re.match solo hace match al principio del string. re.search escanea el string entero y encuentra la primera coincidencia en cualquier sitio. En caso de duda, usa search - coincide mejor con la intuición humana.

¿Debería usar siempre strings raw para patrones regex?

Sí. Los patrones regex a menudo contienen barras invertidas (\d, \s, \b), que los strings de Python interpretan como secuencias de escape. Prefijar con r - r'\d+' - le dice a Python que tome el string literalmente, lo que mantiene la regex en sí legible.

Conceptos relacionados

Prueba una herramienta relacionada

Herramientas gratuitas del navegador que aplican este concepto en la práctica.

Regex TesterTest regular expressions with animated match highlighting.

Tutorial de regex en Python: módulo re, patrones, grupos y reemplazo

Cuándo recurrir a regex

El vocabulario básico

Las funciones clave

Grupos de captura

Reemplazar con `re.sub`

Compilar patrones para reutilizar

Flags

Greedy vs lazy

Un ejemplo realista

Unos cuantos hábitos

Siguiente: errores y depuración

Preguntas frecuentes

Aprende a programar con Coddy

Cuándo recurrir a regex

El vocabulario básico

Las funciones clave

Grupos de captura

Reemplazar con re.sub

Compilar patrones para reutilizar

Flags

Greedy vs lazy

Un ejemplo realista

Unos cuantos hábitos

Siguiente: errores y depuración

Preguntas frecuentes

Aprende a programar con Coddy

Reemplazar con `re.sub`