Çalıştırılabilir Python Dokümanları: Regex

Q: re.match ile re.search arasındaki fark nedir?

re.match yalnızca string'in başında eşleşir. re.search tüm string'i tarar ve herhangi bir yerdeki ilk eşleşmeyi bulur. Emin değilsen search kullan - insan sezgisine daha uyar.

Regex'e Ne Zaman Başvurulur

Düzenli ifadeler, metin desenlerini tanımlamak için kullanılan küçük bir dildir. Güçlüdürler ve fazla kullanması kolaydır.

re'ye uzanmadan önce düz string metotlarının işi görüp görmeyeceğini sor. .split(), .replace(), .startswith(), "target" in text - bunlar eşdeğer regex'ten daha hızlı, daha okunaklı ve hataya daha az açıktır. Regex'i, önemsediğin desen gerçekten yapılandırılmış ama sabit string işlemleri için fazla esnek olduğunda sakla: e-posta adresleri, telefon numaraları, şekli bilinen log satırları, HTML ya da Markdown parçaları, her türlü "şu şeyden bul" araması.

Temel Söz Dağarcığı

Bir regex deseni, aradığın şeyi tanımlayan bir string'dir. Birkaç yapı taşı:

. - herhangi tek bir karakter
\d - herhangi bir rakam (0–9)
\w - herhangi bir "kelime" karakteri (harf, rakam, alt çizgi)
\s - herhangi bir boşluk karakteri
^ - string'in başı
$ - string'in sonu
[abc] - a, b veya c'den biri
[^abc] - a, b, c dışında herhangi bir karakter
a|b - a veya b
* - öncekinden sıfır veya daha fazla
+ - bir veya daha fazla
? - sıfır ya da bir
{3} - tam olarak 3
{2,5} - 2 ile 5 arası
( ... ) - grup (içindeki eşleşmeyi yakalar)

Çoğu gerçek dünya regex'i için bu kadarı yeterlidir.

Anahtar Fonksiyonlar

re.search(pattern, text), string'in herhangi bir yerindeki ilk eşleşmeyi bulur. Bir match nesnesi ya da None döndürür:

import re

text = "Order 12345 shipped on 2026-04-20"
match = re.search(r"\d{5}", text)

if match:
    print("Found:", match.group())
    print("Position:", match.start(), "-", match.end())
else:
    print("No match")

Regex desenleri için her zaman raw string (r"...") kullan. Aksi halde Python ters bölüleri string kaçışları olarak yorumlamaya çalışır ve yazdığından farklı bir desen elde edersin.

re.match(pattern, text), search gibidir ama yalnızca başta eşleşir:

import re

print(re.search(r"hello", "say hello"))   # match
print(re.match(r"hello", "say hello"))    # None - didn't start with hello

Çoğu zaman search istersin.

re.findall(pattern, text), tüm örtüşmeyen eşleşmeleri liste olarak döndürür:

import re

text = "Apples 3, oranges 12, pears 7"
numbers = re.findall(r"\d+", text)
print(numbers)   # ['3', '12', '7']

findall'ın match nesneleri değil, string'ler döndürdüğüne dikkat et. Bir grubu olan bir desenin varsa, grup içeriklerini alırsın. Birden fazla grupla, tuple listesi alırsın.

Yakalama Grupları

Bir desendeki parantezler, içeride eşleşen her şeyi yakalar:

import re

line = "2026-04-20: server started"
match = re.search(r"(\d{4})-(\d{2})-(\d{2}): (.+)", line)

if match:
    print(match.group(0))  # the whole match
    print(match.group(1))  # '2026' - first group
    print(match.group(2))  # '04'
    print(match.group(3))  # '20'
    print(match.group(4))  # 'server started'
    print(match.groups())  # tuple of all groups

Adlandırılmış gruplar genelde daha nettir:

import re

line = "2026-04-20: server started"
pattern = r"(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2}): (?P<msg>.+)"
match = re.search(pattern, line)

if match:
    print(match["year"], match["month"], match["day"])
    print(match.groupdict())

Regex'inde birden fazla grup olduğunda, onlara isim vermek çıkarma kodunu izlemesi çok daha kolay hale getirir.

`re.sub` ile Değiştirmek

re.sub(pattern, replacement, text) her eşleşmeyi değiştirir:

import re

text = "Call me at (415) 555-1234 or 212.555.5678"
cleaned = re.sub(r"[^\d]", "", text)
print(cleaned)

Bu, rakam olmayan her şeyi siler. Yerine konulan değer yakalanan grupları \1, \2 vb. ile referanslayabilir - ya da raw string'lerde \g<1> daha nettir:

import re

text = "Alice Johnson, Bob Smith, Carol Tran"
swapped = re.sub(r"(\w+) (\w+)", r"\2, \1", text)
print(swapped)

Yerine konulan değer olarak bir fonksiyon da geçebilirsin. Bu, basit bir takas olmayan dönüşümler için kullanışlıdır:

import re

text = "Prices: 10, 20, 30"
doubled = re.sub(r"\d+", lambda m: str(int(m.group()) * 2), text)
print(doubled)

Tekrar Kullanım İçin Desen Derlemek

Aynı deseni defalarca kullanıyorsan - özellikle bir döngüde - onu bir kez derle:

import re

DATE = re.compile(r"\d{4}-\d{2}-\d{2}")

lines = [
    "started at 2026-04-20",
    "no timestamp here",
    "finished 2026-04-21",
]

for line in lines:
    match = DATE.search(line)
    if match:
        print(match.group())

Derlenmiş desenler aynı metotları - search, match, findall, sub - ilk argüman olarak deseni vermeden sunar. Biraz daha verimli, çoğu zaman daha okunaklı.

Bayraklar

flags= argümanı olarak ya da VEYA ile birleştirilerek geçilen yaygın değiştiriciler:

re.IGNORECASE (re.I) - büyük/küçük harf duyarsız eşleşme.
re.MULTILINE (re.M) - ^ ve $ her satırda eşleşir, sadece string sınırlarında değil.
re.DOTALL (re.S) - . satır sonlarıyla da eşleşir (varsayılan olarak eşleşmez).
re.VERBOSE (re.X) - okunabilirlik için desende boşluk ve # yorum satırlarına izin verir.

import re

text = "HELLO world"
print(re.search(r"hello", text))
print(re.search(r"hello", text, re.IGNORECASE))

re.VERBOSE özellikle karmaşık desenler için kullanışlıdır:

import re

pattern = re.compile(r"""
    (?P<user>[\w.]+)    # username part
    @                    # literal at sign
    (?P<domain>[\w.-]+)  # domain
""", re.VERBOSE)

match = pattern.search("Contact me at rosa@example.com")
if match:
    print(match.groupdict())

Çok satırlı, yorumlu regex'lerin bakımı, anlaşılmaz tek satırlıklarınkinden çok daha kolaydır.

Greedy ve Lazy

Niceleyiciler (*, +, ?, {n,}) varsayılan olarak greedy'dir - olabildiğince çoğunu eşler. Lazy yapmak için bir ? ekle:

import re

html = "<b>bold</b> and <i>italic</i>"

# Greedy - ilk <'den son >'a kadar eşleşir
print(re.findall(r"<.+>", html))

# Lazy - her etiketi ayrı ayrı eşler
print(re.findall(r"<.+?>", html))

Greedy versiyon <b>'den </i>'ye kadar tüm alt string'i yakalar - muhtemelen istediğin bu değildi. Lazy olan .+?, ilk >'da durur.

(Yan not: prodüksiyonda HTML'i regex ile ayrıştırma. html.parser ya da BeautifulSoup kullan. Yukarıdaki örnek sadece greedy'liği göstermek için.)

Gerçekçi Bir Örnek

Basit bir log formatından satırları ayrıştırmak:

import re

log = """
2026-04-20 09:00:12 INFO  Server started
2026-04-20 09:01:45 WARN  Slow query detected
2026-04-20 09:03:01 ERROR Database connection lost
"""

pattern = re.compile(r"""
    (?P<date>\d{4}-\d{2}-\d{2})\s+
    (?P<time>\d{2}:\d{2}:\d{2})\s+
    (?P<level>INFO|WARN|ERROR)\s+
    (?P<message>.+)
""", re.VERBOSE)

for line in log.strip().splitlines():
    match = pattern.match(line)
    if match:
        print(match.groupdict())

Çok satır olmayan bir yerde bir hayli güç.

Birkaç Alışkanlık

Desenler için her zaman raw string kullan.
İşe yarayan en basit desenle başla; sonra sıkılaştır.
Birden fazla grubun olduğu anda adlandırılmış gruplar kullan.
Tekrar kullanacağın desenleri derle.
Regex, düz string metotlarından yavaştır. .split() iş görecekse .split() kullan.

Sırada: Hatalar ve Hata Ayıklama

Bu, gerçek veri turunu kapattı - dosyalar, JSON, CSV, HTTP, tarihler ve regex. Ama gerçek bir programda her şey er ya da geç bir hataya çarpar ve Python traceback'lerini iyi okumak, geliştireceğin tek en büyük hata ayıklama becerisidir. Son bölüm, istisnaları ve en sık karşılaşacağın belirli hataları konu alıyor.

Sıkça Sorulan Sorular

Python'da regex nedir?

Düzenli ifade (regex), metindeki desenleri tanımlamak için kullanılan küçük bir dildir. Python'un re modülü desen aramanı, parça çıkarmanı ve eşleşmeleri değiştirmeni sağlar. Basit string işlemleri için abartılıdır - önce .split() ya da .replace() gibi string metotlarını dene - ama yapılandırılmış desen eşleşmesinde emsalsizdir.

re.match ile re.search arasındaki fark nedir?

re.match yalnızca string'in başında eşleşir. re.search tüm string'i tarar ve herhangi bir yerdeki ilk eşleşmeyi bulur. Emin değilsen search kullan - insan sezgisine daha uyar.

Regex desenleri için hep raw string mi kullanmalıyım?

Evet. Regex desenleri genelde ters bölü karakterleri içerir (\d, \s, \b); Python string'leri bunları kaçış dizileri olarak yorumlar. Başına r eklemek - r'\d+' - Python'a string'i harfiyen alması gerektiğini söyler, böylece regex'in kendisi okunaklı kalır.

İlgili kavramlar

İlgili bir aracı deneyin

Bu kavramı pratiğe döken ücretsiz tarayıcı araçları.

Regex TesterTest regular expressions with animated match highlighting.

Python Regex Eğitimi: re Modülü, Desenler, Gruplar ve Değiştirme

Regex'e Ne Zaman Başvurulur

Temel Söz Dağarcığı

Anahtar Fonksiyonlar

Yakalama Grupları

`re.sub` ile Değiştirmek

Tekrar Kullanım İçin Desen Derlemek

Bayraklar

Greedy ve Lazy

Gerçekçi Bir Örnek

Birkaç Alışkanlık

Sırada: Hatalar ve Hata Ayıklama

Sıkça Sorulan Sorular

Coddy ile kodlamayı öğren

Regex'e Ne Zaman Başvurulur

Temel Söz Dağarcığı

Anahtar Fonksiyonlar

Yakalama Grupları

re.sub ile Değiştirmek

Tekrar Kullanım İçin Desen Derlemek

Bayraklar

Greedy ve Lazy

Gerçekçi Bir Örnek

Birkaç Alışkanlık

Sırada: Hatalar ve Hata Ayıklama

Sıkça Sorulan Sorular

Coddy ile kodlamayı öğren

`re.sub` ile Değiştirmek