وثائق Python قابلة للتشغيل: التعابير النمطية

Q: ما الفرق بين re.match و re.search؟

re.match يطابق فقط من بداية النص، بينما re.search يفحص النص بالكامل ويُعيد أول تطابق يجده في أي موضع. إذا كنت متردداً فاستخدم search - فهو أقرب لما يتوقعه الإنسان فعلياً.

متى تلجأ إلى التعابير النمطية؟

التعابير النمطية (regex) هي لغة صغيرة تستخدمها لوصف أنماط النصوص. قوية جداً، ومن السهل الإفراط في استخدامها.

قبل أن تستورد re، اسأل نفسك: هل تكفي دوال السلاسل النصية العادية؟ فاستخدام .split() و.replace() و.startswith() أو "target" in text أسرع وأوضح للقراءة وأقل عُرضة للأخطاء من أي تعبير نمطي مكافئ. احتفظ بـ regex بايثون للحالات التي يكون فيها النمط الذي تبحث عنه ذا بنية حقيقية، لكنه أكثر مرونة من أن تتعامل معه بعمليات نصية ثابتة: عناوين البريد الإلكتروني، أرقام الهواتف، أسطر سجلات (logs) ذات شكل معروف، مقاطع HTML أو Markdown، وكل عمليات البحث من نوع "جِد أي شيء يشبه هذا".

المفردات الأساسية في regex

النمط (pattern) في التعابير النمطية مجرد سلسلة نصية تصف ما تبحث عنه. إليك أهم اللبنات:

. - أي محرف مفرد
\d - أي رقم (من 0 إلى 9)
\w - أي محرف "كلمة" (حرف أو رقم أو شرطة سفلية)
\s - أي محرف فراغ
^ - بداية النص
$ - نهاية النص
[abc] - أي واحد من a أو b أو c
[^abc] - أي محرف ما عدا a و b و c
a|b - إما a أو b
* - صفر أو أكثر من العنصر السابق
+ - واحد أو أكثر
? - صفر أو واحد
{3} - ثلاث مرات بالضبط
{2,5} - من 2 إلى 5 مرات
( ... ) - مجموعة (تلتقط ما يطابقها بداخلها)

هذا القدر يكفيك لمعظم الاستخدامات الواقعية.

أهم دوال وحدة re في بايثون

الدالة re.search(pattern, text) تبحث عن أول تطابق في أي موضع داخل النص، وتُعيد كائن تطابق (match object) أو None:

import re

text = "Order 12345 shipped on 2026-04-20"
match = re.search(r"\d{5}", text)

if match:
    print("Found:", match.group())
    print("Position:", match.start(), "-", match.end())
else:
    print("No match")

استخدم دائماً السلاسل الخام (r"...") عند كتابة أنماط regex في بايثون. خلاف ذلك ستحاول بايثون تفسير الشرطات المائلة العكسية كرموز هروب داخل النص، فينتهي بك الأمر بنمط مختلف تماماً عمّا كتبته.

الدالة re.match(pattern, text) تشبه search، لكنها تبحث عن تطابق في بداية النص فقط:

import re

print(re.search(r"hello", "say hello"))   # match
print(re.match(r"hello", "say hello"))    # None - didn't start with hello

في معظم الحالات ستحتاج إلى search.

الدالة re.findall(pattern, text) تُرجع جميع التطابقات غير المتداخلة على شكل قائمة:

import re

text = "Apples 3, oranges 12, pears 7"
numbers = re.findall(r"\d+", text)
print(numbers)   # ['3', '12', '7']

انتبه إلى أنّ findall يُرجِع سلاسل نصية، لا كائنات match. إذا كان النمط يحتوي على مجموعة واحدة، ستحصل على محتوى تلك المجموعة مباشرة. أمّا إذا كان فيه أكثر من مجموعة، فستحصل على قائمة من الـ tuples.

المجموعات الملتقِطة (Capturing Groups) في regex بايثون

الأقواس داخل النمط تلتقط كل ما طابقها في النص:

import re

line = "2026-04-20: server started"
match = re.search(r"(\d{4})-(\d{2})-(\d{2}): (.+)", line)

if match:
    print(match.group(0))  # the whole match
    print(match.group(1))  # '2026' - first group
    print(match.group(2))  # '04'
    print(match.group(3))  # '20'
    print(match.group(4))  # 'server started'
    print(match.groups())  # tuple of all groups

المجموعات المُسمّاة (named groups) عادةً ما تكون أوضح:

import re

line = "2026-04-20: server started"
pattern = r"(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2}): (?P<msg>.+)"
match = re.search(pattern, line)

if match:
    print(match["year"], match["month"], match["day"])
    print(match.groupdict())

عندما يحتوي التعبير النمطي على أكثر من مجموعة، فإن تسميتها يجعل كود استخراج البيانات أوضح وأسهل في القراءة.

استبدال النصوص باستخدام `re.sub`

الدالة re.sub(pattern, replacement, text) تقوم باستبدال كل التطابقات في النص:

import re

text = "Call me at (415) 555-1234 or 212.555.5678"
cleaned = re.sub(r"[^\d]", "", text)
print(cleaned)

هذا السطر يحذف كل شيء باستثناء الأرقام. ويمكن للنص البديل أن يشير إلى المجموعات الملتقطة عبر \1 و\2 وهكذا، أو يمكنك استخدام \g<1> مع الـ raw strings لأنها أوضح:

import re

text = "Alice Johnson, Bob Smith, Carol Tran"
swapped = re.sub(r"(\w+) (\w+)", r"\2, \1", text)
print(swapped)

كذلك يمكنك تمرير دالة مكان النص البديل، وهذا مفيد في التحويلات التي لا تقتصر على مجرد استبدال مباشر:

import re

text = "Prices: 10, 20, 30"
doubled = re.sub(r"\d+", lambda m: str(int(m.group()) * 2), text)
print(doubled)

تجميع الأنماط لإعادة استخدامها (Compiling Patterns)

لو بتستخدم نفس النمط أكثر من مرة - خاصة داخل حلقة تكرارية - الأفضل تجمّعه مرة واحدة فقط:

import re

DATE = re.compile(r"\d{4}-\d{2}-\d{2}")

lines = [
    "started at 2026-04-20",
    "no timestamp here",
    "finished 2026-04-21",
]

for line in lines:
    match = DATE.search(line)
    if match:
        print(match.group())

الأنماط المُجمَّعة توفّر نفس الدوال - search وmatch وfindall وsub - لكن دون الحاجة لتمرير النمط كوسيط أول. هذا أكثر كفاءة بقليل، وغالبًا أوضح في القراءة.

الأعلام (Flags)

هذه أشهر المُعدِّلات، وتُمرَّر عبر الوسيط flags= أو تُدمَج باستخدام عامل OR:

re.IGNORECASE (re.I) - المطابقة دون التفريق بين الأحرف الكبيرة والصغيرة.
re.MULTILINE (re.M) - يجعل ^ و$ يطابقان بداية ونهاية كل سطر، لا حدود النص فقط.
re.DOTALL (re.S) - يجعل . يطابق محارف السطر الجديد أيضًا (افتراضيًا لا يطابقها).
re.VERBOSE (re.X) - يسمح بإضافة مسافات وتعليقات بـ # داخل النمط، لتحسين القراءة.

import re

text = "HELLO world"
print(re.search(r"hello", text))
print(re.search(r"hello", text, re.IGNORECASE))

re.VERBOSE مفيد جدًا عند التعامل مع التعابير النمطية المعقّدة:

import re

pattern = re.compile(r"""
    (?P<user>[\w.]+)    # username part
    @                    # literal at sign
    (?P<domain>[\w.-]+)  # domain
""", re.VERBOSE)

match = pattern.search("Contact me at rosa@example.com")
if match:
    print(match.groupdict())

التعابير النمطية متعددة الأسطر والمُعلَّق عليها أسهل بكثير في الصيانة من تلك المكتوبة في سطر واحد غامض.

الجشع مقابل الكسول (Greedy vs Lazy)

المُكمِّمات (*، +، ?، {n,}) في regex بايثون تكون جشعة افتراضيًا، أي أنها تحاول التقاط أكبر قدر ممكن من النص. ولجعلها كسولة، أضف ? بعدها:

import re

html = "<b>bold</b> and <i>italic</i>"

# Greedy - matches from the first < to the last >
print(re.findall(r"<.+>", html))

# Lazy - matches each tag separately
print(re.findall(r"<.+?>", html))

النسخة الجشعة (greedy) تلتقط النص كاملاً من <b> حتى </i> - وهذا غالباً ليس ما تريده. أما النسخة الكسولة .+? فتتوقف عند أول > تقابله.

(ملاحظة جانبية: لا تستخدم regex لتحليل HTML في مشاريع حقيقية. استعن بوحدة html.parser أو مكتبة BeautifulSoup. المثال أعلاه لمجرد توضيح فكرة الجشع.)

مثال واقعي

لنحلل أسطر ملف log بصيغة بسيطة:

import re

log = """
2026-04-20 09:00:12 INFO  Server started
2026-04-20 09:01:45 WARN  Slow query detected
2026-04-20 09:03:01 ERROR Database connection lost
"""

pattern = re.compile(r"""
    (?P<date>\d{4}-\d{2}-\d{2})\s+
    (?P<time>\d{2}:\d{2}:\d{2})\s+
    (?P<level>INFO|WARN|ERROR)\s+
    (?P<message>.+)
""", re.VERBOSE)

for line in log.strip().splitlines():
    match = pattern.match(line)
    if match:
        print(match.groupdict())

قوة كبيرة في أسطر قليلة جدًا.

عادات مفيدة

استخدم دائمًا النصوص الخام (raw strings) عند كتابة الأنماط.
ابدأ بأبسط نمط يؤدي المطلوب، ثم أحكِمه لاحقًا.
استخدم المجموعات المُسمّاة (named groups) بمجرد أن يتجاوز عدد المجموعات مجموعة واحدة.
اعمل compile للأنماط التي ستعيد استخدامها.
التعابير النمطية في بايثون أبطأ من دوال النصوص العادية. إذا كانت .split() تكفي، فاستعمل .split().

التالي: الأخطاء وتصحيحها

بهذا نختم جولتنا مع البيانات الحقيقية: الملفات، JSON، CSV، HTTP، التواريخ، ثم regex بايثون. لكن أي برنامج حقيقي لا بدّ أن يصطدم بخطأ عاجلًا أم آجلًا، وقراءة رسائل الـ traceback في بايثون بفهم هي أهم مهارة تصحيح أخطاء ستكتسبها على الإطلاق. الفصل الأخير يغطي الاستثناءات وأكثر الأخطاء التي ستقابلك في طريقك.

الأسئلة الشائعة

ما هي التعابير النمطية (Regex) في بايثون؟

التعبير النمطي (Regex) هو لغة صغيرة مخصصة لوصف الأنماط داخل النصوص. وحدة re في بايثون تتيح لك البحث عن هذه الأنماط، استخراج أجزاء منها، واستبدال ما يطابقها. طبعاً هي مبالغة لو كانت مهمتك بسيطة - في هذه الحالة ابدأ بدوال النصوص مثل .split() أو .replace() - لكنها لا تُضاهى حين تتعامل مع أنماط منظمة ومعقدة.

ما الفرق بين re.match و re.search؟

re.match يطابق فقط من بداية النص، بينما re.search يفحص النص بالكامل ويُعيد أول تطابق يجده في أي موضع. إذا كنت متردداً فاستخدم search - فهو أقرب لما يتوقعه الإنسان فعلياً.

هل يجب دائماً استخدام raw string مع أنماط Regex؟

نعم، يُفضّل ذلك. أنماط Regex تحتوي عادةً على شرطات مائلة عكسية مثل \d و \s و \b، وبايثون تتعامل معها كرموز هروب داخل النصوص العادية. وضع الحرف r قبل النص - مثل r'\d+' - يُخبر بايثون أن تأخذه حرفياً كما هو، فيبقى النمط واضحاً ومقروءاً.

مفاهيم ذات صلة

جرّب أداة ذات صلة

أدوات مجانية في المتصفح تطبّق هذا المفهوم عملياً.

Regex TesterTest regular expressions with animated match highlighting.

شرح Regex في بايثون: وحدة re والأنماط والاستبدال

متى تلجأ إلى التعابير النمطية؟

المفردات الأساسية في regex

أهم دوال وحدة re في بايثون

المجموعات الملتقِطة (Capturing Groups) في regex بايثون

استبدال النصوص باستخدام `re.sub`

تجميع الأنماط لإعادة استخدامها (Compiling Patterns)

الأعلام (Flags)

الجشع مقابل الكسول (Greedy vs Lazy)

مثال واقعي

عادات مفيدة

التالي: الأخطاء وتصحيحها

الأسئلة الشائعة

تعلّم البرمجة مع Coddy

متى تلجأ إلى التعابير النمطية؟

المفردات الأساسية في regex

أهم دوال وحدة re في بايثون

المجموعات الملتقِطة (Capturing Groups) في regex بايثون

استبدال النصوص باستخدام re.sub

تجميع الأنماط لإعادة استخدامها (Compiling Patterns)

الأعلام (Flags)

الجشع مقابل الكسول (Greedy vs Lazy)

مثال واقعي

عادات مفيدة

التالي: الأخطاء وتصحيحها

الأسئلة الشائعة

تعلّم البرمجة مع Coddy

استبدال النصوص باستخدام `re.sub`