RegEx چیست؟ – عبارت های با قاعده به زبان ساده

۵۵۳ بازدید
آخرین به‌روزرسانی: ۲۶ دی ۱۴۰۲
زمان مطالعه: ۲۴ دقیقه
RegEx چیست؟ – عبارت های با قاعده به زبان ساده

«عبارات منظم» یا «عبارات با قاعده» (Regular Expressions) برای گستره وسیعی از وظایف مربوط به پردازش رشته، از اعتبارسنجی داده‌ها گرفته تا جست‌وجوی سریع برای پیدا کردن عبارت‌ها در متن‌های طولانی، استفاده می‌شوند. به‌کمک درک رجکس‌ها می‌توانید برای پیدا کردن دقیق رشته‌ای که می‌خواهید ابزار قدرتمندی بسازید. سعی کرده‌ایم در این مطلب از مجله فرادرس به این سوال که RegEx چیست پاسخ کاملی بدهیم و روش استفاده از آن را بیان کنیم.

فهرست مطالب این نوشته

عبارات منظم ابزار قدرتمندی هستند که می‌توانند برای جستجو، دستکاری و اعتبارسنجی رشته‌ها استفاده شوند. با اینکه در ابتدا ممکن است کمی پیچیده به نظر برسند اما داشتن درک خوب درباره مفاهیم و اجزای عبارات منظم، برای هر برنامه‌نویسی امری ضروری است و با کمی تکرار و تمرین متوجه خواهید شد که نه‌تنها چندان سخت نیست بلکه جذابیت خاصی هم دارد.

RegEx چیست؟

عبارات منظم، همان‌طور که گفته شد به‌صورت RegEx مورد اشاره قرار می‌گیرند. این عبارات بیان‌گر زنجیره‌ای از کاراکترها است که الگویی را برای جست‌وجو تعریف می‌کند. در اصل برای جست‌وجوهای مبتنی بر متن و دستکاری و تغییر در رشته‌ها به‌کار می‌رود.

RegEx اغلب در توسعه‌ برنامه‌های اینترنتی به‌کار می‌رود تا ورودی‌های کاربران را اعتبارسنجی کند یا رشته‌های خاصی از کاراکترها را درون بلوک‌های بزرگ متن پیدا کند. همچنین استفاده گسترده‌ای در دیتا ساینس، پردازش زبان طبیعی و تجزیه و تحلیل متن دارد.

لپ تاپ که در پس زمینه آسمان شب قرار دارد و برنامه نویسی در حال تایپ کردن است.

عبارات منظم با استفاده ترکیبی از کاراکترهای اختصاصی‌سازی شده و کاراکترهای عینی نوشته می‌شوند.

  • کاراکترهای اختصاصی‌سازی شده اجازه می‌دهند که از RegEx برای پیداکردن الگو در رشته‌ها استفاده شود، در واقع کاراکترهای اختصاصی‌سازی شده، به کاراکترهایی می‌گویند که دارای معنی و وظیفه خاصی هستند و به معنی ظاهری‌شان استفاده نمی‌شوند. به عنوان مثال کاراکتر *  به معنی نماد ستاره نیست و وظیفه و شرایط خاصی را برای رشته ماقبل خود تعیین می‌کند که در ادامه به‌طور کامل توضیح داده‌ایم.
  • کارکترهای عینی برای تطابق دقیق معنا با هر کاراکتر یا عبارت استفاده می‌شود. در واقع به کاراکتر یا نمادی که نشانه خودش است، به‌جای خودش قرار می‌گیرد و سمبل آن همان نمایش مقدار خودش است، «ثابت عینی» (Literal) می‌گویند.

برای مثال در صورتی که بخواهید هر رشته‌ای را که با «ABC» شروع می‌شود و به «xyz» ختم می‌شود را با عبارات منظم تطابق دهید، می‌توانید از RegEx زیر استفاده کنید.

/^ABC.*xyz$/

این RegEx با هر رشته‌ای که با «ABC» شروع شود و با هر تعداد کاراکتر دلخواه ادامه داشته باشد قبل از اینکه به «xyz» ختم شود تطابق‌پذیری دارد. عبارات منظم برای گستره وسیعی از وظایف از اعتبارسنجی داده‌ها گرفته تا جست‌وجو سریع روی حجم زیادی از متن قابل استفاده است و برای هر برنامه‌نویس یا دانشمند داده‌ای که با رشته‌ها یا داده‌های مبتنی بر متن کار می‌کند، ابزار بسیار ضروری است.

اجزای RegEx چیست؟

RegEx-ها از چندین جزء مختلف تشکیل شده‌اند که برای تعریف یک الگوی جست‌وجو با یکدیگر کار می‌کنند. رایج‌ترین اجزا شامل «اَنکرها» (Anchors)، کلاس‌های کاراکتر، «شمارنده‌ها» (Quantifiers) و «جایگزینی» (Alternation) هستند.

Anchors

«اَنکرها» (Anchors) نقاط شروع و پایان یک خط یا رشته را به یکدیگر تطبیق می‌دهند. برای مثال، می‌توانید از ^   برای علامت گذاری محل شروع یک رشته و از « $ » برای علامت گذاری پایان یک رشته استفاده کنید.

کلاس های کاراکتر

«کلاس‌های کاراکتری» (Character Classes) این امکان را می‌دهند، مجموعه‌های خاصی از کاراکترها را تعریف کنید که می‌توانند در الگویی برای جست‌وجو استفاده شوند. برای مثال، می‌توان از \d   برای تطبیق هر رقمی از ۰ تا ۹ یا از \w   برای تطبیق هر کاراکتر «عددی-الفبایی» (Alphanumeric) استفاده کنید.

شمارنده ها

«شمارنده‌ها» (Quantifiers) این امکان را می‌دهند تا مشخص کنید چه تعدادی از کاراکترها یا کلاس‌های کاراکتری باید تطبیق داده‌شوند. برای مثال، می‌توان با استفاده از « * » معین کرد که تعداد صفر یا بیشتری از کاراکتر یا کلاس کاراکتری قبلی به‌کار برده شود یا از « + » استفاده کنید تا تعداد حداقل یک یا بیشتری از کاراکتر یا کلاس کاراکتری قبلی استفاده شود.

جایگزینی

«جایگزینی» (Alternation) این امکان را می‌دهد که چندین الگوی جست‌وجوی قابل تطبیق را مشخص کنید که برای هرکدام احتمال وقوع وجود دارد. برای مثال، با استفاده از |   می‌توانید هرکدام از دو کلاس کاراکتری یا کاراکترها را که در دو طرف علامت قرار گرفته‌اند، استفاده کنید.

برنامه نویس در حال کار روی پروژه در نور روز

این اجزا، تنها تعدادی از اجزایی هستند که برای ساخت عبارات منظم استفاده می‌شوند. آگاهی از نحوه استفاده صحیح از این اجزا برای ایجاد RegEx‌-های قدرتمند و یافتن رشته‌های خاصی درون متن، ضروری است.

مفاهیم پایه RegEx

برای اینکه بفهمیم RegEx چیست، درک مفاهیم پایه RegEx ضروری است. مهم‌ترین مفاهیم این بخش را در زیر فهرست کرده‌ایم و برای هر یک توضیح مختصری آورده‌ایم.

  • «نمادگذاری» (Notation): عبارت مختصری که برای اشاره به الگوهای رایج، استفاده می‌شود.
  • «قواعد دستوری» (Syntax): مجموعه قوانینی که چگونگی نوشتن RegEx‌-ها را تعیین می‌کنند.
  • «الگوها» (Patterns): ردیفی از کاراکترها که یک الگوی جست‌وجو را تعریف می‌کنند.
  • «تطبیق» (Matching): فرایند پیداکردن الگوی خاصی درون رشته‌ها (همه کارها درنهایت برای این است که بتوانیم الگوی RegEx طراحی کنیم که به کمک تطبیق آن بر روی رشته، کلمه‌، متن یا عبارتی که به‌دنبال آن می‌گردیم به هدف خود برسیم).
  • «ذخیره‌سازی» (Capturing): به فرایند ذخیره‌کردن همه یا قسمتی از یک رشته تطبیق داده شده، به‌صورت یک گروه برای استفاده در آینده گفته می‌شود.
  • «جای‌گذاری» (Substitution): به فرایند جای‌گذاری الگوی تطبیق داده شده با رشته دیگری، Substitution می‌گویند.
  • «پرچم‌ها» (Flags): مجموعه دستورالعمل‌هایی که رفتار RegEx را بهبود می‌بخشند.

در ادامه مطلب برای همه مفاهیم تعریف شده در بالا، توضیح بیشتر به همراه مثال برای درک بهتر موضوع، آورده‌ایم.

قواعد دستوری و نماد گذاری

اکنون که تقریبا متوجه شدیم RegEx چیست باید با مفاهیم RegEx نیز بیشتر آشنا شویم. قبل از اینکه RegEx نویسی را شروع کنیم، بسیار مهم است که خود را با استفاده از قواعد دستوری و نمادگذاری خو بدهیم. رایج‌ترین عناصر قواعد دستوری شامل مواردی می‌شوند که در ادامه فهرست کرده‌ایم.

  • «بک‌اسلش» (Backslash) با علامت \  : کاراکترهای اختصاصی را رها می‌کند تا بتوانند به‌عنوان کاراکتر عینی به‌کار برده شوند.
  • «براکت» (Brackets) با علامت [ ]  : مجموعه‌ای از کاراکترها را که باید تطبیق داده شوند تعریف می‌کند و از کاراکترهای احتمالی اطرافشان مجزا می‌کند.
  • «پرانتز» (Parentheses) با علامت ( )  : قسمتی از تطبیقی را در یک گروه ذخیره می‌کند.
  • «ستاره» (Asterisk) با علامت * : بررسی می‌کند که تعداد صفر یا بیشتری از کاراکتر یا کلاس کاراکتری قبلی تطبیق داده شوند.
  • «علامت جمع» (Plus sign) با علامت + : بررسی می‌کند که تعداد حداقل یک یا بیشتری از کاراکتر یا کلاس کاراکتری قبلی تطبیق داده شوند.
  • «علامت سوال» (Question mark) با علامت ?  : بررسی می‌کند که تعداد فقط صفر یا یک عدد از کاراکتر یا کلاس کاراکتری قبلی تطبیق داده شوند.
  • «پایپ» (Pipe) با علامت | : برای تطبیق هر یک از دو مورد کاراکتر یا کلاس کاراکتری موجود در دو طرف پایپ، به‌کار برده می‌شود.

رایج‌ترین عناصر نمادگذاری، در فهرست زیر آورده شده است.

  • ^  : شروع رشته یا خطی را که قرار است تطبیق داده شود مشخص می‌کند.
  • $  : پایان رشته یا خطی را که قرار است تطبیق داده شود مشخص می‌کند.
  • \d  : تمام رقم‌ها از ۰ تا ۹ را تطبیق می‌دهد.
  • \w  : تمام کاراکترهای الفبا و رقمی را تطبیق می‌دهد. فقط الفبای انگلیسی و رقم (a-zA-Z0-9) را بررسی می‌کند.

سعی کنید این قواعد دستوری و نمادگذاری‌ها را یاد بگیرید. این مهارت‌ها در ایجاد RegEx‌-های قوی‌تر کمک زیادی به شما خواهد کرد.

الگوها

RegEx‌-ها از «الگوهایی» (Patterns) تشکیل شده‌اند که خود، الگوی جست‌وجو تعریف می‌کنند. برای اینکه بدانید ابتدایی‌ترین RegEx چیست، باید بگوییم که ابتدایی‌ترین RegEx به سادگی از توالی از کاراکترها تشکیل می‌شود. برای مثال، رشته «cat» با هر توالی موجودی از حرف «c» که با حرف «a»ی دنبال شود که خود با حرف «t» دنبال می‌شود در هر رشته، مطابقت پیدا می‌کند.

به همین صورت برای ایجاد RegEx-های پیچیده‌تر می‌توانید از کاراکترهای خاص یا کلاس‌های کاراکتری استفاده کنید. برای مثال، رشته \d\w+  با هر توالی از به تعداد یک یا بیشتر کاراکتر «حرفی-عددی» (Alphanumeric) در رنج (a-zA-Z0-9) مطابقت پیدا می‌کند.

شما همچنین می‌توانید چندین الگو را با یکدیگر ترکیب کنید تا RegEx-های پیچیده‌تری ایجاد کنید. به‌عنوان نمونه، رشته ^\d{2}-\w+  با هر توالی از کاراکترها به این صورت که در ابتدا دو رقم وجود داشته باشند که با یک خط تیره دنبال شوند که آن هم با تعداد حداقل یک کاراکتر حرف-عددی دنبال شود.

تطبیق

دفعه اولی که RegEx خود را ایجاد کردید یا الگوی جست‌وجوی خود را تعریف کردید، می‌توانید از آن برای «تطبیق» (Matching) با رشته متناظرش در هر متنی استفاده کنید. هرچه قدر بیشتر به‌پیش بروید و تمرین کنید، بیشتر متوجه خواهید شد که RegEx چیست و چگونه می‌توان از آن استفاده برد. ابزار و زبان‌های برنامه‌نویسی زیادی وجود دارند که امکان استفاده از RegEx را می‌دهند. بعضی از این زبان‌های برنامه نویسی را برای شما فهرست کرده‌ایم.

Capturing

علاوه‌بر تطبیق رشته‌ها با متن، RegEx-ها همچنین توانایی ذخیره‌کردن قسمتی یا تمام یک تطبیق را درون یک گروه دارند. اگر به‌خواهید برای استفاده در آینده، قسمتی از متن مطابقت یافته خاصی را ذخیره کنید، این توانایی بسیار مفید است. برای مثال در RegEx ^\d{2}-\w+   می‌توان ۲ رقم اول و بقیه کاراکترهای حرفی-عددی را -بعد از شناسایی تمام مطابقت‌ها در متن مورد نظر- در گروه‌های جداگانه‌ای ذخیره کرد. به این کار «ذخیره‌سازی» (Capturing) می‌گویند. واژه ذخیره‌سازی تا حد خوبی، رفتار این عملیات را توصیف می‌کند.

جای گذاری

یکی از کاربردهای دیگر RegEx «جای‌گذاری» (Substitution) است. یعنی از RegEx زمانی که می‌خواهید الگوی تطبیق یافته‌ای را به‌جای رشته‌ی دیگری جای‌گذاری کنید نیز استفاده می‌شود. این کاربرد درجایی مفید است که بخواهید بخش‌های مشخصی از یک متن را با رشته دیگری جایگزین کنید. برای مثال، RegEx ^\d{2}-\w+  می‌تواند برای جای‌گذاری ۲ کاراکتر عددی اول یا بقیه کاراکترهای حرفی-عددی با رشته جدیدی استفاده شود.

پرچم‌ ها

و درنهایت برای اینکه بیشتر متوجه شوید RegEx چیست باید نسبت به «پرچم‌ها» (Flags)هم اطلاعات اولیه‌ای داشته باشید. RegEx-ها می‌توانند از پرچم‌ها برای بهبود رفتار خودشان استفاده کنند. این پرچم‌ها اجازه می‌دهند که چگونگی رفتار RegEx را تغییر دهید، به عنوان مثال می‌توانید تعیین کنید که RegEx نسبت به بزرگی و کوچکی حروف بی تفاوت باشد یا اجازه بدهید که عمل تطبیق را روی چندین خط انجام دهد.

ایجاد و استفاده از عبارات منظم

RegEx‌-ها به‌طور باورنکردنی در کار تغییردادن و جست‌وجو روی رشته‌های هر متنی قدرتمند عمل می‌کنند. به وسیله چند جز ساده و ابتدایی از الگوها، قواعد دستوری و نمادگذاری‌ها می‌توانید RegEx-های قدرتمندی درست کنید که برای تطبیق دادن، ذخیره‌سازی و جای‌گذاری تکه‌های رشته‌ها استفاده شوند.

یک ذره بین در حال نمایش کدهای لپ تاپ روی میز

نحوه ایجاد RegEX برای یافتن مطابقت ها در رشته

تا اینجا درک مناسبی پیدا کرده‌ایم که RefEx چیست و چه کاربردهایی دارد اما در ادامه می‌خواهیم با حل مثال‌هایی، اولین RegEx را ایجاد کنیم.

  • مرحله اول: الگو را تعیین کنید. مرحله اول این است که الگویی را که می‌خواهید تطبیق داده شود را تعیین کنید. اگر بخواهیم به‌طور کلی بیان کنیم، این الگو توالی از کاراکترها خواهد بود که نوع رشته‌ای را که شما به‌دنبال آن هستید را توصیف می‌کند.
  • مرحله دوم: RegEx خود را ایجاد کنید. وقتی که الگوی خودرا تعیین کردید، نوبت ایجاد کردن RegEx است. می‌توان این کار را با استفاده از اجزای قواعد نوشتاری و نمادگذاری‌ها انجام داد. این اجزا را در بالا توضیح داده‌ایم. می‌توانید از آن‌ها برای ساخت رشته جست‌وجو استفاده کنید.
  • مرحله سوم: RegEx خود را آزمایش کنید. وقتی که RegEx خود را ایجاد کردید نوبت استفاده از آن می‌رسد. این‌کار به شما امکان می‌دهد که بررسی کنید، آیا RegEx شما با رشته‌های که بدنبال آن هستید مطابقت پیدا می‌کند یا نه؟
  • مرحله چهارم: از RegEx خود استفاده کنید. به محض اینکه RegEx خود را آزمایش کردید و کارایی آن را تایید کردید، نوبت به استفاده کردن از آن می‌رسد. این امر با به‌کار بردن RegEx در ابزار یا زبان برنامه‌نویسی که از RegEx-ها پشتیبانی کند ممکن می‌شود.

مرحله اول

در زمان حل مسئله، برای فکر کردن روی الگو زمان کافی صرف کنید و مسئله را برای درک بهتر شرایط تجزیه کنید. این رفتار کمک خواهد کرد RegEx بسیار شخصی‌سازی شده‌تر و دقیق‌تری ایجاد کنید و بخاطر کم‌بود برنامه‌ریزی، زمان را برای آزمون و خطا از دست ندهید.

برای مثال، می‌خواهید همه کلمات شامل لغت «cat» را مطابقت دهید یا شناسایی کنید. اگر تا حدی با مفاهیم ابتدایی زبان‌شناسی آشنایی داشته باشید، استفاده از آن مفاهیم به فکر کردن شما بسیار کمک می‌کند. در این مورد به‌صورت زیر می‌توانید طراحی کنید.

  • به دنبال صف خاصی از سه حرف الفبا می‌گردید. لازم نیست هر ترکیبی که شامل این حروف می‌شود یا هرجایی که هر کدام از این حروف به تنهایی وجود داشته باشند را تطبیق دهید.
  • آن ترکیب حروف، چه به‌صورت مجزا قرارگرفته باشند و چه جزیی از یک کلمه بزرگتر باشند، باید پیدا شوند.
  • می‌دانید که «cat» توالی عادیی از حروف الفبا است.
  • می‌دانید که این ترکیب سه تایی از حروف الفبا «cat» می‌تواند در ابتدا، وسط یا انتهای کلمات وجود داشته باشد.
رجکس ها در هزارتو به دنبال کلمات می گردند.

این دانسته‌های ساده نیازمندی‌های ذخیره‌سازی شما را فراهم می‌کند اما باید مولفه‌های دیگری را نیز در نظر بگیرید. در فهرست زیر چند مورد را برای مثال آورده‌ایم.

  • آیا رشته‌های با حروف الفبای بزرگ و کوچک را هم تطبیق خواهید داد؟
  • آیا علائم نگارشی یا نمادها روی خروجی موثراند؟
  • در مقابل رشته‌های شامل چند نمونه از واژه «Cat» باید چه رویکردی در نظر بگیریم؟(برای مثال «Cats have cats»).
  • آیا رشته‌های شامل واژه «cat» را که کلماتی قبل یا بعد از آن دارند را نیز مطابقت خواهید داد؟

این پارامترها کمک خواهند کرد که الگوی جست‌وجوی RegEx خود را تعیین کنید. تجزیه کردن جزییات نیازمندی‌های الگوی شما قبل از نوشتن کد به شما کمک خواهد کرد RegEx-های بهتری را در زمان سریع‌تری بنویسید. زمانی که الگوی شما تعیین شد، می‌توانید به مرحله دوم وارد شوید و RegEx خود را بسازید.

مرحله دوم

الان که می‌دانید به‌دنبال چه نوع رشته‌ای می‌گردید، زمان ساختن RegEx است که به‌تواند به‌دنبال آن رشته بگردد. جست‌وجوی را ادامه دهیم تا همه رشته‌های شامل کلمه «cat» را تطبیق دهیم. RegEx به این شکل خواهد بود.

\w+cat\w+

این RegEx با هر توالی از کاراکترها که شامل کلمه «cat» شوند، مطابقت خواهد داشت. از طرف دیگر، این RegEx که در زیر نشان داده‌ایم، نتایج اشتباه زیادی برمی‌گرداند.

\bc?a?t\b

این RegEx با هر رشته‌ایی که شامل حروف «c» ,«a», و «t» باشد، مطابقت دارد. اما نکته اینجاست که ترتیب قرارگیری این حروف اهمیتی ندارد پس الزاما رشته‌ها نباید شامل توالی «cat» باشند و بطور مثال اگر رشته‌ای شامل توالی «tac» هم باشد با این RegEx مطابقت خواهد داشت، همچنین با رشته‌هایی بدون این حروف هم مطابقت خواهد کرد. می‌بینید که کارکردن صحیح با RegEx-ها بدون تمرین، بسیار مشکل است.

\bc?at\b

این RegEx مشخص‌تر است و به‌صورت دقیق، فقط با رشته «cat» مطابقت دارد.

به برنامه می‌گوید به دنبال کلمه «cat» بگردد، چه در اول رشته‌ای باشد (به‌وسیله ترکیب کاراکتری \b   به این مطلب اشاره شده) یا در وسط رشته و اینکه هر علامت نگارشی یا کاراکتر دیگری را که ممکن است وجود داشته باشد، نادیده به‌گیرد(به‌وسیله کاراکتر ?   به این مطلب اشاره شده).

علامت \b   برای نشان دادن حدود رشته به‌کار می‌رود و علامت سوال بعد از حرف «c»، آن را اختیاری می‌کند. به این معنا که RegEx با هردو شکل کلمه یعنی «cat» و «Cat» مطابقت خواهد کرد اما با دیگر رشته‌ها مطابقت نخواهد یافت. زمانی که درحال ایجاد رشته جست‌وجوی RegEx هستید، پارامترهایی مانند «حساسیت بزرگی و کوچکی حروف» (Case Sensitivity) و مطابقت‌های چندگانه را در نظر خواهید گرفت.

برنامه نویس در حال کار روی پروژه در نور روز پشت سیستم

حساسیت به بزرگی و کوچکی حروف

اگر می‌خواهید که جست‌وجوی شما نسبت به بزرگی و کوچکی حروف حساس نباشد، می‌توانید پرچم i  را به انتهای RegEx خود اضافه کنید.

/\w+cat\w+/i

علامت /  به شروع و پایان رشته اشاره می‌کند، درحالی که علامت i  در آخر رشته یک پرچم اختیاری است که جست‌وجوی شما را نسبت به بزرگی و کوچکی حروف بی‌تفاوت می‌کند پس RegEx شما با هردو حالت،حروف بزرگ و کوچک مطابقت خواهد داشت.

چندین نمونه در یک رشته

اگر می‌خواهید به دنبال چندین نمونه از الگویی در یک رشته باشید، می‌توانید از علامت ستاره استفاده کنید (به عنوان «نویسه جایگزین» (wildcard) برای تطابق با هرتعداد کاراکتر موجود). برای نمونه، اگر می‌خواهید الگوی RegExتان، با رشته‌هایی که چندین مورد واژه «cat» در آن‌ها وجود دارد تطبیق پیدا کند، می‌توانید از RegEx که در ادامه آمده است استفاده کنید.

\w+cat\w*cat\w+

این RegEx با رشته‌هایی مانند «Cats have cats» نیز مطابقت خواهد کرد. همچنین می‌توانید از علامت به‌علاوه +  استفاده کنید. این علامت به این معنی است که حداقل یک نمونه‌ یا تعداد بیشتری از کاراکترهایی که مشخص شده‌اند باید وجود داشته باشند تا رشته مورد نظر با RegEx مطابقت داشته باشد. برای مثال، این RegEx با رشته‌ای مانند «catty» مطابقت خواهد داشت اما با رشته «cat» به تنهایی تطبیق پیدا نخواهد کرد.

\w+cat+y\w+

تطبیق الگوی دقیق

اگر می‌خواهید که دقیقا به‌دنبال الگوی خاصی بگردید، می‌توانید از علامت‌های «هشتک» - نه هشتگ - یا «کارِت» (caret) با نماد ^  و دلار با نماد $  استفاده کنید. این علامت‌ها به عنوان «اَنکِر» (Anchor)هایی برای تعیین شروع و پایان رشته‌ها به‌کار می‌روند. برای مثال، RegEx زیر فقط با رشته «cat» مطابقت خواهد داشت.

^cat$

حالا که رشته جستجوی RegEx شما آماده شده، زمان شروع مرحله سوم است، یعنی نوبت آزمایش و تنظیم RegEx شده.

مرحله سوم

وقتی که RegEx رشته جستجوی شما آماده شد، مرحله بعدی آزمایش کردن است. در این مرحله متوجه خواهید شد که آیا RegEx شما با رشته‌هایی که به‌دنبال آن‌ها می‌گردید مطابقت خواهد داشت یا نه. می‌توانید از ابزاری مانند Regex101 و RegExr استفاده کنید تا RegEx‌ خود را به صورت درلحظه آزمایش کنید و مطمئن شوید که آیا با داده‌های صحیح به‌طور کامل مطابقت خواهد داشت.

یک زن د حال کار با لپ تاپ

آزمودن RegEx کمک می‌کند که قبل از نوشتن کدها، هر خطا یا مشکلی را در الگوی خود تشخیص دهید، که باعث می‌شود در بلند مدت در زمان و انرژی شما صرفه‌جویی قابل توجهی شود. اگر متوجه شدید که RegEx شما، آن‌طور که مورد انتظار است کار نمی‌کند، از اصلاح کردن یا انجام تغییرات کوچک در آن نترسید. عبارات منظم را به روش‌های مختلفی می‌توان نوشت، پیداکردن موردی که روی گزینه مورد نظر شما به خوبی کار کند، اغلب اوقات با آزمون و خطا ممکن می‌شود.

حالا که RegEx خود را آزمودید و آنقدر دستکاری اش کردید تا با هدفی که به دنبال آن بودید تطابق داشته باشد، می‌توانید به مرحله چهارم بروید. از RegEx در کدهایتان استفاده کنید.

مرحله چهارم

در این مرحله که RegEx شما طراحی، ایجاد و آزمایش شده، به نظر می‌آید از سوال RegEx چیست عبور کرده و به سوال چطور از RegEx استفاده می‌شود، رسیده‌اید. مرحله بعدی استفاده از RegEx حاصل زحماتتان در میان کدها است. بسته به زبان برنامه‌نویسی که استفاده می‌کنید، روش‌های مختلفی برای پیاده‌سازی جست‌وجو با رجکس وجود دارد. به عنوان مثال، در زبان برنامه‌نویسی «جاوا اسکریپت» (JavaScript) از متد String.prototype.match()   استفاده خواهید کرد.

1let str = ‘cat’
2let regexp = /\w+cat\w+/i;
3console.log(str.match(regexp)); // Output: ["cat"]

در زبان برنامه‌نویسی پایتون از تابع re.search()  استفاده خواهید کرد. این تابع داخل کتابخانه re تعریف شده که در صورت نیاز باید نصب شود.

1import re
2string = ‘cat’
3regexp = r’\w+cat\w+4result = re.search(regexp, string)
5print(result.group()) # Output: cat

به‌طور خلاصه، در هر قسمتی از کد که تطابق الگو نیاز دارید، به این روش‌ها می‌توانید از RegEx خود استفاده کنید. بیشتر زبان‌های برنامه‌نویسی و ابزارها مانند پایتون، جاوا اسکریپت، پی اچ پی، جاوا و غیره از RegEx-ها پشتیبانی می‌کنند. استفاده از RegEx روش قدرتمندی برای حل مسائلی است که مربوط به تجزیه و تحلیل متن‌ها می‌شوند یا برای مسائلی مانند جستوجوی رشته‌‌ای خاص یا جایگذاری رشته‌ها نیز بسیار پُر استفاده است.

تمرین دوم Regex تطبیق دادن رشته ها با قالب آدرس ایمیل

حالا که روش استفاده از عبارات منظم را برای تطبیق رشته‌ها آموخته‌اید، باید بیشتر بیاموزیم و تمرین کنیم. پس تلاش می‌کنیم تا بفهمیم، روش تطبیق شکل آدرس ایمیل با RegEx چیست؟

هدف اینجا، نوشتن عبارت منظمی است که با شکل معتبر آدرس ایمیل مطابقت داشته باشد. فرض کنید، می‌خواهید تمام رشته‌هایی که شامل آدرس ایمیل باشند را ذخیره‌کنید. برای اینکه این هدف را به شکل RegEx بنویسیم، توالی کاراکتری شبیه مورد زیرین خواهیم داشت.

\w+@\w+\.\w{3}

RegEx بالا، با رشته‌هایی تطابق پیدا خواهد کرد که در ابتدا شامل نام کاربری باشند که با علامت @  دنبال می‌شوند و سپس یک نام دامنه می‌آید، و بعد از آن نام دامنه‌ای سطح بالا خواهد آمد (مانند .net   یا .com  ).

این عکس رو بجای عکسی ار رجکس گذاشتم که خیلی دوس داشتمش

در ابتدا «نمادگذاری» (Notation) را که باعث بدست آمدن این نتیجه شد را باید بررسی کنیم.

  • نماد \w+  با هر توالی از هر تعداد کاراکتر، شامل حروف الفبا، اعداد و «خط زیر» (Underscore) مطابقت دارد. این نماد کمک می‌کند تا قسمت نام‌کاربری آدرس ایمیل را «ذخیره‌کنیم» (Capture).
  • بعد از آن نماد @  می‌آید که با نماد \ رها شده تا فقط نمایش شکل خودش باشد. به این دلیل که نماد @  معنی خاصی در RegEx دارد و باید رها شود تا با کارکتر عینی خودش تطابق داشته باشد، از \  استفاده شده.
  • در ادامه نمادها بار دیگر \w+  قرارداده شده، که محدوده نام دامنه آدرس ایمیل را نشان می‌دهد.
  • در نهایت در آخرین حلقه این زنجیره عبارت \w{3} قراردارد که مشخص می‌کند، فقط ۳ کاراتر برای انتهای آدرس ایمیل لازم داریم که دقیقا شکل «دامنه سطح بالا» (Top-Level Domain | TLD) به این صورت است.

تصور کنیم که چگونه می‌توان این الگو را با درنظر گرفتن موقعیت‌های غیرعادی و نمونه‌های خاص بهبود ببخشیم و توانایی آن را برای انتخاب دقیق آدرس ایمیل معتبر افزایش دهیم. در ادامه مثال‌هایی از نمونه‌هایی که می‌خواهیم RegEx ما با آن‌ها تطابق داشته باشد آورده‌ایم.

example1@domain.com
example2-something@domain.co
example3_here+there@domain.org

و در این بلوک نمونه‌هایی از رشته‌هایی که نباید با RegEx مطابق باشند آورده‌ایم.

notvalid.com
another example@@domain.net
not valid again!%$#$

در مثال‌های بالا، نام‌های کاربری و دامنه‌هایی دیده می‌شوند که می‌توانند شامل کاراکترهای خاص مانند خط تیره -  ، خط زیر ـ  و علامت به‌علاوه +  . برای اینکه بتوانیم این اشکال خاص را نیز به عنوان آدرس ایمیل معتبر به حساب بیاوریم، نیازداریم که در الگوی RegEx خود کمی تغییرات اضافه کنیم.

برای اینکه مشخص کنیم چه رشته‌هایی باید مطابقت داده شوند، باید یک سری کاراکتر اضافه به الگوی RegEx خود اضافه کنیم تا RegExمان دقیق‌تر شود و مثال‌های خاصی را بتوانیم، ذخیره کنیم. این‌بار الگوی RegEx شبیه مورد زیر می‌شود.

\w+([.-]?\w+)*@\w+([.-]?\w+)*(\.\w{2,3})+

برای اینکه درک کنید که این الگوی RegEx چیست به ادامه متن دقت کنید. کاراکتر‌های اضافی که به این متن افزوده شده‌اند ([.-]?\w+)*  این امکان را می‌دهند تا کاراکترهای ویژه مشخصی را مطابقت دهیم و از خط تیره در قسمت نام کاربری و دامنه آدرس ایمیل استفاده کنیم. ما همچنین توالی کاراکتری \w{2,3}  را اضافه کردیم، که مشخص می‌کند که «دامنه سطح بالا» (Top-Level Domain | TLD) باید ۲ یا ۳ کاراکتر طول داشته باشد.

اکنون، وقتی که شما این RegEx را در مقابل نمونه‌های داده شده در بالا آزمایش کنید، با تمام آدرس‌های ایمیل معتبر مطابقت خواهد داشت و تمام ایمیل‌های نامعتبر را رد می‌کند. در ادامه الگو را تجزیه کرده و توضیحات بیشتری داده‌ایم.

  • \w+  با توالی از کاراکترها مطابقت دارد (شامل حروف، اعداد و خط تیره می‌شود) و حداقل باید یک کاراکتر طول داشته باشد.
  • ([.-]?\w+)*  به RegEx اجازه می‌دهد در قسمت نام کاربری ایمیل با هر کاراکتر ویژه‌ای یا خط تیره تطبیق پیدا کند.
  • \w+  با هر توالی از کاراکترها که حداقل یک کارکتر طول داشته باشد مطابقت دارد.
  • ([.-]?\w+)*  به RegEx اجازه می‌دهد در قسمت نام دامنه ایمیل با هر کاراکتر ویژه‌ای یا خط تیره تطبیق پیدا کند.
  • (\.\w{2,3})+  مشخص می‌کند که «دامنه سطح بالا» (TLD) باید بین ۲ یا ۳ کاراکتر طول داشته باشد.

با این الگو می‌توان با دقت رشته‌های ورودی را با شکل معتبر آدرس‌های ایمیل تطبیق داد و رشته‌هایی در اشکال دیگر را رد کرد. با اصلاح کردن عبارت منظم برای تطبیق با اشکال بیشتری از آدرس‌های معتبر ایمیل‌، می‌توان مطمئن شد که RegEx ما در تجزیه و تحلیل رشته‌ها بسیار دقیق‌تر عملکرده و نتایج موثق‌تری را ارائه می‌دهد.

علت استفاده از شمارنده‌ ها در RegEx چیست؟

یکی از پرکاربرد‌ترین ابزار RegEx-ها امکان استفاده از «شمارنده‌ها» (Quantifiers) است. شمارنده‌ها به این اشاره می‌کنند که چندبار یک کاراکتر، گروه یا الگو باید در رشته‌ای تطبیق داده شوند تا آن رشته معتبر باشد. برای اینکه بهتر متوجه شوید روش کار شمارنده‌ها در RegEx چیست باید مثالی بزنیم. برای نمونه، اگر بخواهید RegEx شما با هر عددی از ۰ تا ۹۹ مطابقت داشته باشد می‌توانید از الگوی RegEx زیر استفاده کنید.

\d{1,2}

این رجکس با هر عدد یک رقمی یا دو رقمی تطبیق دارد، که برای پیدا کردن رشته‌هایی که با خواسته شما مطابقت داشته باشند کار را بسیار ساده‌ می‌کند. برای استفاده از RegEx-ها چندین نوع مختلف از شمارنده‌ها وجود دارند که در ادامه به آن‌ها اشاره می‌کنیم.

علامت سوال (؟)

کاراکتر یا کلاس کاراکتری که قبل از علامت سوال قرار دارد بین ۰ یا ۱ بار می‌تواند وجود داشته باشد.

\d?

علامت ستاره (*)

کاراکتر یا کلاس کاراکتری که قبل از علامت ستاره قرار دارد بین ۰ یا بیشتر می‌تواند وجود داشته باشد.

\d*

علامت به‌اضافه (+)

کاراکتر یا کلاس کاراکتری که قبل از علامت به‌اضافه، قرار دارد بین ۱ یا بیشتر می‌تواند وجود داشته باشد (حداقل یکبار باید وجود داشته باشد).

\d+

علامت آکولاد ({m,n})

کاراکتر یا کلاس کاراکتری که قبل از علامت آکولاد {m,n}  قرار دارد از m تا n بار می‌تواند وجود داشته باشد (حداقل m بار و حداکثر n بار باید وجود داشته باشد). توجه کنید اگر در آکولاد فقط ۱ عدد بود یعنی دقیقا به مقدار عدد باید وجود داشته باشد، نه بیشتر و نه کمتر.

\d{2,4}

شمارنده‌ها کار تطابق الگوها با رشته‌ها را بسیار آسان‌تر می‌کنند. به شما کمک می‌کنند که به سرعت مشخص کنید چه تعداد از کاراکتری یا گروه کاراکتریی باید در یک رشته وجود داشته باشند تا در الگوی مطابقت جای بگیرند. درنتیجه بیشتر، RegEx شما را مختصر و مفید و دقیق می‌کنند.

استفاده از نگاه رو به جلو و نگاه به عقب

«نگاه به‌جلو» (Lookahead) و «نگاه به‌عقب» (Lookbehind) ابزار قدرتمند دیگری هستند که برای استفاده در RegEx-ها در دسترس‌اند. این ابزار کمک می‌کنند که قبل یا بعد از اصطلاح اصلی را برای یافتن الگوی مشخصی بررسی کنید بدون اینکه آن اصطلاح را درون الگوی تطبیق خود وارد کنید. برای اینکه بهتر متوجه شویم که کاربرد و روش کار این ابزار در RegEx چیست باید مثالی بزنیم. به‌عنوان نمونه، اگر بدنبال یافتن همه کلمات مطابق کلمه «apple» باشید به این شرط که این کلمه قبل از عبارت «is tasty» آمده باشد، می‌توانید از RegEx زیر استفاده کنید.

(?<=apple)\sis\stasty

در این الگوی RegEx، علامت نگاه به عقب به همراه کلمه مورد نظر (?<=apple)  به‌دنبال «apple»هایی می‌گردد که قبل از عبارت «is tasty» آمده باشند و سپس با آن‌ها تطبیق داده می‌شود. این ابزار تطبیق الگوها را با رشته‌ها باتوجه به مفهوم آن‌ها بسیار ساده‌تر می‌کند.

برنامه نویسی در شب با دفتر منظم

نگاه به جلوهم مانند نگاه به عقب کار می‌کند، با این تفاوت که این ابزار به دنبال الگوی مشخصی بعد از عبارت اصلی می‌گردد، نه قبل از آن. برای نمونه، اگر بدنبال یافتن همه کلمات مطابق عبارت «is tasty» باشید به این شرط که این کلمه بعد از کلمه «apple» آمده باشد، می‌توانید از RegEx زیر استفاده کنید.

apple\s(?=is\stasty)

در این الگوی RegEx، علامت نگاه روبه‌جلو با عبارت مربوطه آن (?=is\stasty)  به دنبال عبارت «is tasty»هایی می‌گردد که بعد از کلمه «apple» آمده باشند و سپس با آن‌ها تطبیق داده می‌شود. این ابزار روش قدرتمندی برای تطبیق الگوها بر پایه مفهوم آن‌ها است.

بیان عینی یک رشته

RegEx توانایی انطباق عینی الگو با رشته‌ها را نیز دارد. بیان عینی رشته‌ها به‌این معنا است که به‌جای استفاده به‌عنوان کاراکترهای خاص یا قواعد نوشتاری RegEx، با رشته‌ دقیقا به‌عنوان الگوی انطباق رفتار می‌کنید. برای مثال، اگر بخواهیم دقیقا عبارت «apple is tasty» را انطباق بدهیم، می‌توانیم از RegEx زیر استفاده کنیم.

\Qapple is tasty\E

برای درک اینکه معنای این مطلب در RegEx چیست لطفا توجه کنید. کاراکترهای \Q   و \E   به RegEx می‌گویند که عبارت «apple is tasty» را به‌طور دقیق و واژه به واژه بیان کن، بدون کم کردن یا اضافه کردن چیزی، درنتیجه اگر داخل RegEx هر نوع کاراکتر خاص یا قواعد دستوری با معنای مشخصی وجود داشته باشد، تفسیر نخواهد شد و به صورت یک عبارت عینی در نظر گرفته خواهد شد. رشته‌ای که به صورت عینی بیان شده فقط با رشته‌های متناظر خودش مطابقت خواهد داشت. این روش، کار را برای تطابق رشته‌هایی شامل کاراکترهای خاص، بسیار راحت‌تر می‌کند.

استفاده از Anchor ها

«انکرها» (Anchors) کمک می‌کنند که الگویی را در ابتدا یا انتهای رشته‌ تطبیق دهید. به عنوان مثال، اگر به‌خواهیم که الگوی ما با تمام واژه‌هایی تطابق داشته باشد که با حرف «a» شروع می‌شود، از RegEx زیر استفاده می‌کنیم.

^a\w+

در این الگوی RegEx، علامت هشتک ^  انکری است که محل ابتدای رشته را تطبیق می‌دهد. به‌ همین صورت، اگر بخواهیم که الگوی RegEx ما با همه حروفی تطبیق پیدا کند که به واژه‌ی «s» ختم می‌شوند، می‌توانیم از RegEx زیر استفاده کنیم.

\w+s$

در این الگوی RegEx، علامت دلار $  انکری است که محل انتهای رشته را تطبیق می‌دهد.

استفاده از گروه ها و ارجاعات به عقب

«گروه‌ها» (Groups) این امکان را ایجاد می‌کنند که یک الگو را چندین بار درون رشته‌ای تطبیق دهید و «ارجاعات به عقب» (‌BackReferences) به شما این امکان را می‌دهند که به عقب اشاره کنید، درواقع به گروه تطبیق داده‌شده قبلی اشاره کنید.

برای اینکه بیشتر درک کنید که کاربرد این دو روش در RegEx چیست به مثالی که در ادامه می آید توجه کنید. اگر بخواهید که الگوی شما با همه کلماتی که با حرف «a» شروع می‌شوند و با حرف «s» تمام می‌شوند، مطابقت داشته باشد، می‌توانید از RegEx زیر، استفاده کنید.

^(a\w+s)$

در این الگوی RegEx، پرانتزها برای ایجاد گروه استفاده شده‌اند. در واقع گروه داخل پرانتز تعریف می‌شود. این گروه به این صورت تعریف شده که با حرف «a» شروع شده، به دنبال آن حداقل یک کاراکتر یا بیشتر باید بیاید و در آخر به حرف «s» ختم شود. این روش الگونویسی باعث می‌شود که به‌سادگی از یک الگو یک‌سان چندین تطابق مختلف در هر رشته پیدا کنید.

کاراکترها آماده نشستن در جایگاه خود در RegEx هستند.

«ارجاعات به عقب» (Backreferences) به ما این امکان را می‌دهند که به عقب اشاره کنیم، به گروه‌هایی که قبلا تطابق داده شده‌اند. با مثالی می‌توان بهتر درک کرد که مفهوم این مطلب در RegEx چیست. اگر بخواهیم که همه کلماتی که با حرف «a» شروع می‌شوند و با حرف «s» تمام می‌شوند، با الگوی ما مطابقت داشته باشند، اما در عین‌حال کاراکتر میانی همسان داشته باشند، می‌توانیم از RegEx زیر استفاده کنیم.

^(a\w+s)\1$

متوجه شدید که این مفهوم در RegEx چیست، در الگوی RegEx بالا، علامت ارجاع به عقب \1  به اولین گروه در عقب، اشاره می‌کند. با حرف «a» شروع شده، به دنبال آن حداقل یک کاراکتر یا بیشتر باید بیاید و در آخر، دوباره به حرف «s» ختم شود. این روش خوبی برای تطابق الگوهایی است که چندین قسمت مختلف دارند و نیاز دارند که یکسان باشند.

تطبیق ارقام با کلاس های کاراکتری

کلاس‌های کاراکتری این امکان را می‌دهند که هر کاراکتری از یک مجموعه‌ی از پیش تعریف شده‌ از کاراکترها را تطبیق بدهیم. به عنوان مثال، می‌توان برای تطبیق هر رقمی را از ۰ تا ۹، از RegEx زیر استفاده کرد.

\d

به‌سادگی قابل درک است که مفهوم این RegEx چیست. در این الگوی RegEx، کاراکتر کلاسی \d  با هر رقمی از ۰ تا ۹ مطابقت دارد. این روش بسیار ساده‌ای برای تطبیق ارقام در رشته‌ها است.

انواع دیگری از کاراکتر های کلاسی

برای استفاده در RegEx، کاراکترهای کلاسی زیادی در دسترس وجود دارند. برای مثال، اگر بخواهیم که شکل کوچک حروف الفبا را تطبیق دهیم (a - z)، می‌توان از RegEx زیر استفاده کرد.

\l

در این الگوی RegEx، کلاس کاراکتری \l  با هر شکل کوچکی از حروف الفبا از a تا z تطبیق پیدا می‌کند. به همین شکل، اگر بخواهیم که شکل بزرگ حروف الفبا را تطبیق دهیم (A - Z)، می‌توان از RegEx زیر استفاده کرد.

\u

در این الگوی RegEx، کلاس کاراکتری \u  با هر شکل بزرگی از حروف الفبا از A تا Z تطبیق پیدا می‌کند. کلاس‌های کاراکتری روش پرکاربرد و قدرتمندی برای تطبیق الگوها با رشته‌ها هستند.

استفاده از Modifier ها

«تغییردهنده‌ها» (Modifiers) ابزار در دسترس و قدرتمند دیگری‌اند که RegEx از آن‌ها استفاده می‌کند. تغییردهنده‌ها به ما امکان تغییر رفتار عبارات منظم را می‌دهند. برای نمونه، اگر بخواهیم الگوی ما بدون توجه به کوچکی و بزرگی حروف، با همه کلماتی که با حرف «a» شروع می‌شوند و با حرف «s» تمام می‌شوند، تطبیق داشته باشد، می‌توانیم از RegEx آمده در پایین، استفاده کنیم.

(?i)^(a\w+s)$

در این الگوی RegEx، تغییر دهنده (?i)  وضعیت بزرگی و کوچکی حروف را نادیده می‌گیرد (با حرف «A» به خوبی حرف «a» تطبیق پیدا می‌کند). این روش کار را برای تطبیق الگوها با رشته‌ها آسان می‌کند. مخصوصا که در یک رشته جمله یا متن ممکن است حروف یک کلمه در اشکال مختلفی -بزرگ یا کوچک- نوشته شده باشند. تغییردهنده‌های دیگری هم برای استفاده در RegEx وجود دارند، مانند تغییردهنده (?s)  که امکان انجام عمل تطبیق را در چندین خط از متن ممکن می‌کند.

برنامه نویسی در شب با دفتر منظم

استفاده از جایگزینی برای ایجاد الگوهای پیچیده

«جایگزینی» (Alternation) این امکان را فراهم می‌کند که یکی از چندین الگوی موجود را تطبیق دهیم. این ابزار به کمک کاراکتر «پایپ» (pipe)، در واقع به این شکل |  نمایش داده می‌شود. برای اینکه بهتر متوجه شویم که کاربرد و روش کار پایپ در RegEx چیست باید مثالی بزنیم. اگر بخواهیم که در متن یا رشته‌ای کلمات منطبق با «dog» یا «cat» را پیدا کنیم می‌توانیم از RegEx آمده در پایین استفاده کنیم.

cat|dog

در این الگوی RegEx، کاراکتر پایت برای انطباق یکی از دو کلمه «dog» یا «cat» به‌کار رفت. این روش کار را برای انطباق الگوهای پیچیده‌تر با رشته‌ها آسان می‌کند.

همچنین از روش جایگزینی می‌توان در ارتباط با گروه‌ها و کاراکترهای کلاسی نیز استفاده کرد. برای مثال، اگر بخواهیم الگویی بنویسیم که طبق آن RegEx ما در متن مطابقت داشته باشد، با کلمه «cat» یا هر کلمه‌ای که با حرف «d» شروع و با حرف «g» تمام می‌شود، می‌توان از الگوی امده در پایین، استفاده کرد.

cat|^(d\w+g)$

در این الگوی RegEx، کاراکتر پایپ برای تطبیق کلمه «cat» یا هر کلمه‌ای که با حرف «d» شروع می‌شود و با حرف «g» تمام می‌شود، به‌کاربرده شده‌است. این روش کار را برای طراحی الگوهای پیچیده‌تر برای انطباق با رشته‌ها آسان می‌کند.

انطباق مثبت و منفی

«انطباق منفی» (Negative Matching) به ما این امکان را می‌دهد که کاراکترهایی را تطبیق دهیم که در رشته‌ی موردنظر حضور ندارند. در واقع عمل انطباق RegEx با رشته‌ها را به شرط عدم حضور کاراکتر خاصی یا عدم وقوع شرایط خاصی انجام می‌گیرد. درحالی که «انطباق مثبت» (Positive Matching) این امکان را می‌دهد که کاراکترهایی را که در رشته‌ها حضور دارند را تطبیق دهیم. برای این‌که بهتر درک کنیم که کاربرد این روش‌ها در RegEx چیست به مثال زیر توجه کنید، اگر نیاز داشته باشیم الگویی را طراحی کنیم که با هر کلمه‌ای مطابقت داشته باشد، بجز کلماتی که با حرف «a» شروع می‌شوند، می‌توان از الگوی آمده در پایین استفاده کرد.

^(?!a)\w+$

در این الگوی RegEx، ابزار نگاه به جلوی منفی (?!a)  برای تطابق با هر کلمه‌ای که با حرف «a» شروع نمی‌شود به‌کاربرده شده‌است. این روش کار را برای انجام عمل انطباق الگو روی رشته‌هایی که حاوی کاراکترهای مشخصی هستند، بسیار آسان‌تر می‌کند. به همین شکل، اگر نیازداشته باشیم الگویی را طراحی کنیم که با هر کلمه‌ای مطابقت داشته باشد، که با حرف «a» شروع می‌شوند، می‌توان از الگوی RegEx آمده در پایین استفاده کرد.

^(?=a)\w+$

در این الگوی RegEx، ابزار نگاه به جلوی مثبت (?=a)  برای تطابق با هر کلمه‌ای که با حرف «a» شروع می‌شود به‌کاربرده شده‌است. این روش انجام عمل انطباق الگو را روی رشته‌هایی که حاوی کاراکترهای مشخصی هستند، بسیار ساده‌تر می‌کند.

تطبیق دادن در چند خط

در زمان استفاده از RegEx-ها، بعضی وقت‌ها لازم داریم که الگوها را در طول چندین خط تطبیق دهیم. علامت نقطه .  می‌تواند برای مطابقت با هر کاراکتری، از جمله کاراکتر «شکستن خطوط» (Line Breaks) -کاراکتری که به معنای پایان پاراگراف یا رفتن به خط بعد باشد- استفاده شود.

برای مثال، اگر به‌خواهیم الگویی طراحی کنیم برای مطابقت با هر جمله‌ای را که با کلمه «The» شروع می‌شود و با کلمه «end» به پایان می‌رسد، صرف نظر از اینکه چند خط را دربر می‌گیرد، می‌توانیم از RegEx زیر استفاده کنیم.

^The.*end$

در این الگوی RegEx، علامت نقطه .  برای تطبیق با هر کاراکتری حتی شامل Line Breaks استفاده شده‌است. این روش امکان انجام عمل تطابق الگوها، روی رشته‌هایی که چندین خط را دربر می‌گیرند، به آسانی فراهم می‌کند.

RegEx-ها در واقع وسیله بازی و رمزنگاری علاقه‌مندان به رمز هستند.

استفاده از الگوهای بازگشتی

«الگوهای بازگشتی» (Recursive Patterns) این امکان را برای RegEx فراهم می‌کنند که الگوهای تکراری را در رشته‌ها تطبیق دهند. برای مثال این تکنیک برای انطباق «تگ‌های» (Tags) HTML بسیار کاربردی است. برای اینکه بیشتر و بهتر درک کنیم که کاربرد این روش در RegEx چیست به این فکر کنید که می‌خواهیم الگویی را طراحی کنیم که با هر تگ HTML0 با صفت «class» صرف نظر از محتویاتش مطابقت داشته باشد. لطفا به RegEx زیر توجه کنید.

<.*?class=".*?".*?>

در این الگوی RegEx، علامت‌های <  و >  برای ایجاد یک ‌الگوی بازگشتی استفاده شده‌اند. برای تطبیق الگوها درون رشته‌هایی که احتمال دارد الگوهای تکراری داشته باشند، این روش کار را بسیار ساده کرده است.

مثال هایی از الگوهای Regex

اکنون، درباره اینکه RegEx چیست و ابزار در دسترس RegEx-ها چیستند اطلاعات پایه‌ای دارید. زمان آن فرا رسیده که به بعضی از نمونه‌های ابتدایی RegEx-ها نگاهی بی‌اندازیم.

الگوی انطباق با شماره تلفن

اگر بخواهیم که RegEx طراحی کنیم تا با الگوی شماره تلفن‌های آمریکای شمالی منطبق باشد، می‌توانیم از RegEx زیر، استفاده کنیم.

^\d{3}-\d{3}-\d{4}$

در این الگوی RegEx، کلاس کاراکتر \d  با هر رقمی از ۰ تا ۹ مطابقت دارد. تغییردهنده‌های {3}  و {4}  مشخص می‌کنند که الگو‌ باید، به ترتیب با سه و چهار رقم مطابق باشد. برای تطبیق الگوها با رشته‌هایی که شامل شماره تلفن‌های آمریکای شمالی باشند، این روش بسیار کارآمدی است.

الگوی انطباق با قالب تاریخ

اگر بخواهیم که الگویی برای تطبیق دادن با تاریخ -به شکل YYYY-MM-DD- درون رشته‌ها یا متن ایجاد کنیم، می‌توانیم از RegEx که در ادامه آمده است استفاده کنیم.

^\d{4}-\d{2}-\d{2}$

در این الگوی RegEx، کلاس کاراکتر \d  با هر رقمی از ۰ تا ۹ منطبق است. تغییردهنده‌های {4}  ، {2}  و {2}  مشخص می‌کنند که الگو‌ باید، به ترتیب شامل چهار، دو و دو رقم باشد. برای تطبیق الگوها با رشته‌هایی که شامل شماره تاریخ میلادی به این شکل باشند، این روش بسیار کارآمدی است.

الگوی انطباق با آدرس IP

اگر بخواهید بدانید بهترین الگو برای تطابق با آدرس IP در RegEx چیست به RegEx آمده در زیر توجه کنید.

^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}$

در این الگوی RegEx، کلاس کاراکتر \d  با هر رقمی از ۰ تا ۹ منطبق است. جداکننده‌های {1,3}  مشخص می‌کنند که هر عددی برای انطباق باید بین ۱ تا ۳ رقم باشد. این فرم به الگو اجازه می‌دهد تا با هر آدرس IP در رشته انطباق پیدا کند.

الگوی انطباق با شماره کارت عابر بانک

اگر برنامه‌ای می‌نویسید و باید بدانید راه حل طراحی الگویی که شماره کارت‌های معتبر عابربانک را از شماره‌های غیرمعتبر، تشخیص دهد در RegEx چیست می‌توانید از RegEx زیر استفاده کنید.

^\d{16}$|^\d{4}\s\d{4}\s\d{4}\s\d{4}$

در این الگوی RegEx، کلاس کاراکتر \d  با هر رقمی از ۰ تا ۹ منطبق است. جداکننده‌های {16}  و {4}  تعیین می‌کنند که الگو به ترتیب برای انطباق باید ۱۶ یا ۴ رقم باشد. البته که توجه دارید یا ۱۶ رقم یا ۴ عدد ۴ رقمی با یک فاصله خالی بین‌شان \s  باید باشد. این فرمت به الگو اجازه می‌دهد تا با شکل معتبر شماره کارت عابربانک، در رشته انطباق پیدا کند.

الگوی انطباق با همه تگ های HTML

اگر بخواهید بدانید بهترین الگو برای تطابق با همه تگ‌های HTML در RegEx چیست، در زیر نمونه‌ای از آن را آورده‌ایم.

<\/?\w+((\s+\w+(\s*=\s*(?:".*?"|'.*?'|["']?(.*?)["']?))?)+\s*|\/?)>

در این الگوی RegEx، کلاس کاراکتری \w  با هر کاراکتر رقمی یا حروف الفبایی مطابقت دارد. جدا کننده‌های +  ، *  و ?  به ترتیب به این معنا هستند که الگو برای انطباق به تعداد یک یا بیشتری از کاراکتر قبل از علامت +  ، احتیاج دارد، الگو برای انطباق به تعداد صِفر یا بیشتری از کاراکتر قبل از علامت *  ، احتیاج دارد و الگو برای انطباق به تعداد یک یا صِفر از کاراکتر قبل از علامت ?  ، احتیاج دارد. این الگوی RegEx می‌تواند با تمام تگ‌های HTML در متن منطبق شود.

جمع‌بندی

عبارات منظم، ابزار قدرتمندی برای دستکاری متن‌ها هستند که برای طیف وسیعی از وظایف به‌کار می‌روند. از اعتبارسنجی داده‌ها گرفته تا جست‌وجوی سریع بین مقادیر زیادی از اطلاعات متنی، می‌توان از RegEx استفاده کرد.

با درک اجزا و مفاهیمی که تشکیل دهنده عبارات منظم هستند و فهم اینکه RegEx چیست، می‌توانید برای یافتن همان چیزی که دقیقا دنبالش هستید، RegEx-های قدرتمندی ایجاد کنید. RegEx-ها همچنین ابزار زیادی در اختیار دارند تا به در نوشتن، آزمایش و خطایابی کمک کنند. در این مطلب از مجله فرادرس، آموختیم که RegEx چیست و کاربرد آن چگونه است. به کمک دانش و ابزار صحیح، به آسانی می‌توانید در استفاده از عبارات منظم ماهر شوید.

بر اساس رای ۱ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
Variables
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *