پیش پردازش متن در پایتون – راهنمای جامع

ریشه‌یابی کلمات با استفاده از عملیات Lemmatization

مثال سوم

برچسب‌گذاری نقش دستوری (Part of Speech tagging | POS Tagging) کلمات در داده‌های متنی

مثال سوم

روش تقطیع (Chunking) یا «تجزیه و تحلیل سطحی جملات» (Shallow Parsing)

روش «بازشناسی موجودیت نام‌دار» (Named Entity Recognition)

روش‌های مشخص کردن مرجع مشترک (Coreference resolution) در پیش پردازش متن

مثال سوم

استخراج عبارات هم‌اتفاق یا باهم‌گذار (Collocation) در پیش پردازش متن

فیلم آموزش پردازش زبان‌ طبیعی با Python و NLTK در فرادرس

جمع‌بندی

مهم‌ترین روش‌های پیش پردازش متن

مرحله بعد از «جمع‌آوری متن» (Collecting Text Data)، نرمال‌سازی داده‌های متنی جمع‌آوری شده است.

فیلم آموزش تجزیه‌ و تحلیل داده‌ ها با پایتون در فرادرس

مهم‌ترین روش‌های نرمال‌سازی جهت پیش پردازش متن عبارتند از:

تبدیل کردن تمامی حروف موجود در داده‌های متنی به «حروف کوچک» (Lowercase letters) یا «حروف بزرگ» (Uppercase Letters)
تبدیل کردن اعداد به کلمات و یا حذف کردن اعداد از داده‌های متنی
پاک کردن علائم نقطه‌گذاری (Punctuations)، «علائم لهجه» (Accent Marks) و «علائم تشخیص» (Diacritics)
پاک کردن «فضاهای خالی» (Whitespaces) از داده‌های متنی
گسترش یا بسط دادن «اختصارها» (Abbreviations)
پاک کردن «کلمات بی اثر» (Stopwords)، «عبارات اسپارس» (Sparse Terms) و «کلمات خاص» (Particular Words).
«کانونی‌سازی داده‌های متنی» (Text Canonicalization)

در بخش‌های بعدی، هر کدام از روش‌های پیش پردازش متن، به تفصیل شرح داده خواهند شد.

تبدیل متن به حروف کوچک

در ادامه، کدهای لازم برای پیش پردازش متن و تبدیل داده‌های متنی به حروف کوچک نمایش داده خواهند شد.

فیلم آموزش پاک‌سازی داده‌ها در پایتون برای یادگیری ماشین در فرادرس

کد پایتون:

خروجی:

the 5 biggest countries by population in 2017 are china, india, united states, indonesia, and brazil.

پاک کردن اعداد از داده‌های متنی

این امکان برای برنامه‌نویسان و توسعه‌دهندگان فراهم شده است تا هنگام پیش پردازش متن و اعداد موجود در داده‌های متنی، اعدادی که به «تحلیل متن» (Text Analysis) مرتبط نیستند و منجر به تولید اطلاعات با معنی نمی‌شوند، از داده‌های متنی حذف کنند. معمولا، از روش «عبارات منظم یا با قاعده» (Regular Expressions) جهت حذف اعداد از داده‌های متنی استفاده می‌شود.

فیلم آموزش پردازش زبان‌ طبیعی با Python و NLTK در فرادرس

کد پایتون:

خروجی:

Box A contains red and white balls, while Box B contains red and blue balls.

پاک کردن علائم نقطه‌گذاری (Punctuations) از داده‌های متنی

از قطعه کدی که در ادامه نمایش داده شده است، جهت پاک کردن مجموعه علائم [!”#$%&’()*+,-./:;<=>?@[\]^_`{|}~] استفاده می‌شود.

فیلم آموزش شخصی‌سازی Tokenizer در پایتون در فرادرس

در ادامه، قطعه کد نوشته شده به زبان پایتون جهت پاک کردن علائم نقطه‌گذاری نمایش داده خواهد شد:

کد پایتون:

خروجی:

پاک کردن فضاهای خالی (Whitespaces) از داده‌های متنی

جهت پاک کردن فضاهای خالی (Whitespaces) از داده‌های متنی، می‌توان از تابع strip()‎ در زبان برنامه‌نویسی پایتون استفاده کرد. در دادمه، قطعه کد نوشته شده به زبان پایتون، جهت پاک کردن فضاهای خالی (Whitespaces) از داده‌های متنی نمایش داده خواهد شد:

فیلم آموزش یادگیری ماشین با پایتون – ماشین لرنینگ در فرادرس

کد پایتون:

خروجی:

جداسازی واژگان (Tokenization) داده‌های متنی

جداسازی واژگان (Tokenization) فرایندی است که در آن یک داده متنی داده شده، به واحدهای زبانی کوچک‌تری به نام «توکن» (Token) تقسیم‌بندی می‌شود. کلمات، اعداد، علائم نقطه‌گذاری و سایر موارد، از جمله واحدهای زبانی هستند که به عنوان توکن (Token) شناخته می‌شوند.

فیلم آموزش پردازش زبان‌ طبیعی با Python و NLTK در فرادرس

در جدول زیر، ابزارهای معرفی شده جهت جداسازی واژگان، در زبان‌های برنامه‌نویسی مختلف، نمایش داده شده‌اند.

نام ابزار پیش پردازش متن	توسعه دهنده و سال عرضه	ویژگی‌های ابزار پیش پردازش متن	زبان
Natural Language Toolkit (NLTK)	The University of Pennsylvania, 2001	پشتیبانی از سیستم‌های عامل Mac/Unix/Windows امکان استفاده از مجموعه داده‌های مختلف در قالب‌های متنوع قابلیت شناسایی الگوهای اطلاعاتی بر اساس قواعد نحوی و گرامری استفاده از مدل‌های از پیش آموزش داده شده جهت پیش پردازش متن	Python
TextBlob	Steven Loria, 2013	تقسیم‌بندی کردن داده‌های متنی به واحدهای زبانی تشکیل دهنده نظیر کلمه و جمله امکان یکپارچه‌سازی با پایگاه دانش وردنت (WordNet)	Python
Spacy	Explosion AI, 2016	پشتیبانی از سیستم‌های عامل Mac/Unix/Windows استفاده از مدل‌های شبکه عصبی مصنوعی (Artificial Neural Network) جهت پیش پردازش متن پشتیبانی از پیش پردازش متن به زبان‌های مختلف	Python
Gensim	RaRe Technologies, 2009	قابلیت پردازش حجم عظیمی از داده‌ها (در مقیاس وب) پشتیبانی از سیستم‌های عامل Mac/Unix/Windows امکان استفاده از مدل‌سازی فضای برداری (Vector space Modeling) و مدل‌سازی موضوعی (Topic Modelling)	Python
Apache OpenNLP	Apache Software Foundation, 2004	در این ابزار پیش پردازش داده‌های متنی، تعداد زیادی مدل از پیش ساخته شده برای زبان‌های مختلف گنجانده شده است. این ابزار، منابع متنی «حاشیه نویسی شده» (Annotated) زیادی را در خود جای داده است.	Java
OpenNMT	Yoon Kim, harvardnlp, 2016	این ابزار یک چارچوب عمومی «یادگیری عمیق» (Deep Learning) است که بیشتر برای مقاصد تولید مدل‌های Seq2Seq (مدل‌های Sequence-to-Sequence) طراحی شده است. از طریق واسط خط دستور (Command Line Interface)، واسط Client-Server و یا کتابخانه‌های برنامه‌نویسی مختلف، می‌توان از این ابزار برای پیش پردازش متن استفاده کرد.	Python و Lua
General Architecture for Text Engineering (GATE)	GATE research team, University of Sheffield, 1995	یک سیستم استخراج اطلاعات (Information Extraction)، جهت پیش پردازش متن، در این ابزار گنجانده شده است. در این ابزار، پیش پردازش متن در زبان‌های مختلف پشتیبانی می‌شود. این ابزار، ورودی‌های متنوعی را در قالب‌های مختلف می‌پذیرد.	Java
Apache UIMA	IBM, Apache Software Foundation, 2006	افزونه‌های متنوعی در این ابزار پیش پردازش متن توسعه و در اختیار برنامه‌نویسان قرار داده شده است. چندسکویی (Cross Platform) بودن، یکی از ویژگی‌های مهم این ابزار محسوب می‌شود. ارسال و دریافت درخواست‌های REST در این ابزار پشتیبانی می‌شود.	Java وC++‎
Memory-Based Shallow Parser (MBSP)	Vincent Van Asch, Tom De Smedt, 2010	معماری Client-Server باینری‌های از پیش کامپایل شده TiMBL ،MBT و MBLEM برای سیستم عامل مک انتشار توزیع Cygwin برای کاربران سیستم عامل ویندوز	Python
RapidMiner	RapidMiner, 2006	پلتفرم یکپارچه برای پیش پردازش متن طراحی مبتنی بر «جریان کاری بصری» (Visual Workflow) دسترسی به مجموعه وسیعی از ابزارهای پیش پردازش متن	ابزار RapidMiner، یک «واسط کاربری گرافیکی» برای طراحی و اجرای جریان‌‌های کاری تحلیلی فراهم می‌آورد.
MAchine Learning for LanguagE Toolkit (MALLET)	Andrew Kachites McCallum, University of Massachusetts Amherst, 2002	این کتابخانه شامل ابزارهای پیشرفته‌ای جهت دسته‌بندی اسناد متنی و برچسب‌گذاری دنباله (Sequence Tagging) است. این ابزار، اجازه «استنتاج» (Inference) در مدل‌های گرافی (Graphical Models) را به کاربر و برنامه‌نویس می‌دهد.	Java
Pattern	T. De Smedt & W. Daeleman, 2012	این ابزار، ماژولی برای «وب کاوی» (Web Mining) محسوب می‌شود. پشتیبانی از سیستم‌های عامل Mac/Unix/Windows پشتیبانی از پیش پردازش متن به زبان‌های مختلف	Python
Stanford Tokenizer	The Stanford Natural Language Processing Group, 2010	یکی از ویژگی‌های مهم این ابزار، سرعت فوق‌العاده آن در پیش پردازش متن است (چیزی در حدود 1 میلیون توکن در ثانیه). امکانات بسیار زیادی جهت پردازش توکن‌ها و جداسازی واژگان در اختیار کاربر و برنامه‌نویس قرار می‌دهد.	Java
FreeLing	TALP Research Center, Universitat Politècnica de Catalunya	قابلیت‌های «تحلیل زبانی» (Language Analysis) مختلفی در این ابزار گنجانده شده است. پشتیبانی از پیش پردازش متن به زبان‌های مختلف تولید خروجی در قالب‌های مختلف	C++‎

کد پایتون:

خروجی:

حذف کردن کلمات بی اثر (Stop Words) از داده‌های متنی

کلمات بی اثر (Stop Words)، شایع‌ترین کلمات استفاده شده در یک زبان هستند؛ به عنوان نمونه، کلماتی نظیر The ،On ،Is ،All و a، کلمات بی اثر در زبان انگلیسی محسوب می‌شوند. از آنجایی که این کلمات بار معنایی خاصی ندارند و محتوای معنایی قابل توجهی را انتقال نمی‌دهند، معمولا از داده‌های متنی حذف می‌شوند.

فیلم آموزش تجزیه‌ و تحلیل داده‌ ها با پایتون در فرادرس

این امکان برای برنامه‌نویسان و توسعه‌دهندگان برنامه‌های کاربردی وجود دارد که کلمات بی اثر (Stop Words) را با استفاده از کتابخانه NLTK (مخفف Natural Language Toolkit) از داده‌های متنی حذف کنند. کتابخانه NLTK، مجموعه‌ای از کتابخانه‌ها (Libraries) و ماژول‌های برنامه‌نویسی قدرتمند جهت پیش پرداز متن و «پردازش زبان طبیعی آماری و نمادین» (Symbolic and Statistical Natural Language Processing) فراهم می‌کند.

کد پایتون:

خروجی:

از کتابخانه scikit-learn نیز می‌توان جهت پیش پردازش متن و حذف کلمات بی اثر در داده‌های متنی استفاده کرد:

کتابخانه منبع باز spaCy نیز ابزارهای لازم جهت پیش پردازش متن و حذف کلمات بی اثر در داده‌های متنی را در اختیار کاربر و برنامه‌نویس قرار می‌دهد:

حذف کردن واژگان اسپارس (Sparse Terms) و کلمات خاص (Particular Words)

در برخی از مواقع لازم است تا واژگان اسپارس (Sparse Terms) و کلمات خاص (Particular Words) از داده‌های متنی حذف شوند. از آنجایی که مجموعه کلمات بی اثر (Stop Words) می‌تواند شامل هر مجموعه از کلمات دلخواه باشد، می‌توان با استفاده از روشی مشابه حذف کردن کلمات بی اثر (Stop Words)، واژگان اسپارس و کلمات خاص را از داده‌های متنی حذف کرد.

فیلم آموزش آشنایی با WordNet در فرادرس

ریشه‌یابی کلمات با استفاده از عملیات Stemming

به فرایند بازگرداندن کلمات به شکل ریشه‌ای (Root Form) آن‌ها، عملیات Stemming گفته می‌شود (به عنوان نمونه، شکل ریشه‌ای Looking، کلمه Look است). دو الگوریتم عمده‌ای که جهت بازگرداندن کلمات به شکل ریشه‌ای مورد استفاده قرار می‌گیرند، الگوریتم Porter و الگوریتم Lancaster هستند.

فیلم آموزش پردازش زبان‌ طبیعی با Python و NLTK در فرادرس

الگوریتم Porter، بخش‌های «عطفی» (Inflectional) و «مورفولوژیک» (Morphological) را از انتهای کلمات حذف می‌کند. الگوریتم Lancaster نیز، مانند الگوریتم Porter عمل می‌کند ولی قوانین سخت‌گیرانه‌تری جهت حذف بخش‌های عطفی و مورفولوژیک از انتهای کلمات وضع می‌کند. در جدول زیر، ابزارهای معرفی شده جهت ریشه‌یابی کلمات با استفاده از عملیات Stemming، در زبان‌های برنامه‌نویسی مختلف، نمایش داده شده‌اند.

نام ابزار پیش پردازش متن	توسعه دهنده و سال عرضه	ویژگی‌های ابزار پیش پردازش متن	زبان
Natural Language Toolkit (NLTK)	The University of Pennsylvania, 2001	در این کتابخانه، ابزارهایی نظیر الگوریتم Porter، الگوریتم Snowball و الگوریتم Lancaster جهت پیش پردازش متن و ریشه‌یابی کلمات در اختیار کاربران و برنامه‌نویسان قرار داده شده است. نوعی ریشه‌یاب (Stemmer) در این کتابخانه گنجانده شده است که از عبارات منظم برای پیدا کردن ضمیمه‌های مورفولوژیکی (Morphological Affixes) در داده‌های متنی استفاده می‌کند. پشتیبانی از پیش پردازش متن به زبان‌های مختلف	Python
Snowball	Martin Porter, 2002	پشتیبانی از پیش پردازش متن به زبان‌های مختلف یک زبان «پردازش رشته» (String Processing) بسیار کوچک محسوب می‌شود که برای تولید الگوریتم‌های ریشه‌یابی طراحی شده است.	Java
PyStemmer	Richard Boulton, 2006	الگوریتم بسیار مؤثر و کارآمد جهت محاسبه شکل ریشه‌ای کلمات الگوریتم‌های مختلفی جهت پشتیبانی از ریشه‌یابی داده‌های متنی نوشته شده به زبان‌هایی غیر از بان انگلیسی (بیشتر زبان‌های کشورهای اروپایی)، در این ابزار توسعه داده شده است. پیاده‌سازی نسخه‌ای خاص از الگوریتم Porter جهت ریشه‌یابی کلمات در زبان انگلیسی	MPython
Hunspell stemmer	کاربری به نام lopusz در GitHub	پشتیبانی از ریشه‌یابی کلمات در زبان لهستانی ریشه‌یابی مبتنی بر Dictionary	Java
CoreNLP Stemmer	The Stanford Natural Language Processing Group, 2010	در این ابزار، کلاس خاصی برای ریشه‌یابی کلمات و پیش پردازش متن پیاده‌سازی شده است.	Java
Apache Lucene	Apache Software Foundation, 1999	شاخص‌گذاری مقیاس‌پذیر (Scalable) و با عملکرد بالا پیاده‌سازی الگوریتم‌های جستجوی قدرتمند، دقیق و کارآمد این ابزار، یک سیستم چندسکویی برای پیش پردازش متن محسوب می‌شود.	Python
DKPro Core	The Ubiquitous Knowledge Processing Lab (UKP) at the Technische Universität Darmstadt, 2009	پیاده‌سازی مدل‌های مختلف جهت پشتیبانی از پیش پردازش متن به زبان‌های مختلف پشتیبانی از پیش پردازش داده‌های متنی به فرمت‌های مختلف امکان یکپارچه‌سازی آسان این ابزار با پروژه‌های پایتون و استفاده از آن‌ها جهت پیش پردازش متن وجود دارد.	Python

مثال اول

مهم‌ترین کتابخانه‌هایی که حاوی ابزارهای لازم جهت تقطیع (Chunking) یا تجزیه و تحلیل سطحی جملات (Shallow Parsing) هستند، عبارتند از:

کتابخانه NLTK (WordNet Lemmatizer)‎.
کتابخانه TreeTagger chunker
کتابخانه Apache OpenNLP
کتابخانه General Architecture for Text Engineering (GATE)‎
کتابخانه FreeLing

مثال اول

اولین گام در تقطیع یا تجزیه و تحلیل سطحی جملات، مشخص کردن نقش دستوری (Part of Speech) تک تک کلمات موجود در آن‌ها است.

کد پایتون:

خروجی:

سپس در مرحله بعد، عملیات تقطیع یا تجزیه و تحلیل سطحی روی کلماتی که با نقش دستوری متناظرشان برچسب‌گذاری شده‌اند، انجام می‌شود:

کد پایتون:

خروجی:

در نهایت با استفاده از دستور زیر، ساختار درختی جمله به شکل زیر نمایش داده می‌شود:

برای مشاهده اندازه بزرگتر تصویر، روی آن کلیک کنید.

مثال دوم

کد پایتون:

خروجی:

روش «بازشناسی موجودیت نام‌دار» (Named Entity Recognition)

روش‌های بازشناسی موجودیت نام‌دار، با هدف شناسایی موجودیت‌های نام‌دار در داده‌های متنی و دسته‌بندی کردن آن‌ها در طبقه‌بندی‌های از پیش تعریف شده (نام شخصیت‌ها، مکان‌ها، سازمان‌ها، اشیاء و سایر موارد) پدید آمده‌اند. تاکنون، کتابخانه‌ها، ابزارهای برنامه‌نویسی متنوعی جهت بازشناسی موجودیت‌های نام‌دار در داده‌های ارائه شده‌اند. مهم‌ترین ابزارهایی که جهت بازشناسی موجودیت‌های نام‌دار توسعه داده شده‌اند و در اختیار برنامه‌نویسان و کاربران قرار گرفته شده‌اند، عبارتند از:

کتابخانه NLTK (WordNet Lemmatizer)‎.
کتابخانه spaCy
کتابخانه Stanford CoreNLP
کتابخانه Apache OpenNLP
کتابخانه Apache Lucene
کتابخانه General Architecture for Text Engineering (GATE)‎
ابزار MITIE
کتابخانه DKPro Core
کتابخانه FreeLing
کتابخانه Watson Natural Language Understanding
کتابخانه TextRazor

همچنین در جدول زیر، ابزارهای پیش پردازش معرفی شده جهت بازشناسی موجودیت‌های نام‌دار (Named Entity Recognition)، در زبان‌های برنامه‌نویسی مختلف، نمایش داده شده‌اند.

نام ابزار پیش پردازش متن	توسعه دهنده و سال عرضه	ویژگی‌های ابزار پیش پردازش متن	زبان
Baleen	Defence Science and Technology Laboratory (Dstl), 2014	این ابزار، توانایی انجام عملیات روی داده‌های نیمه ساخت یافته و غیر ساخت یافته را دارد. همچنین، جهت انجام سریع فرایندهای پیش‌پردازشی، یک سرور داخلی در این ابزار تعبیه شده است.	Java
CogComp NER Tagger (Illinois Named Entity Tagger)	L. Ratinov, D. Roth, Cognitive Computation Group, 2009	این ابزار، داده‌های متنی را توسط موجودیت‌های نام‌دار برچسب‌گذاری می‌کند. در این ابزار، از 4 نوع برچسب مختلف برای برچسب‌گذاری موجودیت‌های نام‌دار استفاده می‌شود (اشخاص، سازمان‌ها، مکان‌ها و متفرقه). همچنین از 18 نوع برچسب دیگر نیز می‌توان برای برچسب‌گذاری موجودیت‌های نام‌دار استفاده کرد(بر اساس مجموعه داده متنی OntoNotes)	Java
Minimal Named-Entity Recognizer (MER)	LaSIGE, Faculdade de Ciências, Universidade de Lisboa, Portugal, 2017	خروجی این ابزار، لیستی از نام‌های شناسایی شده در یک داده متنی، به همراه مکان دقیق آن‌ها است (حاشیه‌نویسی نام‌ها به وسیله مکان آن‌ها). برای بازشناسی موجودیت‌های نام‌دار تنها به یک لغت نامه (فایل متنی) مورد نیاز است که باید نمایش دهنده موجودیت‌های مورد علاقه و قابل شناسایی در داده‌های متنی باشد (جهت بازشناسی موجودیت‌های نام‌دار از وب سرویس‌های RESTful استفاده می‌شود).	GNU awk
ParallelDots	ParallelDots	از فناوری یادگیری عمیق برای مشخص کردن گروه‌بندی‌های کاراکتری در داده‌های متنی استفاده می‌کند. این ابزار، مرتبط‌ترین موجودیت‌های نام‌دار موجود در داده‌های متنی را کشف می‌کند. ابزاری دقیق، بلادرنگ (Real-Time) و قابل سفارشی‌سازی شدن جهت بازشناسی موجودیت‌های نام‌دار محسوب می‌شود.	AI APIs and excel add-in
Open Calais	Thomson Reuters Corporation	با استفاده از این ابزار، قابلیت استخراج موجودیت‌ها (اشخاص، مکان‌ها، محصولات، روابط، حقایق، رویدادها و موضوعات)، از داده‌های متنی، برای برنامه‌نویسان و توسعه‌دهندگان فراهم می‌آید.	API
LingPipe	Breck Baldwin, 1999	بازشناسی نام‌های اشخاص، سازمان‌ها یا مکان‌ها در داده‌های متنی، توسط این ابزار امکان‌پذیر است. پیاده‌سازی مدل‌های مختلف جهت پشتیبانی از پیش پردازش متن به زبان‌های مختلف و پشتیبانی از پیش پردازش داده‌های متنی به فرمت‌های مختلف	Java
Named Entity Recognition Tool	Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer, 2016	بهره‌گیری از معماری مبتنی بر شبکه‌های عصبی مصنوعی، یکی از ویژگی‌های مهم این ابزار محسوب می‌شود. این ابزار، عملکرد بسیار بهینه و با دقت بالایی روی مجموعه داده‌های CoNLL (داده‌های متنی به زبان‌های انگلیسی، آلمانی، اسپانیایی و هلندی) از خود نشان می‌دهد. همچنین، امکان بازشناسی دقیق موجودیت‌های نام‌دار بدون استفاده از پایگاه‌های دانش ساخت‌یافته یا منابع دانش مرتبط با یک زبان خاص فراهم شده است.	Python
MinorThird	William W. Cohen, Carnegie Mellon University, 2004	این ابزار، روش‌های پیشرفته یادگیری را با ابزارهای حاشیه‌نویسی و بصری‌سازی داده‌های متنی ترکیب و از این طریق، موجودیت‌های نام‌دار را شناسایی می‌کند. این ابزار، از مدل‌های یادگیری خاص نظیر یادگیری فعال و یادگیری آنلاین نیز پشتیبانی می‌کند.	Java
Watson Named Entity Recognition annotator	IBM	ابزاری جهت حاشیه‌نویسی داده‌‌های متنی با موجودیت‌های نام‌دار نظیر اشخاص، مکان‌ها و سازمان‌ها محسوب می‌شود. پشتیبانی از پیش پردازش متن به زبان‌های مختلف	Python SDK
PoolParty Semantic Suite	Semantic Web Company, 2009	یک ابزار ماژولار (Modular) و انعطاف‌پذیر جهت پیش پردازش متن محسوب می‌شود. از فناوری‌های استاندارد تعریف شده توسط سازمان W3C جهت پیاده‌سازی این ابزار استفاده شده است. این ابزار، از فراداده‌های (Metadata) معنایی جهت غنی‌سازی اطلاعات موجود در داده‌های متنی استفاده می‌کند.	داده‌ها ابتدا به گراف‌های RDF تبدیل و پس از آن توسط SPARQL قابل Query هستند.
Rosette Entity Extractor	Basis Technology, 1995	پشتیبانی از پیش پردازش متن به زبان‌های مختلف این ابزار، از مجموعه‌ای متشکل از 18 نوع برچسب مختلف برای برچسب‌گذاری موجودیت‌های نام‌دار استفاده می‌کند. همچنین، هنگام برچسب‌گذاری داده‌های متنی به وسیله موجودیت‌های نام‌دار، ضریب اطمینان هر کدام از موجودیت‌های شناسایی شده محاسبه و به کاربر نمایش داده می‌شود.	Python

مثال اول

کد پایتون:

خروجی:

مثال دوم

کد پایتون:

خروجی:

مثال سوم

کد پایتون:

خروجی:

روش‌های مشخص کردن مرجع مشترک (Coreference resolution) در پیش پردازش متن

در فرایند پیش پردازش متن و پیش از پیاده‌سازی کاربردهای پردازش زبان طبیعی (Natural Language Processing) نیاز است تا ضمایر (Pronouns) و دیگر عبارات اشاره کننده (Referring Expressions)، به موجودیت‌های صحیح و متناظر خود متصل شوند.

فیلم آموزش تجزیه‌ و تحلیل داده‌ ها با پایتون در فرادرس

روش‌های مشخص کردن مرجع مشترک، ضمایر و دیگر عبارات اشاره‌کننده‌ای را که به یک موجودیت جهان واقعی یکسان اشاره می‌کنند، در داده‌های متنی مشخص می‌کنند. به عنوان نمونه، در جمله Andrew said he would buy a car، ضمیر he به شخص Andrew اشاره دارد. مهم‌ترین کتابخانه‌هایی که حاوی ابزارهای لازم جهت مشخص کردن مرجع مشترک (Coreference resolution) در داده‌های متنی هستند، عبارتند از:

کتابخانه Stanford CoreNLP
کتابخانه Apache OpenNLP
کتابخانه Open Calais

همچنین در جدول زیر، ابزارهای معرفی شده جهت مشخص کردن مرجع مشترک (Coreference resolution)، در زبان‌های برنامه‌نویسی مختلف، نمایش داده شده‌اند.

نام ابزار پیش پردازش متن	توسعه دهنده و سال عرضه	ویژگی‌های ابزار پیش پردازش متن	زبان
Beautiful Anaphora Resolution Toolkit (BART)	Massimo Poesio, Simone Ponzetto, Yannick Versley, Johns Hopkins Summer Workshop, 2007	از مجموعه متنوعی از روش‌ها، مدل‌ها و ابزارهای یادگیری ماشین (Machine Learning) برای مشخص کردن مرجع مشترک عبارات در داده‌های متنی استفاده می‌کند. در این ابزار، خروجی حاصل از عملیات مشخص کردن مرجع مشترک، در قالب XML تولید می‌شود.	REST-based web service
JavaRAP	Long Qiu, 2004	این ابزار، قابلیت مشخص کردن مرجع مشترک بسیاری از ضمایر و عبارات اشاره کننده را در داده‌های متنی دارد. این ابزار، سرعت بسیار خوبی دارد و قادر است بیش از 1500 کلمه در ثانیه را پردازش کند.	Java
A General Tool for Anaphora Resolution - GuiTAR	University of Essex, 2007	این ابزار، فایل متنی ورودی را در قالب XML دریافت و یک فایل نشانه‌گذاری شده به وسیله مراجع مشترک را به عنوان خروجی تولید می‌کند. همچنین، یک ماژول خاص برای ارزیابی عملکرد در این ابزار تعبیه شده است.	Java
Reconcile	Cornell University, The University of Utah, Lawrence Livermore National Labs, 2009	عملکردهای تعبیه شده در این ابزار، روی داده‌های متنی معمولی و یا داده‌های متنی غیر ساخت یافته قابل اجرا هستند. این ابزار، از تکنیک‌های نظارت شده یادگیری ماشین (نظیر مدل‌های تعریف شده در Weka، ابزار Berkley Parser و سیستم بازشناسی موجودیت‌های نام‌دار Stanford) جهت شناسایی مرجع مشترک در واحدهای زبان طبیعی استفاده می‌کند.	Java
ARKref	Brendan O'Connor, Michael Heilman, 2009	این ابزار، یک سیستم مبتنی بر قاعده (Rule-based) و قطعی (Deterministic) برای مشخص کردن مرجع مشترک محسوب می‌شود. در این ابزار، از اطلاعات نحوی به دست آمده از یک مدل تجزیه و تحلیل سطحی (Syntactic parser) و اطلاعات معنایی حاصل از یک سیستم بازشناسی موجودیت‌های نام‌دار (NER) جهت شناسایی مراجع مشترک در داده‌های متنی استفاده می‌شود.	Java
Illinois Coreference Package	Dan Roth, Eric Bengtson, 2008	این ابزار، یک سیستم دسته‌بندی ویژگی با هدف شناسایی مراجع مشترک (در داده‌های متنی) محسوب می‌شود.	Java
Neural coref	Hugging Face, 2017	این ابزار، از شبکه‌های عصبی مصنوعی و کتابخانه Spacy جهت مشخص کردن مراجع مشترک در داده‌های متنی استفاده می‌کند.	Python
coreference resolution toolkit (cort)	Sebastian Martschat, Thierry Goeckel, Patrick Claus	این ابزار، از مؤلفه‌های خاصی جهت شناسایی مرجع مشترک و تحلیل خطا بهره می‌برد. در این ابزار، از رویکردهای مبتنی بر متغیرهای نهان (Latent Variables) جهت شناسایی مرجع مشترک استفاده می‌شود. همچنین، قابلیت تحلیل و مصورسازی خطاهای تولید شده توسط سیستم شناسایی مرجع مشترک، در این ابزار گنجانده شده است.	Python
CherryPicker	Altaf Rahman, Vincent Ng, University of Texas at Dallas, 2009	این ابزار، یک مدل «رتبه‌بندی خوشه» (Cluster-Ranking) جهت شناسایی مرجع مشترک محسوب می‌شود. همچنین، این برای اجرا در سیستم‌های عمل لینوکس و مبتنی بر Unix طراحی شده است.	-
FreeLing	TALP Research Center, Universitat Politècnica de Catalunya	این ابزار، قابلیت‌های تحلیل زبان را برای کاربران و برنامه‌نویسان فراهم آورده است. پشتیبانی از پیش پردازش متن به زبان‌های مختلف در این ابزار، از واسط خط دستور (Command line) پشتیبانی می‌شود.	C++‎
eXternally configurable REference and Non Named Entity Recognizer (xrenner)	Zeldes, Amir and Zhang, Shuo, Department of Linguistics at Georgetown University, 2016	یک سیستم مستقل از زبان برای شناسایی مرجع مشترک در زبان‌های طبیعی مختلف محسوب می‌شود. این ابزار، از مدل‌های دسته‌بندی (یادگیری ماشین) جهت شناسایی مرجع مشترک بهره می‌برد.	Python

کد پایتون:

خروجی:

استخراج عبارات هم‌اتفاق یا باهم‌گذار (Collocation) در پیش پردازش متن

عبارات هم‌اتفاق یا باهم‌گذار (Collocation)، ترکیبی از کلمات هستند که معمولا در زمینه‌های محتوایی مختلف، در کنار یکدیگر ظاهر می‌شوند (به عبارت دیگر، ظاهر شدن این کلمات در کنار یکدیگر تصادفی نیست). از جمله عباراتی که می‌توان آن‌ها را به عنوان عبارات هم‌اتفاق در نظر گرفت، می‌توان به مواردی نظیر draw a conclusion ،free time و سایر موارد اشاره کرد.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

در جدول زیر، ابزارهای توسعه داده شده جهت استخراج عبارات هم‌اتفاق یا باهم‌گذار (Collocation)، در زبان‌های برنامه‌نویسی مختلف، نمایش داده شده‌اند.

نام ابزار پیش پردازش متن	توسعه دهنده و سال عرضه	ویژگی‌های ابزار پیش پردازش متن	زبان
TermeX	Text Analysis and Knowledge Engineering Lab, University of Zagreb, 2009	این ابزار، داده‌های ورودی را در قالب فایل‌های متنی با کدبندی UFT-8 دریافت می‌کند. در این ابزار، از پردازش مدل‌های N-gram جهت استخراج عبارات هم‌اتفاق استفاده می‌شود. ابزاری بسیار کارآمد، سریع و از لحاظ حافظه مقرون به صرفه، جهت پردازش مجموعه داده‌های عظیم محسوب می‌شود.	Front end GUI
Collocate	Athelstan	در این ابزار، از محاسبات (و تحلیل) آماری و آنالیز اطلاعات مرتبط با تناوب کلمات (Frequency Information) برای مشخص کردن لیستی از کلمات هم‌اتفاق استفاده می‌شود. خروجی نهایی این ابزار، در قالب یک مدل N-gram است. برای استخراج کلمات هم‌اتفاق از روش‌های آستانه‌گذاری و یا «اطلاعات متقابل» (Mutual Information) استفاده می‌شود.	برنامه کاربردی
CollTerm	Faculty of Humanities and Social Sciences at University of Zagreb; Research Institute for Artificial Intelligence at Romanian Academy	یک روش مستقل از زبان (Language Independent) جهت استخراج کلمات هم‌اتفاق محسوب می‌شود. این ابزار، با به‌کارگیری روش TF-IDF و پنج معیار مختلف جهت محاسبه هم‌اتفاقی یا محاسبه اختلافات توزیعی (Distributional Difference)، مجموعه‌ای از کلمات هم‌اتفاق در داده‌های متنی را شناسایی می‌کند.	Python
Collocation Extractor	Dan Ștefănescu, 2012	یک روش مستقل از زبان جهت استخراج کلمات هم‌اتفاق محسوب می‌شود. در این ابزار، کلماتی که فاصله آن‌ها از یکدیگر (در داده‌های متنی) نسبتا ثابت است و احتمال ظاهر شدن آن‌ها در کنار یکدیگر از شانس بیشتر است (Log-Likelihood)، به عنوان کلمات هم‌اتفاق انتخاب می‌شوند.	برنامه کاربردی
ICE: Idiom and Collocation Extractor	Verizon Labs, Computer Science Dept. University of Houston, 2017	این ابزار، برای استخراج کلمات هم‌اتفاق و اصطلاحات به کار می‌رود. برای شناسایی کلمات هم‌اتفاق، از روش‌های جستجوی آنلاین و آفلاین دیکشنری (Online and offline Dictionary Search)، جستجوی وب و جایگزینی (Web Search and Substitution) و رویکرد مستقل از جستجوی وب (Web Search Independence) استفاده می‌شود.	Python
Text::NSP	University of Minnesota, Carnegie Mellon University, University of Pittsburgh, 2000	این ماژول، مدل‌های زبانی N-Gram و کلمات هم‌اتفاق را از داده‌های متنی استخراج می‌کند. همچنین، ماژولی در این ابزار تعریف شده است که مشخص می‌کند آیا هم‌اتفاقی کلمات بر اساس شانس بوده است یا از لحاظ آماری معنادار است.	Perl

مثال اول

کد پایتون:

خروجی:

جمع‌بندی

در این مطلب، مبحث پیش پردازش متن، گام‌های لازم برای پیش پردازش داده‌های متنی و استخراج اطلاعات مفید از منابع متنی مورد بررسی قرار گرفته شد؛ فرایندهایی نظیر نرمال‌سازی داده‌های متنی، ریشه‌یابی واحدهای زبانی، تجزیه و تحلیل داده‌های متنی، برچسب‌گذاری نقش دستوری، بازشناسی موجودیت‌های نام‌دار، تشخیص مرجع مشترک و استخراج کلمات هم‌اتفاق، از جمله مهم‌ترین فرایند پیش پردازش متن محسوب می‌شوند. همچنین، مهم‌ترین ابزارها و کتابخانه‌های معرفی شده جهت پیش پردازش متن مورد بررسی قرار گرفته شدند.

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

پس از اینکه فرایند پیش پردازش داده‌های متنی به پایان می‌رسد، از اطلاعات استخراج شده می‌توان جهت پیاده‌سازی کاربردهای پیشرفته‌تر در حوزه «پردازش زبان طبیعی» (Natural Language Processing) نظیر «ترجمه ماشینی» (Machine Translation) و «تولید زبان طبیعی» (Natural Language Generation) استفاده کرد.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند: