روش های متن کاوی — راهنمای کاربردی

۱۹۵۸ بازدید
آخرین به‌روزرسانی: ۲۱ تیر ۱۴۰۲
زمان مطالعه: ۱۳ دقیقه
روش های متن کاوی — راهنمای کاربردی

روش های متن کاوی (Text Mining)، برای استخراج اطلاعات با معنا و دانش مفید از «داده‌های متنی غیر ساخت‌یافته» (Unstructured Text Data) توسعه یافته‌اند. داده‌های متنی غیر ساخت‌یافته، بزرگترین منبع داده‌های تولید شده به وسیله انسان هستند. روش های متن کاوی، از طریق شناسایی «موضوعات» (Topics)، «الگوها» (Patterns) و «کلمات کلیدی» (Keywords) مرتبط در داده‌های متنی به کاربران اجازه‌ می‌دهند تا حجم عظیمی از اطلاعات را به صورت خودکار مورد بررسی قرار دهند و دانش و اطلاعات مفیدی از آن‌ها به دست آورند. روش های متن کاوی از طریق استخراج اطلاعات و دانش مفید از داده‌های سازمانی و غیرسازمانی مرتبط، منجر به ایجاد «تصمیمات تجاری داده محور» (Data-Driven Business Decisions) و بهتر در شرکت‌ها می‌شوند. روش های متن کاوی، یکی از پایه‌های اصلی «هوش تجاری» (Business Intelligence) را تشکیل می‌دهند. به کمک روش های متن کاوی، شرکت‌های تجاری قادر به تجزیه و تحلیل سریع‌تر و مؤثرتر مجموعه‌ داده‌‎های بزرگ و پیچیده هستند.

997696

روش های متن کاوی (Text mining Methods)

نقش روش های متن کاوی در استخراج اطلاعات و دانش مفید از داده‌های متنی

روش های متن کاوی به سیستم کمک می‌کنند تا بتواند حجم عظیمی از داده‌های متنی غیر ساخت یافته را تحلیل و اطلاعات مفید را از آن‌ها استخراج کند. وقتی که روش های متن کاوی با یادگیری ماشین ترکیب می‌شود، مدل‌های تحلیل کیفی متن تولید می‌شوند.

به عنوان نمونه، این مدل‌ها، دسته‌بندی داده‌های متنی را یاد می‌گیرند و یا اطلاعات (ویژگی‌های) خاصی را از متن و با توجه به آموزش‌های از پیش انجام شده، استخراج می‌کنند. شاید در نگاه اول، روش های متن کاوی مبحث بسیار پیچیده‌ای به نظر بیاید، ولی یادگیری و کار کردن با آن‌ها بسیار ساده است.

روش های متن کاوی (Text mining Methods)

اولین گام در توسعه روش های متن کاوی برای تحلیل داده‌های متنی غیر ساخت یافته، جمع‌آوری داده است. فرض کنید که مدیر واحد پشتیبانی یک شرکت، قصد داشته باشد تا با هدف بهبود خدمات یا محصولات شرکت، گفتگوهای ثبت شده میان کاربران در وب سایت شرکت را تحلیل کند. در ابتدا، لازم است تا اسناد حاوی این داده‌ها جمع‌آوری شوند. داده‌های جمع‌آوری شده می‌توانند از منابع مختلفی گردآوری شده باشند. داده‌ها می‌توانند منبع «داخلی» (Internal) داشته باشند (داده‌هایی نظیر گفتگوی مشتریان در وب سایت شرکت، ایمیل‌ها و پایگاه‌های داده) و یا اینکه از منابع خارجی جمع‌آوری شده باشند (اطلاعات جمع‌آوری شده از شبکه‌های اجتماعی، سایت‌های نظردهی، سایت‌های خبری و وب سایت‌های دیگر).

روش های متن کاوی (Text mining Methods)

دومین گام در فرآیند توسعه روش های متن کاوی برای تحلیل داده‌های متنی غیر ساخت یافته، آماده‌سازی داده‌ها است. روش های متن کاوی از تکنیک‌های «پردازش زبان طبیعی» (Natural Language Processing) متفاوتی (نظیر تکنیک‌های تحلیل ساختار جملات یا Parsing، «جداسازی واژگان» (Tokenization)، تکنیک‌های کاهش لغات به فرهنگ لغات یا lemmatization و تکنیک‌های ریشه‌یابی لغات یا Stemming) برای تولید ورودی‌های لازم برای مدل «یادگیری ماشین» (Machine Learning) استفاده می‌کنند.

روش های متن کاوی (Text mining Methods)

پیش از ادامه مطلب، لازم است تا تفاوت میان مفاهیم متن‌کاوی، «تحلیل کمی متن» (Text Analytics) و «تحلیل کیفی متن» (Text Analysis) شرح داده شوند. مفاهیم متن‌کاوی و تحلیل کیفی متن معمولا مترادف هستند. با این حال، مفهوم تحلیل کمی متن، تا حدودی متفاوت از دو مفهوم دیگر است. روش های متن کاوی و مدل‌های تحلیل کمی متن سعی دارند مسأله‌ای یکسان (تحلیل اتوماتیک داده‌های متنی خام) را به وسیله تکنیک‌های متفاوتی حل کنند. روش های متن کاوی، اطلاعات مرتبط درون یک متن را شناسایی و در نتیجه، نتایج کیفی تولید می‌کنند. در نقطه مقابل، هدف تکنیک‌های تحلیل کمی متن، یافتن الگوهای موجود در مجموعه‌ای بزرگ از داده‌ها است. در نتیجه، تکنیک‌های تحلیل کمی متن، معمولا نتایج کمّی تولید می‌کنند. تکنیک‌های تحلیل کمی متن معمولا برای تولید داده‌نما، جدول و دیگر انواع گزارشات بصری مورد استفاده قرار می‌گیرند.

در گام سوم از فرآیند توسعه روش های متن کاوی برای تحلیل داده‌های متنی غیر ساخت یافته، لازم است تا روش های متن کاوی یا تکنیک‌های تحلیل کیفی متن توسعه داده شوند. در ادامه، روش های متن کاوی که در دو دسته روش‌های «دسته‌بندی متن» (Text Classification) و روش‌های «استخراج متن» (Text Extraction) قرار دارند، بررسی می‌شوند.

روش‌های دسته‌بندی متن

«دسته‌بندی متن» (Text Classification) به فرآیند برچسب‌گذاری داده‌های متنی با توجه به محتوای آن‌ها گفته می‌شود. در روش‌های یادگیری ماشین، به برچسب‌هایی که توسط یک دسته‌بند به یک نمونه یا داده اختصاص داده می‌شوند، «کلاس» (Class) نیز گفته می‌شود.

به کمک تکنیک‌های «دسته‌بندی خودکار متن» (Automated Text Classification)، این امکان فراهم شده است تا کاربران، شرکت‌های تجاری و سازمان‌ها، حجم عظیمی از داده‌های متنی را در مدت زمان بسیار کوتاهی برچسب‌گذاری کنند و نتایج خوبی نیز به دست آورند. به عبارت دیگر، فرآیند دسته‌بندی متون، بدون اینکه لازم باشد نظارت انسانی بر روی آن صورت گیرد، به طور خودکار کلاس‌های مناسب را به داده‌های متنی اختصاص می‌دهد. چنین فرآیندی، کاربردهای بسیار هیجان‌انگیزی در حوزه‌های مختلف خواهد داشت.

روش های متن کاوی (Text mining Methods)

سیستم‌های دسته‌بندی مبتنی بر قاعده

سیستم‌های دسته‌بندی متن «مبتنی بر قاعده» (Rule-based)، بر پایه قوانین «زبان‌شناسی» استوار هستند. منظور از قوانین زبان‌شناسی در این مبحث، قواعد تناظری (یا وابستگی) تولید شده به وسیله انسان‌ها، برای ایجاد تناظر میان یک الگوی زبان‌شناسی خاص و یک برچسب (یا کلاس) است. به عبارت دیگر، سیستم به محض اینکه یک الگوی زبانی خاص را در داده‌‌ها مشاهده کند، به طور خودکار از برچسب متناظر با این الگو، برای برچسب‌گذاری یا دسته‌بندی آن استفاده می‌کند. به محض اینکه قواعد لازم برای چنین کاری در روش های متن کاوی طراحی شدند، سیستم به طور خودکار قادر خواهد بود تا ساختارهای زبان‌شناسی مختلف موجود در داده‌های متنی را تشخیص و برچسب متناظر با آن را اختصاص دهد.

به طور کلی، قواعد طراحی شده در سیستم به الگوهای «لغوی» (Lexical)، «نحوی» (Syntactical) و «مورفولوژیکی» (Morphological) موجود در داده‌های متنی اشاره دارند. همچنین، این قواعد می‌توانند به جنبه‌های «معنایی» (Semantic) و یا «واج‌شناسی» (Phonological) موجود در داده‌های متنی نیز اشار داشته باشند. به عنوان نمونه، چنین قاعده‌ای می‌تواند به عنوان یک قانون برای دسته‌بندی مشخصات محصولات بر اساس رنگ آن‌ها مورد استفاده قرار بگیرد:

(BlackGrayWhiteBlue)Color(Black | Gray | White | Blue) → Color

در چنین حالتی، روش های متن کاوی پیاده‌سازی شده به محض اینکه یکی از کلمات بالا را در داده‌های متنی تشخیص دهد، برچسب ColorColor را به آن اختصاص می‌دهد.

از آنجا که سیستم‌های مبتنی بر قاعده، توسط انسان‌ها توسعه داده شده و بهبود می‌یابند، درک نحوه عملکرد آن‌ها بسیار ساده است. با این حال، اضافه کردن قواعد جدید به سیستم‌های مبتنی بر قاعده، نیازمند آزمایشات زیادی است تا مشخص شود قواعد جدید چه تاثیری بر پیش‌بینی‌های انجام شده توسط قواعد دیگر دارند. در نتیجه، چنین سیستم‌هایی مقیاس‌پذیری خوبی از خود نشان نمی‌دهند. علاوه بر این، پیاده‌سازی «سیستم‌های پیچیده» (Complex Systems) نیازمند در اختیار داشتن دانش خاص در مورد عناصر زبان‌شناسی و داده‌هایی است که قرار است تحلیل شوند. کسب دانش در دامنه‌های مختلف نیز بسیار هزینه‌بر است.

روش های متن کاوی (Text mining Methods)

سیستم‌های مبتنی بر یادگیری ماشین

سیستم‌های متن‌کاوی مبتنی بر یادگیری ماشین، قابلیت یادگیری از نمونه‌های آموزشی را دارند. به عبارت دیگر، چنین سیستم‌هایی یک مدل یادگیری بر اساس داده‌های متنی آموزشی تولید و از مدل تولید شده برای پیش‌بینی برچسب یا کلاس داده‌های متنی جدید استفاده می‌کنند.

برای چنین کاری، سیستم‌های مبتنی بر یادگیری ماشین، باید با داده‌های متنی مرتبط با دامنه کاربردی مورد نظر (به این داده‌ها، داده‌های آموزشی گفته می‌شود) که به درستی برچسب‌گذاری شده‌اند، آموزش ببینند. نکته مهم در آموزش چنین سیستم‌هایی این است که نمونه‌های آموزشی، باید منعکس کننده داده‌های متنی در کاربرد مورد نظر باشند تا سیستم بتواند داده‌های متنی جدید را به درستی دسته‌بندی کند. اما یک سیستم دسته‌بندی مبتنی بر یادگیری ماشین چگونه می‌تواند داده‌های متنی را برچسب‌گذاری کند؟

روش های متن کاوی (Text mining Methods)

سیستم‌های دسته‌بندی مبتنی بر یادگیری ماشین، باید داده‌های آموزشی را به قالبی تبدیل کنند که توسط ماشین قابل خواندن باشند. در چنین سیستم‌هایی، داده‌ها در قالب «بردار» (Vector) نمایش داده می‌شوند. بردار، مجموعه‌ای از اعداد همراه با «داده‌های کدبندی شده» (Encoded Data) است. یکی از شناخته شده‌ترین روش‌های «برداری‌سازی» (Vectorization) داده‌های متنی، تکنیکی به نام Bag-of-Words است. در تکنیک Bag-of-Words، از یک بردار برای شمارش تعداد رخدادهای کلمات یا مفاهیم موجود در یک داده متنی استفاده می‌شود. کلماتی که قرار است تعداد رخدادهای آن‌ها در داده‌های متنی شمارش شود، در لیستی از پیش تعریف شده قرار دارند.

ورودی الگوریتم‌های یادگیری ماشین برای دسته‌بندی متن، داده‌های متنی هستند که برداری‌سازی (تبدیل به بردار) و به وسیله کلاس‌های مناسب برچسب‌گذاری شده‌اند. نتیجه چنین فرآیندی، ایجاد مدل‌های دسته‌بندی داده‌های متنی است.

الگوریتم های متن کاوی (Text mining Algorithms)
برای مشاهده تصویر در ابعاد اصلی روی آن کلیک کنید.

مدل یادگیری ماشین، توسط داده‌های آموزشی ورودی، آموزش می‌بیند. سپس، مدل آموزش دیده شده می‌تواند ویژگی‌های مرتبط را از داده‌های متنی جدید استخراج و با توجه به اطلاعات به دست آمده، این داده‌ها را در یکی از کلاس‌های از پیش تعریف شده دسته‌بندی کند.

برای مشاهده تصویر در ابعاد اصلی روی آن کلیک کنید.

الگوریتم‌های شناخته شده یادگیری ماشین برای دسته‌بندی متن

  • الگوریتم‌های خانواده «بِیز ساده» (Naive Bayes): این دسته از الگوریتم‌ها، از «قضیه بیز» (Bayes Theorem) و «نظریه احتمال» (Probability Theory) برای دسته‌بندی داده‌های متنی و پیش‌بینی کلاس (برچسب) آن‌ها استفاده می‌کنند. در چنین حالتی، بردارهای نمایش دهنده داده‌های متنی، اطلاعات موجود را براساس «درست‌نمایی» (Likelihood) تعلق هر کدام از کلمات موجود در متن به هر یک از کلاس‌های موجود در مدل کدبندی می‌کنند. این روش احتمالی، حتی زمانی که داده‌های آموزشی کافی برای آموزش مدل یادگیری ماشین وجود نداشته باشد، دقت بسیار خوبی از خود نشان می‌دهد.
  • الگوریتم «ماشین بردار پشتیبان» (Support Vector Machine): این الگوریتم، یک روش «دسته‌بندی باینری» (Binary Classification) است. به عبارت دیگر، بردارهای نمایش دهنده داده‌های متنی را به دو گروه مختلف دسته‌بندی می‌کند. گروه اول، حاوی داده‌های متنی (نمونه‌هایی) است که به کلاس (برچسب) مثبت و مد نظر ما تعلق دارند و گروه دوم، داده‌های متنی را شامل می‌شود که به این کلاس (برچسب) تعلق ندارند. نتایج حاصل از دسته‌بندی داده‌های متنی با استفاده از این روش، معمولا بهتر از نتایج دسته‌بندی حاصل از الگوریتم‌های خانواده بِیز است.
  • روش‌های «یادگیری عمیق» (Deep Learning): نحوه عملکرد این دسته از الگوریتم‌ها، مشابه فرآیندهای تفکری در مغز انسان است. زمانی که این الگوریتم‌ها روی میلیون‌های نمونه آموزشی، آموزش می‌بینند، می‌توانند نمایش بسیار دقیق و همراه با جزئیات از داده‌های متنی تولید کنند. از طریق روش‌های یادگیری عمیق، روش های متن کاوی مبتنی بر یادگیری ماشین فوق‌العاده دقیقی می‌توان تولید کرد.

روش های متن کاوی (Text mining Methods)

سیستم‌های ترکیبی

سیستم‌های «ترکیبی» (Hybrid)، سیستم‌های مبتنی بر قاعده را با سیستم‌های مبتنی بر یادگیری ماشین ترکیب می‌کنند. این سیستم‌ها، به نوعی مکمل یکدیگر محسوب می‌شوند و از این طریق، دقت نتایج تولید شده را افزایش می‌دهند.

ارزیابی عملکرد روش‌های دسته‌بندی متن

عملکرد یک سیستم دسته‌بندی متن، از طریق پارامترهای متفاوتی نظیر «صحت» (Accuracy)، «یادآوری» (Recall | بازیابی | صحت)، «دقت» (Precision) و امتیاز F1 سنجیده می‌شود. درک این معیارها، به کاربران اجازه می‌دهد تا بفهمند که یک مدل دسته‌بندی توسعه داده شده، تا چه حد در تحلیل داده‌های متنی خوب عمل می‌کند.

برای «ارزیابی» (Evaluation) عملکرد یک سیستم دسته‌بندی داده‌های متنی، می‌توان از یک مجموعه داده تست ثابت (مجموعه‌ای از داده‌های متنی با اندازه از پیش تعیین شده که کلاس (برچسب) هر کدام از نمونه‌های موجود در آن مشخص شده است) یا از روشی به نام «اعتبار سنجی متقابل» (Cross Validation) استفاده کرد. چنین فرآیندی در مرحله ارزیابی، داده‌های آموزشی را به دو زیر مجموعه تقسیم می‌کند؛ زیر مجموعه اول برای آموزش مدل یادگیری ماشین و زیر مجموعه دوم برای تست عملکرد سیستم استفاده می‌شود.

در این بخش، معیارهای مختلف برای ارزیابی عملکرد مدل دسته‌بندی متن معرفی شده است و روش اعتبار سنجی متقابل نیز شرح داده می‌شود.

روش های متن کاوی (Text mining Methods)

معیار صحت

معیار «صحت» (Accuracy)، بیان کننده تعداد «پیش‌بینی‌های صحیح انجام شده» توسط دسته‌بند، تقسیم بر، تعداد «کل پیش‌بینی‌های انجام شده» توسط همان دسته‌بند است. با این حال، این معیار به تنهایی، معیار مناسبی برای ارزیابی عملکرد یک دسته‌بند نیست. زمانی که کلاس‌های موجود در داده‌ها «نامتوازن» (Imbalanced) باشند (یعنی، تعداد داده‌های متعلق به کلاس (برچسب) خاص از کلاس‌های دیگر بسیار بیشتر باشد)، ممکن است سیستم با پدیده خاصی به نام «تناقض صحت» (Paradox Accuracy) مواجه شود.

در نتیجه این تناقض، مدل دسته‌بند به احتمال زیاد عملکرد بسیار خوبی در پیش‌بینی کلاس (برچسب) داده‌ها از خود نشان می‌دهد؛ زیرا، اکثریت داده‌ها تنها به یکی از کلاس‌ها تعلق دارند. در صورتی که چنین پدیده‌ای رخ دهد، بهتر است که معیارهای دیگری نظیر «فراخوانی» (Recall | نرخ یادآوری) و «دقت» (Precision) برای ارزیابی عملکرد سیستم در نظر گرفته شوند.

Accuracy=TP+TNTP+TN+FP+FNAccuracy = \frac { TP + TN } { TP + TN + FP + FN }

معیار یادآوری

معیار «یادآوری» (Recall)، بیان کننده نسبت «تعداد داده‌های متنی درست دسته‌بندی شده» در یک کلاس خاص، به تعداد کل داده‌هایی است که باید در همان کلاس خاص دسته‌بندی شوند. مقدار بالا برای معیار یادآوری، بیانگر تعداد کم داده‌هایی است که به اشتباه، در آن کلاس خاص دسته‌بندی نشده‌اند. استفاده از این معیار، به تنهایی، برای ارزیابی عملکرد سیستم درست نیست و باید در کنار معیار «دقت» (Precision) مورد استفاده قرار بگیرد. زیرا، به راحتی می‌شود مدل‌های دسته‌بندی متنی طراحی کرد که یادآوری بالایی داشته باشند و این لزوما به معنای «دقت» (Precision) بالا نیست.

Recall=TPTP+FNRecall = \frac { TP } { TP + FN }

معیار دقت

معیار «دقت» (Precision)، نسبت تعداد «پیش‌بینی‌های صحیح انجام شده» برای نمونه‌های یک کلاس خاص، به تعداد «کل پیش‌بینی‌ها» برای نمونه‌های همان کلاس خاص را (این تعداد، مجموع تمامی پیش‌بینی‌های صحیح و پیش‌بینی‌های نادرست را شامل می‌شود) ارزیابی می‌کند. مقدار بالا برای معیار دقت، بیانگر تعداد کم داده‌هایی است که به اشتباه، در کلاس خاص دسته‌بندی شده‌اند. شایان توجه است که معیار دقت، فقط برای مواردی ارزیابی می‌شود که در آن‌ها، مدل دسته‌بندی تعلق یک نمونه به یک کلاس خاص را پیش‌بینی کرده باشد. برای برخی از فعالیت‌ها، نظیر ارسال «پاسخ‌های خودکار به ایمیل‌ها» (Automated Email Responses)، مدل‌هایی نیاز است که سطح دقت آن‌ها بالا باشد؛ به عبارت دیگر، پاسخ‌ها تنها باید زمانی به کاربران ارسال شوند که مدل دسته‌بندی، با احتمال بالا، پیش‌بینی‌های درستی انجام داده باشد. در هنگام ارزیابی عملکرد یک مدل دسته‌بندی متن، بهتر است که از این معیار در کنار معیار «یادآوری» (Recall) استفاده شود.

Precision=TPTP+FPPrecision = \frac { TP } { TP + FP }

روش های متن کاوی (Text mining Methods)

معیار امتیاز F1

این معیار، پارامترهای «دقت» (Precision) و «یادآوری» (Recall) را با هم ترکیب می‌کند تا مشخص شود یک مدل دسته‌بند تا چه حد عملکرد خوبی از خود نشان می‌دهد. به این معیار، «میانگین متوازن» (Harmonic Mean) دو معیار دقت (Precision) و یادآوری (Recall) نیز گفته می‌شود. این معیار، نسبت به معیار صحت (Accuracy)، تصویر دقیق‌تری از نحوه عملکرد مدل دسته‌بند روی تمامی کلاس‌های موجود در داده‌ها ترسیم می‌کند.

F1=2PrecisionRecallPrecision+RecallF1 = 2 \cdot \frac { Precision \cdot Recall } { Precision + Recall }

روش اعتبارسنجی متقابل

از روش «اعتبارسنجی متقابل» (Cross Validation)، به وفور برای ارزیابی عملکرد مدل‌های دسته‌بندی متن استفاده می‌شود. این روش، از طریق تقسیم‌بندی داده‌های آموزشی به زیر مجموعه‌های متفاوت، داده‌های لازم برای ارزیابی سیستم را مشخص می‌کند. به عنوان نمونه، برای ارزیابی عملکرد سیستم می‌توان داده‌های آموزشی را به چهار گروه تقسیم‌بندی کرد؛ به طوری که هر زیر مجموعه، 25 درصد از داده‌های اصلی را شامل شود.

سپس، یکی از زیر مجموعه‌ها کنار گذاشته می‌شود (این دسته از داده‌ها، مجموعه داده تست (Test) گفته می‌شود) و از بقیه زیر مجموعه‌ها، برای آموزش مدل دسته‌بندی در مرحله آموزش استفاده می‌شود. مجموعه داده تست، برای ارزیابی عملکرد سیستم در پیش‌بینی کلاس (برچسب) داده‌ها در مرحله تست مورد استفاده می‌گیرد. سپس، از معیارهای ارزیابی ارائه شده برای محاسبه میزان عملکرد سیستم استفاده می‌شود (در ارزیابی، کلاس (برچسب) واقعی داده‌ها با کلاس (برچسب) پیش‌بینی شده، توسط مدل دسته‌بندی مقایسه می‌شود). در مراحل بعدی، یکی از دیگر از زیر مجموعه‌ها برای ارزیابی در مرحله تست کنار گذاشته می‌شود و از زیر مجموعه‌های باقی مانده برای آموزش مدل دسته‌بندی استفاده می‌شود. این کار تا زمانی انجام می‌شود که تمامی زیر مجموعه‌ها، برای ارزیابی عملکرد سیستم در مرحله تست استفاده شده باشند. در نهایت، نتیجه ارزیابی عملکرد سیستم روی تمامی زیر مجموعه‌ها جمع‌آوری می‌شود و از این طریق، میانگین عملکرد سیستم با توجه به معیارهای ارزیابی ارائه شده محاسبه می‌شود.

روش‌های استخراج متن

«استخراج متن» (Text Extraction)، در واقع، روش‌های تحلیل کیفی متن برای استخراج ویژگی‌هایی نظیر «کلمات کلیدی» (Keywords)، «نام موجودیت‌های متنی» (Entity Names)، آدرس‌ها، رایانامه‌ها و سایر موارد از داده‌های متنی غیر ساخت یافته است. به عبارت دیگر، استخراج متن، فرآیند استخراج اطلاعات خاص از داده‌های متنی است. این دسته از روش‌ها، نقش مهمی در شناسایی و استخراج اطلاعات کلیدی دارند؛ اطلاعاتی که شناسایی و استخراج دستی آن‌ها از داده‌های متنی، بسیار زمان‌گیر و طاقت‌فرسا خواهد بود.

استخراج متن، کاربردهای متنوعی در تجارت و کسب‌وکار دارد.به عنوان نمونه، از این روش‌ها می‌توان برای استخراج اسامی شرکت‌ها از مجموعه داده لینکدین و یا شناسایی ویژگی‌های مختلف در مشخصات یک محصول یا سرویس استفاده کرد. فرض کنید شما چندین قرارداد مالی دارید و قصد دارید آن‌ها را تحلیل کنید. در چنین حالتی، به راحتی می‌توانید داده‌های متنی قراردادهای مالی را بررسی و مثلا مستأجرین و اجاره‌دهنده‌ها را در آن‌ها پیدا کنید. شما قادر هستید تمام این کارها را، بدون نگاه کردن به داده‌های متنی انجام دهید.

روش های متن کاوی (Text mining Methods)

از روش‌های مختلفی می‌توان برای شناسایی و استخراج اطلاعات مرتبط و کلیدی از داده‌های متنی استفاده کرد. در ادامه، نگاهی به شایع‌ترین و مهم‌ترین روش‌های استخراج متن خواهیم داشت.

روش عبارات منظم

«عبارات منظم» (Regular Expression)، دنباله‌ای از کاراکتر‌ها را تعریف می‌کنند که متناظر با یک کلاس (برچسب) در نظر گرفته می‌شوند. از یک دیدگاه، این دسته روش‌ها را می‌توان معادل سیستم‌های مبتنی بر قاعده (Rule-based) به حساب آورد. هر کدام از الگوهای تعریف شده به وسیله عبارات منظم، معادل قوانین در سیستم‌های دسته‌بند متن مبتنی بر قاعده هستند. هر زمان که این روش استخراج متن، یک الگوی متناظر با یکی از عبارات منظم را در داده‌های متنی تشخیص دهد، کلاس (برچسب) متناظر با آن را به متن‌ها اختصاص می‌دهد.

اگر الگوها یا قوانین مناسبی برای استخراج اطلاعات کلیدی و مفید از متن تعریف شوند، روش‌های استخراج متن، عملکرد مناسبی در استخراج اطلاعات مناسب از متن از خود نشان می‌دهند. با این حال، مقیاس‌پذیری این روش بسیار سخت است؛ به ویژه، زمانی که الگوها پیچیده شوند و برای شناسایی آن‌ها در متن، چندین عبارت منظم نیاز باشد.

روش های متن کاوی (Text mining Methods)

روش میدان‌های تصادفی شرطی

روش «میدان‌های تصادفی شرطی» (Conditional Random Fields)، روش آماری است که می‌تواند برای کاربردهای استخراج متن در کنار مدل‌های یادگیری ماشین قرار بگیرد. این دسته روش‌ها، از طریق ارزیابی اهمیت (وزن) ویژگی‌های مختلف موجود در دنباله‌ای از کلمات یک متن، سیستم خاصی برای استخراج متن تولید می‌کنند. این سیستم قادر خواهد بود تا الگوهایی که باید از متن استخراج شوند را یاد بگیرد. روش میدان‌های تصادفی شرطی، قابلیت کدبندی اطلاعات بیشتری نسبت به عبارات منظم دارد؛ در نتیجه، می‌تواند الگوهای غنی‌تر و پیچیده‌تری تولید کند. مشکل بزرگ این روش این است که برای یادگیری مناسب الگوها در داده‌های متنی، به قدرت محاسباتی بیشتر و دانش «پردازش زبان طبیعی» جامع‌تری احتیاج دارد.

ارزیابی عملکرد روش‌های استخراج متن

این امکان وجود دارد که از معیارهای ارائه شده برای ارزیابی روش‌های دسته‌بندی متن صحت (Accuracy)، یادآوری (Recall | نرخ یادآوری)، دقت (Precision) و امتیاز F1)، برای ارزیابی روش‌های استخراج متن استفاده شود. با این حال، این معیار تنها تطابق کامل میان الگوها و داده‌های متنی را به عنوان مثبت صحیح (True Positive) در نظر می‌گیرد و تطابق جزئی شناسایی شده میان آن‌ها را لحاظ نمی‌کند.

به این مثال دقت کنید. فرض کنید که قصد دارید یک روش استخراج اطلاعات آدرس تولید کنید. عبارت (6818 Eget St., Tacoma) را به عنوان یک تطابق کامل میان الگوهای تعریف شده و داده‌های متنی برای کلاس «آدرس» (Address) در نظر بگیرید. حالا عبارت (Eget St., Tacoma) را در نظر بگیرید. این عبارت، یک تطابق جزئی میان الگوها و داده‌های متنی را تشکیل می‌دهد. با این حال، در هنگام ارزیابی، تطابق جزئی شناسایی شده به عنوان مثبت غلط (False Positive) برای کلاس «آدرس» (Address) در نظر گرفته می‌شود.

برای رفع چنین مشکلی، می‌توان از خانواده‌ای از معیارهای ارزیابی به نام «معیار جایگزین یادآوری-محور برای ارزیابی خلاصه‌سازی» (Recall-Oriented Understudy for Gisting Evaluation) استفاده کرد. این دسته روش‌ها، عملکرد روش‌های استخراج متن را بهتر از معیارهای ارزیابی روش‌های دسته‌بندی، می‌سنجند. این خانواده از معیارها، طول و تعداد دنباله‌های هم‌پوشان میان الگوهای تعریف شده و متن استخراجی را محاسبه می‌کنند. به عنوان نمونه، در مثال بالا میزان هم‌پوشانی میان عبارت دوم (تطابق جزئی) و الگوهای تعریف شده، عملکرد روش استخراج متن نشان داده شده است.

روش های متن کاوی (Text mining Methods)

جمع‌بندی

حوزه متن‌کاوی و روش‌های هوشمند مدیریت منابع اطلاعاتی، یکی از پایه‌های اصلی هوش تجاری هستند. روش های متن کاوی، فرآیند استخراج اطلاعات با معنا و دانش مفید از داده‌های متنی را خودکار می‌کنند. این الگوریتم‌ها، از طریق شناسایی موضوعات، الگوها و کلمات کلیدی مرتبط، حجم عظیمی از اطلاعات را به صورت خودکار مورد بررسی قرار می‌دهند و اطلاعات و دانش از آن‌ها استخراج می‌کنند.

استخراج اطلاعات و دانش مفید از داده‌های سازمانی و اسناد تجاری، سبب اتخاذ تصمیمات تجاری داده محور بهتر و هوشمندانه‌تر توسط مدیران سازمان‌ها و شرکت‌های تجاری می‌شود. مطالعه روش های متن کاوی و دسته‌بندی‌های مختلف آن‌ها، کاربران و صاحبان مشاغل را با روش‌های هوشمند موجود برای خودکار کردن فرآیندهای سازمانی و تولید دانش برای حمایت از تصمیمات تجاری در سطح کلان و خرد آشنا می‌کند.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۱۰ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
MonkeyLearn
۴ دیدگاه برای «روش های متن کاوی — راهنمای کاربردی»

داکیومنت خیلی کاملی بود ممنونم از شما.

با سلام ، اگر بخواهیم از این روش برای تحقیقات علمی استفاده کنیم در مرحله انتخاب یا جمع آوری منابع برای متن کاوی ، چه تعدادی منبع ، مقاله ، متون و … نیاز داریم . سوال من از جنبه جامعه آماری و حجم موارد مورد مطالعه میباشد ؟

با سلام

در علم داده کاوی و مهندسی Accuracy صحت و precision دقت تفسیر و تعبیر می شود. بنابرین ضروریست متن بالا اصلاح شود.

ممنون

با سلام؛

از همراهی شما با مجله فرادرس سپاس‌گزاریم. ضمن قدردانی از دقت و توجه شما، اصلاحات لازم در متن انجام شد.

با سپاس.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *