روش های متن کاوی – راهنمای کاربردی
روش های متن کاوی (Text Mining)، برای استخراج اطلاعات با معنا و دانش مفید از «دادههای متنی غیر ساختیافته» (Unstructured Text Data) توسعه یافتهاند. دادههای متنی غیر ساختیافته، بزرگترین منبع دادههای تولید شده به وسیله انسان هستند. روش های متن کاوی، از طریق شناسایی «موضوعات» (Topics)، «الگوها» (Patterns) و «کلمات کلیدی» (Keywords) مرتبط در دادههای متنی به کاربران اجازه میدهند تا حجم عظیمی از اطلاعات را به صورت خودکار مورد بررسی قرار دهند و دانش و اطلاعات مفیدی از آنها به دست آورند. روش های متن کاوی از طریق استخراج اطلاعات و دانش مفید از دادههای سازمانی و غیرسازمانی مرتبط، منجر به ایجاد «تصمیمات تجاری داده محور» (Data-Driven Business Decisions) و بهتر در شرکتها میشوند. روش های متن کاوی، یکی از پایههای اصلی «هوش تجاری» (Business Intelligence) را تشکیل میدهند. به کمک روش های متن کاوی، شرکتهای تجاری قادر به تجزیه و تحلیل سریعتر و مؤثرتر مجموعه دادههای بزرگ و پیچیده هستند.
نقش روش های متن کاوی در استخراج اطلاعات و دانش مفید از دادههای متنی
روش های متن کاوی به سیستم کمک میکنند تا بتواند حجم عظیمی از دادههای متنی غیر ساخت یافته را تحلیل و اطلاعات مفید را از آنها استخراج کند. وقتی که روش های متن کاوی با یادگیری ماشین ترکیب میشود، مدلهای تحلیل کیفی متن تولید میشوند.
به عنوان نمونه، این مدلها، دستهبندی دادههای متنی را یاد میگیرند و یا اطلاعات (ویژگیهای) خاصی را از متن و با توجه به آموزشهای از پیش انجام شده، استخراج میکنند. شاید در نگاه اول، روش های متن کاوی مبحث بسیار پیچیدهای به نظر بیاید، ولی یادگیری و کار کردن با آنها بسیار ساده است.
اولین گام در توسعه روش های متن کاوی برای تحلیل دادههای متنی غیر ساخت یافته، جمعآوری داده است. فرض کنید که مدیر واحد پشتیبانی یک شرکت، قصد داشته باشد تا با هدف بهبود خدمات یا محصولات شرکت، گفتگوهای ثبت شده میان کاربران در وب سایت شرکت را تحلیل کند. در ابتدا، لازم است تا اسناد حاوی این دادهها جمعآوری شوند. دادههای جمعآوری شده میتوانند از منابع مختلفی گردآوری شده باشند. دادهها میتوانند منبع «داخلی» (Internal) داشته باشند (دادههایی نظیر گفتگوی مشتریان در وب سایت شرکت، ایمیلها و پایگاههای داده) و یا اینکه از منابع خارجی جمعآوری شده باشند (اطلاعات جمعآوری شده از شبکههای اجتماعی، سایتهای نظردهی، سایتهای خبری و وب سایتهای دیگر).
دومین گام در فرآیند توسعه روش های متن کاوی برای تحلیل دادههای متنی غیر ساخت یافته، آمادهسازی دادهها است. روش های متن کاوی از تکنیکهای «پردازش زبان طبیعی» (Natural Language Processing) متفاوتی (نظیر تکنیکهای تحلیل ساختار جملات یا Parsing، «جداسازی واژگان» (Tokenization)، تکنیکهای کاهش لغات به فرهنگ لغات یا lemmatization و تکنیکهای ریشهیابی لغات یا Stemming) برای تولید ورودیهای لازم برای مدل «یادگیری ماشین» (Machine Learning) استفاده میکنند.
پیش از ادامه مطلب، لازم است تا تفاوت میان مفاهیم متنکاوی، «تحلیل کمی متن» (Text Analytics) و «تحلیل کیفی متن» (Text Analysis) شرح داده شوند. مفاهیم متنکاوی و تحلیل کیفی متن معمولا مترادف هستند. با این حال، مفهوم تحلیل کمی متن، تا حدودی متفاوت از دو مفهوم دیگر است. روش های متن کاوی و مدلهای تحلیل کمی متن سعی دارند مسألهای یکسان (تحلیل اتوماتیک دادههای متنی خام) را به وسیله تکنیکهای متفاوتی حل کنند. روش های متن کاوی، اطلاعات مرتبط درون یک متن را شناسایی و در نتیجه، نتایج کیفی تولید میکنند. در نقطه مقابل، هدف تکنیکهای تحلیل کمی متن، یافتن الگوهای موجود در مجموعهای بزرگ از دادهها است. در نتیجه، تکنیکهای تحلیل کمی متن، معمولا نتایج کمّی تولید میکنند. تکنیکهای تحلیل کمی متن معمولا برای تولید دادهنما، جدول و دیگر انواع گزارشات بصری مورد استفاده قرار میگیرند.
در گام سوم از فرآیند توسعه روش های متن کاوی برای تحلیل دادههای متنی غیر ساخت یافته، لازم است تا روش های متن کاوی یا تکنیکهای تحلیل کیفی متن توسعه داده شوند. در ادامه، روش های متن کاوی که در دو دسته روشهای «دستهبندی متن» (Text Classification) و روشهای «استخراج متن» (Text Extraction) قرار دارند، بررسی میشوند.
روشهای دستهبندی متن
«دستهبندی متن» (Text Classification) به فرآیند برچسبگذاری دادههای متنی با توجه به محتوای آنها گفته میشود. در روشهای یادگیری ماشین، به برچسبهایی که توسط یک دستهبند به یک نمونه یا داده اختصاص داده میشوند، «کلاس» (Class) نیز گفته میشود.
به کمک تکنیکهای «دستهبندی خودکار متن» (Automated Text Classification)، این امکان فراهم شده است تا کاربران، شرکتهای تجاری و سازمانها، حجم عظیمی از دادههای متنی را در مدت زمان بسیار کوتاهی برچسبگذاری کنند و نتایج خوبی نیز به دست آورند. به عبارت دیگر، فرآیند دستهبندی متون، بدون اینکه لازم باشد نظارت انسانی بر روی آن صورت گیرد، به طور خودکار کلاسهای مناسب را به دادههای متنی اختصاص میدهد. چنین فرآیندی، کاربردهای بسیار هیجانانگیزی در حوزههای مختلف خواهد داشت.
سیستمهای دستهبندی مبتنی بر قاعده
سیستمهای دستهبندی متن «مبتنی بر قاعده» (Rule-based)، بر پایه قوانین «زبانشناسی» استوار هستند. منظور از قوانین زبانشناسی در این مبحث، قواعد تناظری (یا وابستگی) تولید شده به وسیله انسانها، برای ایجاد تناظر میان یک الگوی زبانشناسی خاص و یک برچسب (یا کلاس) است. به عبارت دیگر، سیستم به محض اینکه یک الگوی زبانی خاص را در دادهها مشاهده کند، به طور خودکار از برچسب متناظر با این الگو، برای برچسبگذاری یا دستهبندی آن استفاده میکند. به محض اینکه قواعد لازم برای چنین کاری در روش های متن کاوی طراحی شدند، سیستم به طور خودکار قادر خواهد بود تا ساختارهای زبانشناسی مختلف موجود در دادههای متنی را تشخیص و برچسب متناظر با آن را اختصاص دهد.
به طور کلی، قواعد طراحی شده در سیستم به الگوهای «لغوی» (Lexical)، «نحوی» (Syntactical) و «مورفولوژیکی» (Morphological) موجود در دادههای متنی اشاره دارند. همچنین، این قواعد میتوانند به جنبههای «معنایی» (Semantic) و یا «واجشناسی» (Phonological) موجود در دادههای متنی نیز اشار داشته باشند. به عنوان نمونه، چنین قاعدهای میتواند به عنوان یک قانون برای دستهبندی مشخصات محصولات بر اساس رنگ آنها مورد استفاده قرار بگیرد:
در چنین حالتی، روش های متن کاوی پیادهسازی شده به محض اینکه یکی از کلمات بالا را در دادههای متنی تشخیص دهد، برچسب را به آن اختصاص میدهد.
از آنجا که سیستمهای مبتنی بر قاعده، توسط انسانها توسعه داده شده و بهبود مییابند، درک نحوه عملکرد آنها بسیار ساده است. با این حال، اضافه کردن قواعد جدید به سیستمهای مبتنی بر قاعده، نیازمند آزمایشات زیادی است تا مشخص شود قواعد جدید چه تاثیری بر پیشبینیهای انجام شده توسط قواعد دیگر دارند. در نتیجه، چنین سیستمهایی مقیاسپذیری خوبی از خود نشان نمیدهند. علاوه بر این، پیادهسازی «سیستمهای پیچیده» (Complex Systems) نیازمند در اختیار داشتن دانش خاص در مورد عناصر زبانشناسی و دادههایی است که قرار است تحلیل شوند. کسب دانش در دامنههای مختلف نیز بسیار هزینهبر است.
سیستمهای مبتنی بر یادگیری ماشین
سیستمهای متنکاوی مبتنی بر یادگیری ماشین، قابلیت یادگیری از نمونههای آموزشی را دارند. به عبارت دیگر، چنین سیستمهایی یک مدل یادگیری بر اساس دادههای متنی آموزشی تولید و از مدل تولید شده برای پیشبینی برچسب یا کلاس دادههای متنی جدید استفاده میکنند.
برای چنین کاری، سیستمهای مبتنی بر یادگیری ماشین، باید با دادههای متنی مرتبط با دامنه کاربردی مورد نظر (به این دادهها، دادههای آموزشی گفته میشود) که به درستی برچسبگذاری شدهاند، آموزش ببینند. نکته مهم در آموزش چنین سیستمهایی این است که نمونههای آموزشی، باید منعکس کننده دادههای متنی در کاربرد مورد نظر باشند تا سیستم بتواند دادههای متنی جدید را به درستی دستهبندی کند. اما یک سیستم دستهبندی مبتنی بر یادگیری ماشین چگونه میتواند دادههای متنی را برچسبگذاری کند؟
سیستمهای دستهبندی مبتنی بر یادگیری ماشین، باید دادههای آموزشی را به قالبی تبدیل کنند که توسط ماشین قابل خواندن باشند. در چنین سیستمهایی، دادهها در قالب «بردار» (Vector) نمایش داده میشوند. بردار، مجموعهای از اعداد همراه با «دادههای کدبندی شده» (Encoded Data) است. یکی از شناخته شدهترین روشهای «برداریسازی» (Vectorization) دادههای متنی، تکنیکی به نام Bag-of-Words است. در تکنیک Bag-of-Words، از یک بردار برای شمارش تعداد رخدادهای کلمات یا مفاهیم موجود در یک داده متنی استفاده میشود. کلماتی که قرار است تعداد رخدادهای آنها در دادههای متنی شمارش شود، در لیستی از پیش تعریف شده قرار دارند.
ورودی الگوریتمهای یادگیری ماشین برای دستهبندی متن، دادههای متنی هستند که برداریسازی (تبدیل به بردار) و به وسیله کلاسهای مناسب برچسبگذاری شدهاند. نتیجه چنین فرآیندی، ایجاد مدلهای دستهبندی دادههای متنی است.
مدل یادگیری ماشین، توسط دادههای آموزشی ورودی، آموزش میبیند. سپس، مدل آموزش دیده شده میتواند ویژگیهای مرتبط را از دادههای متنی جدید استخراج و با توجه به اطلاعات به دست آمده، این دادهها را در یکی از کلاسهای از پیش تعریف شده دستهبندی کند.
الگوریتمهای شناخته شده یادگیری ماشین برای دستهبندی متن
- الگوریتمهای خانواده «بِیز ساده» (Naive Bayes): این دسته از الگوریتمها، از «قضیه بیز» (Bayes Theorem) و «نظریه احتمال» (Probability Theory) برای دستهبندی دادههای متنی و پیشبینی کلاس (برچسب) آنها استفاده میکنند. در چنین حالتی، بردارهای نمایش دهنده دادههای متنی، اطلاعات موجود را براساس «درستنمایی» (Likelihood) تعلق هر کدام از کلمات موجود در متن به هر یک از کلاسهای موجود در مدل کدبندی میکنند. این روش احتمالی، حتی زمانی که دادههای آموزشی کافی برای آموزش مدل یادگیری ماشین وجود نداشته باشد، دقت بسیار خوبی از خود نشان میدهد.
- الگوریتم «ماشین بردار پشتیبان» (Support Vector Machine): این الگوریتم، یک روش «دستهبندی باینری» (Binary Classification) است. به عبارت دیگر، بردارهای نمایش دهنده دادههای متنی را به دو گروه مختلف دستهبندی میکند. گروه اول، حاوی دادههای متنی (نمونههایی) است که به کلاس (برچسب) مثبت و مد نظر ما تعلق دارند و گروه دوم، دادههای متنی را شامل میشود که به این کلاس (برچسب) تعلق ندارند. نتایج حاصل از دستهبندی دادههای متنی با استفاده از این روش، معمولا بهتر از نتایج دستهبندی حاصل از الگوریتمهای خانواده بِیز است.
- روشهای «یادگیری عمیق» (Deep Learning): نحوه عملکرد این دسته از الگوریتمها، مشابه فرآیندهای تفکری در مغز انسان است. زمانی که این الگوریتمها روی میلیونهای نمونه آموزشی، آموزش میبینند، میتوانند نمایش بسیار دقیق و همراه با جزئیات از دادههای متنی تولید کنند. از طریق روشهای یادگیری عمیق، روش های متن کاوی مبتنی بر یادگیری ماشین فوقالعاده دقیقی میتوان تولید کرد.
سیستمهای ترکیبی
سیستمهای «ترکیبی» (Hybrid)، سیستمهای مبتنی بر قاعده را با سیستمهای مبتنی بر یادگیری ماشین ترکیب میکنند. این سیستمها، به نوعی مکمل یکدیگر محسوب میشوند و از این طریق، دقت نتایج تولید شده را افزایش میدهند.
ارزیابی عملکرد روشهای دستهبندی متن
عملکرد یک سیستم دستهبندی متن، از طریق پارامترهای متفاوتی نظیر «صحت» (Accuracy)، «یادآوری» (Recall | بازیابی | صحت)، «دقت» (Precision) و امتیاز F1 سنجیده میشود. درک این معیارها، به کاربران اجازه میدهد تا بفهمند که یک مدل دستهبندی توسعه داده شده، تا چه حد در تحلیل دادههای متنی خوب عمل میکند.
برای «ارزیابی» (Evaluation) عملکرد یک سیستم دستهبندی دادههای متنی، میتوان از یک مجموعه داده تست ثابت (مجموعهای از دادههای متنی با اندازه از پیش تعیین شده که کلاس (برچسب) هر کدام از نمونههای موجود در آن مشخص شده است) یا از روشی به نام «اعتبار سنجی متقابل» (Cross Validation) استفاده کرد. چنین فرآیندی در مرحله ارزیابی، دادههای آموزشی را به دو زیر مجموعه تقسیم میکند؛ زیر مجموعه اول برای آموزش مدل یادگیری ماشین و زیر مجموعه دوم برای تست عملکرد سیستم استفاده میشود.
در این بخش، معیارهای مختلف برای ارزیابی عملکرد مدل دستهبندی متن معرفی شده است و روش اعتبار سنجی متقابل نیز شرح داده میشود.
معیار صحت
معیار «صحت» (Accuracy)، بیان کننده تعداد «پیشبینیهای صحیح انجام شده» توسط دستهبند، تقسیم بر، تعداد «کل پیشبینیهای انجام شده» توسط همان دستهبند است. با این حال، این معیار به تنهایی، معیار مناسبی برای ارزیابی عملکرد یک دستهبند نیست. زمانی که کلاسهای موجود در دادهها «نامتوازن» (Imbalanced) باشند (یعنی، تعداد دادههای متعلق به کلاس (برچسب) خاص از کلاسهای دیگر بسیار بیشتر باشد)، ممکن است سیستم با پدیده خاصی به نام «تناقض صحت» (Paradox Accuracy) مواجه شود.
در نتیجه این تناقض، مدل دستهبند به احتمال زیاد عملکرد بسیار خوبی در پیشبینی کلاس (برچسب) دادهها از خود نشان میدهد؛ زیرا، اکثریت دادهها تنها به یکی از کلاسها تعلق دارند. در صورتی که چنین پدیدهای رخ دهد، بهتر است که معیارهای دیگری نظیر «فراخوانی» (Recall | نرخ یادآوری) و «دقت» (Precision) برای ارزیابی عملکرد سیستم در نظر گرفته شوند.
معیار یادآوری
معیار «یادآوری» (Recall)، بیان کننده نسبت «تعداد دادههای متنی درست دستهبندی شده» در یک کلاس خاص، به تعداد کل دادههایی است که باید در همان کلاس خاص دستهبندی شوند. مقدار بالا برای معیار یادآوری، بیانگر تعداد کم دادههایی است که به اشتباه، در آن کلاس خاص دستهبندی نشدهاند. استفاده از این معیار، به تنهایی، برای ارزیابی عملکرد سیستم درست نیست و باید در کنار معیار «دقت» (Precision) مورد استفاده قرار بگیرد. زیرا، به راحتی میشود مدلهای دستهبندی متنی طراحی کرد که یادآوری بالایی داشته باشند و این لزوما به معنای «دقت» (Precision) بالا نیست.
معیار دقت
معیار «دقت» (Precision)، نسبت تعداد «پیشبینیهای صحیح انجام شده» برای نمونههای یک کلاس خاص، به تعداد «کل پیشبینیها» برای نمونههای همان کلاس خاص را (این تعداد، مجموع تمامی پیشبینیهای صحیح و پیشبینیهای نادرست را شامل میشود) ارزیابی میکند. مقدار بالا برای معیار دقت، بیانگر تعداد کم دادههایی است که به اشتباه، در کلاس خاص دستهبندی شدهاند. شایان توجه است که معیار دقت، فقط برای مواردی ارزیابی میشود که در آنها، مدل دستهبندی تعلق یک نمونه به یک کلاس خاص را پیشبینی کرده باشد. برای برخی از فعالیتها، نظیر ارسال «پاسخهای خودکار به ایمیلها» (Automated Email Responses)، مدلهایی نیاز است که سطح دقت آنها بالا باشد؛ به عبارت دیگر، پاسخها تنها باید زمانی به کاربران ارسال شوند که مدل دستهبندی، با احتمال بالا، پیشبینیهای درستی انجام داده باشد. در هنگام ارزیابی عملکرد یک مدل دستهبندی متن، بهتر است که از این معیار در کنار معیار «یادآوری» (Recall) استفاده شود.
معیار امتیاز F1
این معیار، پارامترهای «دقت» (Precision) و «یادآوری» (Recall) را با هم ترکیب میکند تا مشخص شود یک مدل دستهبند تا چه حد عملکرد خوبی از خود نشان میدهد. به این معیار، «میانگین متوازن» (Harmonic Mean) دو معیار دقت (Precision) و یادآوری (Recall) نیز گفته میشود. این معیار، نسبت به معیار صحت (Accuracy)، تصویر دقیقتری از نحوه عملکرد مدل دستهبند روی تمامی کلاسهای موجود در دادهها ترسیم میکند.
روش اعتبارسنجی متقابل
از روش «اعتبارسنجی متقابل» (Cross Validation)، به وفور برای ارزیابی عملکرد مدلهای دستهبندی متن استفاده میشود. این روش، از طریق تقسیمبندی دادههای آموزشی به زیر مجموعههای متفاوت، دادههای لازم برای ارزیابی سیستم را مشخص میکند. به عنوان نمونه، برای ارزیابی عملکرد سیستم میتوان دادههای آموزشی را به چهار گروه تقسیمبندی کرد؛ به طوری که هر زیر مجموعه، 25 درصد از دادههای اصلی را شامل شود.
سپس، یکی از زیر مجموعهها کنار گذاشته میشود (این دسته از دادهها، مجموعه داده تست (Test) گفته میشود) و از بقیه زیر مجموعهها، برای آموزش مدل دستهبندی در مرحله آموزش استفاده میشود. مجموعه داده تست، برای ارزیابی عملکرد سیستم در پیشبینی کلاس (برچسب) دادهها در مرحله تست مورد استفاده میگیرد. سپس، از معیارهای ارزیابی ارائه شده برای محاسبه میزان عملکرد سیستم استفاده میشود (در ارزیابی، کلاس (برچسب) واقعی دادهها با کلاس (برچسب) پیشبینی شده، توسط مدل دستهبندی مقایسه میشود). در مراحل بعدی، یکی از دیگر از زیر مجموعهها برای ارزیابی در مرحله تست کنار گذاشته میشود و از زیر مجموعههای باقی مانده برای آموزش مدل دستهبندی استفاده میشود. این کار تا زمانی انجام میشود که تمامی زیر مجموعهها، برای ارزیابی عملکرد سیستم در مرحله تست استفاده شده باشند. در نهایت، نتیجه ارزیابی عملکرد سیستم روی تمامی زیر مجموعهها جمعآوری میشود و از این طریق، میانگین عملکرد سیستم با توجه به معیارهای ارزیابی ارائه شده محاسبه میشود.
روشهای استخراج متن
«استخراج متن» (Text Extraction)، در واقع، روشهای تحلیل کیفی متن برای استخراج ویژگیهایی نظیر «کلمات کلیدی» (Keywords)، «نام موجودیتهای متنی» (Entity Names)، آدرسها، رایانامهها و سایر موارد از دادههای متنی غیر ساخت یافته است. به عبارت دیگر، استخراج متن، فرآیند استخراج اطلاعات خاص از دادههای متنی است. این دسته از روشها، نقش مهمی در شناسایی و استخراج اطلاعات کلیدی دارند؛ اطلاعاتی که شناسایی و استخراج دستی آنها از دادههای متنی، بسیار زمانگیر و طاقتفرسا خواهد بود.
استخراج متن، کاربردهای متنوعی در تجارت و کسبوکار دارد.به عنوان نمونه، از این روشها میتوان برای استخراج اسامی شرکتها از مجموعه داده لینکدین و یا شناسایی ویژگیهای مختلف در مشخصات یک محصول یا سرویس استفاده کرد. فرض کنید شما چندین قرارداد مالی دارید و قصد دارید آنها را تحلیل کنید. در چنین حالتی، به راحتی میتوانید دادههای متنی قراردادهای مالی را بررسی و مثلا مستأجرین و اجارهدهندهها را در آنها پیدا کنید. شما قادر هستید تمام این کارها را، بدون نگاه کردن به دادههای متنی انجام دهید.
از روشهای مختلفی میتوان برای شناسایی و استخراج اطلاعات مرتبط و کلیدی از دادههای متنی استفاده کرد. در ادامه، نگاهی به شایعترین و مهمترین روشهای استخراج متن خواهیم داشت.
روش عبارات منظم
«عبارات منظم» (Regular Expression)، دنبالهای از کاراکترها را تعریف میکنند که متناظر با یک کلاس (برچسب) در نظر گرفته میشوند. از یک دیدگاه، این دسته روشها را میتوان معادل سیستمهای مبتنی بر قاعده (Rule-based) به حساب آورد. هر کدام از الگوهای تعریف شده به وسیله عبارات منظم، معادل قوانین در سیستمهای دستهبند متن مبتنی بر قاعده هستند. هر زمان که این روش استخراج متن، یک الگوی متناظر با یکی از عبارات منظم را در دادههای متنی تشخیص دهد، کلاس (برچسب) متناظر با آن را به متنها اختصاص میدهد.
اگر الگوها یا قوانین مناسبی برای استخراج اطلاعات کلیدی و مفید از متن تعریف شوند، روشهای استخراج متن، عملکرد مناسبی در استخراج اطلاعات مناسب از متن از خود نشان میدهند. با این حال، مقیاسپذیری این روش بسیار سخت است؛ به ویژه، زمانی که الگوها پیچیده شوند و برای شناسایی آنها در متن، چندین عبارت منظم نیاز باشد.
روش میدانهای تصادفی شرطی
روش «میدانهای تصادفی شرطی» (Conditional Random Fields)، روش آماری است که میتواند برای کاربردهای استخراج متن در کنار مدلهای یادگیری ماشین قرار بگیرد. این دسته روشها، از طریق ارزیابی اهمیت (وزن) ویژگیهای مختلف موجود در دنبالهای از کلمات یک متن، سیستم خاصی برای استخراج متن تولید میکنند. این سیستم قادر خواهد بود تا الگوهایی که باید از متن استخراج شوند را یاد بگیرد. روش میدانهای تصادفی شرطی، قابلیت کدبندی اطلاعات بیشتری نسبت به عبارات منظم دارد؛ در نتیجه، میتواند الگوهای غنیتر و پیچیدهتری تولید کند. مشکل بزرگ این روش این است که برای یادگیری مناسب الگوها در دادههای متنی، به قدرت محاسباتی بیشتر و دانش «پردازش زبان طبیعی» جامعتری احتیاج دارد.
ارزیابی عملکرد روشهای استخراج متن
این امکان وجود دارد که از معیارهای ارائه شده برای ارزیابی روشهای دستهبندی متن صحت (Accuracy)، یادآوری (Recall | نرخ یادآوری)، دقت (Precision) و امتیاز F1)، برای ارزیابی روشهای استخراج متن استفاده شود. با این حال، این معیار تنها تطابق کامل میان الگوها و دادههای متنی را به عنوان مثبت صحیح (True Positive) در نظر میگیرد و تطابق جزئی شناسایی شده میان آنها را لحاظ نمیکند.
به این مثال دقت کنید. فرض کنید که قصد دارید یک روش استخراج اطلاعات آدرس تولید کنید. عبارت (6818 Eget St., Tacoma) را به عنوان یک تطابق کامل میان الگوهای تعریف شده و دادههای متنی برای کلاس «آدرس» (Address) در نظر بگیرید. حالا عبارت (Eget St., Tacoma) را در نظر بگیرید. این عبارت، یک تطابق جزئی میان الگوها و دادههای متنی را تشکیل میدهد. با این حال، در هنگام ارزیابی، تطابق جزئی شناسایی شده به عنوان مثبت غلط (False Positive) برای کلاس «آدرس» (Address) در نظر گرفته میشود.
برای رفع چنین مشکلی، میتوان از خانوادهای از معیارهای ارزیابی به نام «معیار جایگزین یادآوری-محور برای ارزیابی خلاصهسازی» (Recall-Oriented Understudy for Gisting Evaluation) استفاده کرد. این دسته روشها، عملکرد روشهای استخراج متن را بهتر از معیارهای ارزیابی روشهای دستهبندی، میسنجند. این خانواده از معیارها، طول و تعداد دنبالههای همپوشان میان الگوهای تعریف شده و متن استخراجی را محاسبه میکنند. به عنوان نمونه، در مثال بالا میزان همپوشانی میان عبارت دوم (تطابق جزئی) و الگوهای تعریف شده، عملکرد روش استخراج متن نشان داده شده است.
جمعبندی
حوزه متنکاوی و روشهای هوشمند مدیریت منابع اطلاعاتی، یکی از پایههای اصلی هوش تجاری هستند. روش های متن کاوی، فرآیند استخراج اطلاعات با معنا و دانش مفید از دادههای متنی را خودکار میکنند. این الگوریتمها، از طریق شناسایی موضوعات، الگوها و کلمات کلیدی مرتبط، حجم عظیمی از اطلاعات را به صورت خودکار مورد بررسی قرار میدهند و اطلاعات و دانش از آنها استخراج میکنند.
استخراج اطلاعات و دانش مفید از دادههای سازمانی و اسناد تجاری، سبب اتخاذ تصمیمات تجاری داده محور بهتر و هوشمندانهتر توسط مدیران سازمانها و شرکتهای تجاری میشود. مطالعه روش های متن کاوی و دستهبندیهای مختلف آنها، کاربران و صاحبان مشاغل را با روشهای هوشمند موجود برای خودکار کردن فرآیندهای سازمانی و تولید دانش برای حمایت از تصمیمات تجاری در سطح کلان و خرد آشنا میکند.
اگر نوشته بالا برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای داده کاوی و یادگیری ماشین
- آموزش اصول و روش های داده کاوی (Data Mining)
- مجموعه آموزشهای هوش مصنوعی
- انتخاب ویژگی (Feature Selection) در داده های ابعاد بالا — خودآموز ساده
- دسته بندی موجودیت های نام دار (Named Entity) — راهنمای کاربردی
- عقیدهکاوی و تحلیل احساسات --- از مفهوم تا کاربرد
^^
داکیومنت خیلی کاملی بود ممنونم از شما.
با سلام ، اگر بخواهیم از این روش برای تحقیقات علمی استفاده کنیم در مرحله انتخاب یا جمع آوری منابع برای متن کاوی ، چه تعدادی منبع ، مقاله ، متون و … نیاز داریم . سوال من از جنبه جامعه آماری و حجم موارد مورد مطالعه میباشد ؟
با سلام
در علم داده کاوی و مهندسی Accuracy صحت و precision دقت تفسیر و تعبیر می شود. بنابرین ضروریست متن بالا اصلاح شود.
ممنون
با سلام؛
از همراهی شما با مجله فرادرس سپاسگزاریم. ضمن قدردانی از دقت و توجه شما، اصلاحات لازم در متن انجام شد.
با سپاس.