بررسی چالش‌های عقیده‌کاوی و تحلیل احساسات — به زبان ساده

۳۴۹ بازدید
آخرین به‌روزرسانی: ۲۵ اردیبهشت ۱۴۰۲
زمان مطالعه: ۹ دقیقه
دانلود PDF مقاله
بررسی چالش‌های عقیده‌کاوی و تحلیل احساسات — به زبان سادهبررسی چالش‌های عقیده‌کاوی و تحلیل احساسات — به زبان ساده

علاقمندی به مباحث «عقیده‌کاوی» (Opinion Mining) و «تحلیل احساسات» (Sentiment Analysis) به دلیل کاربردهای متعدد و قابل توجه آن‌ها است. در چند سال اخیر، پژوهشگران و کسب‌و‌کارهای زیادی در این حوزه به فعالیت پرداخته‌اند و اغلب دستاوردهای مهم و جالب توجهی داشته‌اند. از این رو، در یک مجموعه مطلب در وبلاگ فرادرس به مباحث مرتبط با عقیده‌کاوی پرداخته شده است.

997696

در مطلب «عقیده‌کاوی و تحلیل احساسات ــ از مفهوم تا کاربرد» دلایل افزایش علاقمندی به این مباحث و مفاهیم عقیده‌کاوی، تحلیل احساسات، تحلیل عواطف و «تحلیل ذهنیت» (subjectivity analysis) مورد بررسی قرار گرفت. سپس به شباهت‌ها و تفاوت‌های این کلیدواژه‌ها با یکدیگر پرداخته شد. در مطلب مذکور، مثالی از یک سیستم عقیده‌کاوی ارائه و انواع روش‌ها و رویکردهای موجود در این زمینه، راهکارهای ارزیابی، تاثیر وب ۲.۰ بر این بحث و در نهایت کاربرد عقیده‌کاوی در سیستم‌های توصیه‌گر تشریح شد.

در بخش دوم از این مجموعه مطلب با عنوان «عقیده‌ کاوی و تحلیل احساسات ــ کاربردها»، کاربردهای گوناگون عقیده‌کاوی در زمینه‌های مختلف از جمله وب‌سایت‌های نقد و بررسی، کسب‌و‌کار، هوش دولتی و دیگر موارد مورد بررسی قرار گرفت. دیگر مساله حائز اهمیت در حوزه عقیده‌کاوی، چالش‌های اساسی موجود پیرامون این زمینه است که در جوامع پژوهشی مطرح شده‌اند. در واقع باید گفت تحلیل احساسات با متن‌کاوی کلاسیک و تحلیل‌های مبتنی بر واقعیت (fact based analysis) متفاوت و حتی به نوعی پیچیده‌تر از آن‌ها است. اما حقیقتا چه چیزی این تمایزها را ایجاد کرده و چرا گفته می‌شود که عقیده‌کاوی از متن‌کاوی کلاسیک پیچیده‌تر است؟

متن‌کاوی

برای پرداختن بهتر به این مبحث، از یک مثال یعنی «دسته‌بندی متن» (text classification) استفاده می‌شود. دسته‌بندی متن در  شکل سنتی خود، در تلاش است تا اسناد متنی را بر اساس موضوع آن‌ها دسته‌بندی کند. دسته‌های احتمالی بسیاری برای قرار دادن یک متن در آن‌ها وجود دارد که تعاریف هر یک از آن‌ها می‌تواند بسته به کاربر و کاربرد آن متفاوت باشد؛ داده‌کاو برای یک مساله دسته‌بندی متن خاص ممکن است با تعداد دسته‌های بسیار کم و مثلا در حد دو دسته (دسته بندی دودویی) یا تعداد زیاد و بالغ بر هزاران دسته سر و کار داشته باشد.

در اغلب مسائل، چند دسته (برای مثال دسته «مثبت» یا «سه ستاره») عمومی وجود دارد که برای اکثر کاربرها و کاربردها قابل استفاده هستند (برای درک بهتر مطلب می‌توان سیستم امتیازدهی به یک فیلم را در نظر گرفت که کاربران می‌توانند از یک تا پنج ستاره به آن بدهند. همین سیستم قابل پیاده‌سازی برای امتیازدهی به کتاب، رستوران و یا حتی یک کالای دیجیتال است).

در حالیکه، دسته‌های گوناگون موجود در دسته‌بندی مبتنی بر موضوع می‌توانند کاملا بی‌ربط به یکدیگر باشند، و یا برچسب‌های احساساتی که در پژوهش‌های پیشین این حوزه به‌طور گسترده استفاده شده‌اند در برگیرنده مفاهیم متمایز از یکدیگر باشند (اگر مساله دسته‌بندی دودویی یا دسته‌بندی ترتیبی/عددی مطابق با مقیاس چند نقطه‌ای باشد). در حقیقت، ماهیت رگرسیون‌مانند استحکام احساسات، درجه مثبت بودن و دیگر موارد در بحث دسته‌بندی احساسات موجب یکتا بودن آن‌ها می‌شود.

امتیازدهی

همچنین، مشخصه‌های زیادی در پاسخ به پرسش‌های مسائل عقیده‌محور وجود دارد که از پاسخ‌های موجود برای پرسش‌های مربوط به مسائل مبتنی بر واقعیت متفاوت هستند. در نتیجه، استخراج اطلاعات عقیده‌محور، به عنوان راهکاری جهت مواجهه با مساله پاسخگویی به پرسش‌های عقیده‌محور، ذاتا از بحث استخراج اطلاعات (IE) سنتی متفاوت است.

جالب‌تر آنکه، در شرایطی که بحث استخراج اطلاعات با دسته‌بندی مبتنی بر احساسات دارای مشابهت است، الگوها (قالب‌ها) برای استخراج اطلاعات مبتنی بر عقیده در دامنه‌های گوناگون عمومی‌سازی می‌شوند، زیرا پژوهشگران علاقمند به ایجاد مجموعه مشابهی از زمینه‌ها برای هر گونه بیان عقایدی (نگهدارنده،‌ نوع، استحکام) صرف‌نظر از موضوع آن‌ها هستند.

در عین حال، قالب‌های سنتی استخراج اطلاعات می‌توانند به شدت از یک دامنه تا دامنه دیگر متفاوت باشند، مثالا قالب مرسوم برای ثبت اطلاعات مرتبط با بیماری‌های طبیعی بسیار متفاوت‌تر از قالب سنتی مورد استفاده برای ذخیره‌سازی اطلاعات کتاب‌شناختی است. چنین تمایزهایی ممکن است موجب شود مسائل این حوزه به طرز فریبنده‌ای ساده‌تر از همتایان خود در تحلیل‌های مبتنی بر واقعیت به نظر برسند، در حالیکه این امر از حقیقت به دور است. در این مطلب، با بهره‌گیری از چند مثال ساده نشان داده می‌شود که چه چیزی مسائل عقیده‌کاوی را در مقایسه با تحلیل‌های مبتنی بر واقعیت سنتی پیچیده‌تر می‌سازد.

عامل‌هایی که عقیده‌کاوی را دشوار می‌سازد

بحث با مثال قطبش عواطف (sentiment polarity) در دسته‌بندی متن آغاز می‌شود. حالتی مفروض است که در آن هدف دسته‌بندی یک متن حاوی عقاید، به عنوان مثبت یا منفی، مطابق با عواطف کلی ابراز شده توسط نویسنده آن است. آیا این کار دشوار است؟

برای پاسخ به این پرسش، متن زیر که تنها حاوی یک جمله است به عنوان مثال در نظر گرفته می‌شود.

Jane Austen’s books madden me so that I can’t conceal my frenzy from the reader.

موضوع این بخش از نوشته را می‌توان با عبارت «جین آستن» (Jane Austen) تعیین کرد. وجود کلماتی مانند «madden» و «frenzy» در برگیرنده احساسات منفی در متن است. بنابراین، ممکن است چنین برداشت شود که انجام این کار آسان است و از این رو چنین فرضیه‌ای را مطرح کند که قطبش عواطف متن را می‌توان به طور کلی با یک مجموعه از کلمات کلیدی تعیین کرد. اما، نتیجه پژوهش اخیری که توسط پانگ (Pang) و همکاران، روی نقد و بررسی‌های مربوط به فیلم‌های سینمایی انجام شده حاکی از آن است که استفاده از مجموعه صحیح کلمات کلیدی پیچیده‌تر از آن است که تصور می‌شود.

هدف از پژوهش پانگ و همکاران درک بهتر دشواری مسائل دسته‌بندی قطبش عواطف در سطح اسناد متنی بوده است. در این پژوهش، از دو فاعل انسانی خواسته شده تا کلمات کلیدی که شاخص مناسبی برای تعیین عواطف مثبت و منفی متن محسوب می‌شوند را تعیین کنند. چنانکه در جدول زیر نشان داده شده، استفاده از جدول کلمات کلیدی تنها ۶۰٪ صحت را هنگامی که سیاست‌های دسته‌بندی خوبی اتخاذ شده‌اند در بر دارد. این در حالیست که جدول کلماتی با اندازه مشابه که بر اساس آزمودن مجموعه‌ای از متون انتخاب شده، صحتی بالغ بر ۷۰٪ کسب کرده است. حتی کلماتی مانند «Still» ممکن است در ابتدا انتقال دهنده عواطف به نظر نرسند.

جدول کلمات کلیدی در عقیده‌کاوی

مقایسه دسته‌بندی عواطف با استفاده از لیست کلیدواژه‌های ساخته شده توسط انسان (انسان ۱ و انسان ۲) با نتایج حاصل شده از دسته‌بندی عواطف بر اساس کلیدواژه‌های انتخاب شده با استفاده از محاسبات آماری ساده روی داده‌های تست (آمار محور) حاکی از پیچیدگی مبحث انتخاب کلیدواژه مناسب دارد.

در حالیکه کلمه‌ای مانند «still» به عنوان یک ویژگی برای دسته‌بندی متن ممکن است توسط هیچ انسانی به عنوان ویژگی تاثیرگذار بر بار عاطفی متن پیشنهاد نشود، اما در رویکرد «داده‌محور» (data driven) با توجه به داده‌های آموزش داده شده، همبستگی این واژه با دسته مثبت قابل کشف است و امکان استفاده از آن (حداقل در دامنه نقد و بررسی‌های فیلم‌ها) عطف به ماسبق وجود دارد.

در واقع، اعمال روش‌های یادگیری ماشین براساس مدل‌های «۱-گرام» (unigram) می‌تواند به صحت ٪۸۰ منجر شود که به مراتب بهتر از کارایی روش انتخاب کلیدواژه‌ها توسط انسان که در بالا بیان شد محسوب می‌شود. اگرچه، این سطح از صحت ممکن است به خوبی کارایی یک انسان در دسته‌بندی‌های دودویی موضوع محور نباشد.

عقیده‌کاوی

چرا چنین مساله‌ای سخت‌تر از وظیفه سنتی دسته‌بندی دودویی متن و بسیار متمایز از آن است؟ بحث پیرامون الگوریتم‌های دسته‌بندی و استخراج عواطف که در مطالب آتی مورد بررسی قرار می‌گیرند از این مطلب بهتر پرده‌برداری می‌کند، اما در ادامه چند مثال در همین رابطه آمده است (از میان مثال‌های متعدد و متنوع موجود) که نگاه بهتری به دلایل دشواری مسائل عقیده‌کاوی فراهم می‌کند.

لازم به ذکر است که مثال‌های بیان شده در ادامه، همه مشکلات موجود در این حوزه را نشان نمی‌دهند و تنها به گوشه‌ای از آن‌ها می‌پردازند. در مقایسه با موضوع یک متن، عواطف موجود در آن می‌توانند به شکل نامحسوسی ارائه شوند و همین امر موجب می‌شود تا تعیین احساسات آن متن در هر یک از جملات یا اصطلاحات سند متنی هنگامی که به طور مجزا و ایزوله در نظر گرفته می‌شوند دشوارتر باشد. عبارت‌های زیر مثال‌های خوبی برای این موضوع هستند.

If you are reading this because it is your darling fragrance, please wear it at home exclusively, and tape the windows shut.

(نقد و بررسی نوشته شده توسط «لوکا تورین» (Luca Turin) و «تانیا سانچز» (Tania Sanchez) پیرامون عطر ژیوانشی در Perfumes: The Guide, Viking 2008)

در متن بالا ظاهرا هیچ واژه منفی وجود ندارد.

She runs the gamut of emotions from A to B.

(سخنرانی انجام شده توسط «دوروتی پارکر» (Dorothy Parker) پیرامون «کاترین هپبورن» (Katharine Hepburn))

در متن بالا ظاهرا هیچ واژه منفی وجود ندارد.

مثالی که این بحث را بیش از پیش واضح می‌سازد، گفتاورد زیر از مارک تواین است که فاقد هر گونه واژه در بردارنده احساسات منفی به نظر می‌رسد.

Jane Austen’s books madden me so that I can’t conceal my frenzy from the reader. Everytime I read ‘Pride and Prejudice’ I want to dig her up and beat her over the skull with her own shin-bone.

واژگان مشاهده شده در جمله دوم حاکی از وجود یک عقیده بسیار مستحکم و قاطع است که ارتباط دادن آن به کلیدواژه‌ها یا عبارات خاصی در این متن کار دشواری محسوب می‌شود. در واقع، تشخیص ذهنیت می‌تواند در ذات خود کار دشواری باشد. گفتاورد زیر از «شارلوت برونته» (Charlotte Bronte) در نامه به «جورج لوئیس» (George Lewes) مثالی از این مورد است.

You say I must familiarise my mind with the fact that “Miss Austen is not a poetess, has no ‘sentiment’ ” (you scornfully enclose the word in inverted commas), “has no eloquence, none of the ravishing enthusiasm of poetry”; and then you add, I must “learn to acknowledge her as one of the greatest artists, of the greatest painters of human character, and one of the writers with the nicest sense of means to an end that ever lived”.

مرز بین حقایق و عقاید مساله قابل توجهی است. در حالی که «Miss Austen is not a poetess» را می‌توان به عنوان یک حقیقت در نظر گرفت، «none of the ravishing enthusiasm of poetry» را احتمالا باید یک عقیده محسوب کرد، حتی اگر دو عبارت (قابل بحث) دربردارنده اطلاعات مشابهی باشند. بنابراین، نه تنها به سادگی نمی‌توان کلمات کلیدی عواطف را تعیین کرد، بلکه یافتن الگوهایی مانند «the fact that» الزاما بیانگر یک واقعیت در متن نیست و ۲-گرام‌هایی (bigrams) مانند «no sentiment» نیز ظاهرا تضمینی بر نبود عقاید نیستند.

کتاب‌های جین آستن

اکنون می‌توان دیدگاهی نسبت به میزان پیچیدگی استخراج اطلاعات مبتنی بر عقیده داشت. مثال دیگر از این مورد، اسکرین شات زیر است که از نقد و بررسی‌های نوشته شده توسط کاربران وب برای فیلم‌ها تهیه شده است. این تصویر مربوط به نقد و بررسی بینندگان فیلم The Nightmare Before Christmas است.

عقیده‌کاوی

نکته جالب توجه آن است که تشخیص فرد بیان کننده عقاید نیز امری ساده و بدیهی نیست. در مثالی که پیش‌تر به آن اشاره شد (نامه شارلوت برونته به جورج لوئیس)، عقیده متعلق به نویسنده نیست، بلکه مربوط به شخص دیگری است و در این نامه مشخصا به جورج لوئيس اشاره دارد.

همچنین، مشاهده می‌شود که در متن بالا (you scornfully enclose the word in inverted commas”,together with the reported endorsement of Austen as a great artist)، واضح است که «هیچ عواطفی ندارد»، به معنای آن نیست که انتقادی توسط لوئیس پیرامون آستن مطرح نشده، بلکه حتی نشانگر مخالفت نامحسوس برونته با آن است. به طور کلی، عواطف و احساسات حساس به زمینه در حال پژوهش و در واقع کاملا وابسته به دامنه هستند (علی‌رغم این حقیقت که مفهوم عمومی عقاید مثبت و منفی در دامنه‌های گوناگون نسبتا سازگار است).

شایان توجه است که وابستگی به دامنه بخشی از دنباله تغییرات در واژگان محسوب می‌شود که حول محور آن حتی گاهی اصطلاحات کاملا مشابه نیز ممکن است نشانگر عواطف متفاوت در دامنه‌های گوناگون باشند. برای مثال، «go read the book» در یک نقد و بررسی کتاب بیشتر نشانگر عواطف مثبت است، اما در نقد و بررسی یک فیلم منفی تلقی می‌شود.

جهت تولید متن‌هایی که تحلیل آن‌ها برای ماشین دشوار است نیازی به وجود یک نویسنده با سابقه یا روزنامه‌نگار حرفه‌ای نیست. تحلیل نوشته‌های کاربران وب نیز امری بسیار چالش برانگیز است. برای مثال تصویری که در بالا از نقد و بررسی دو فیلم ارائه شد، مجددا قابل بررسی است. این تصویر نشان می‌دهد که ماشین باید بیاموزد کیفیت یک نقد و بررسی را تعیین کند. همچنین، اهمیت مدل‌سازی ساختار گفت‌و‌گو جالب‌توجه و تامل برانگیز است.

بر اساس رای ۲ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
دانشگاه کرنل
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *