همیشه بخش مهمی از رفتاری که بشر در راستای گردآوری اطلاعات انجام می‌دهد برای فهمیدن این است که سایر انسان‌ها چه فکری می‌کنند. با افزایش دسترسی‌پذیری و محبوبیت منابع غنی از عقاید مانند سایت‌های نقد و بررسی آنلاین، وبلاگ‌های شخصی و شبکه‌های اجتماعی، فرصت‌ها و چالش‌های جدیدی در این حوزه ایجاد شده است. اکنون افراد می‌توانند از فناوری اطلاعات برای کشف عقاید دیگران استفاده کنند.

از همین‌رو و با توجه به افزایش علاقمندی به سیستم‌هایی که بتوانند افکار و عقاید انسان‌ها را مستقیما مورد کاوش قرار دهند، توجهات زیادی به مباحث «عقیده‌کاوی» (opinion mining) و «تحلیل احساسات» (Sentiment analysis) جلب شد. این دو زمینه به مواجهه رایانشی با عقاید، احساسات و ذهنیت موجود در متن می‌پردازند. در این مطلب، مفاهیم، واژه‌شناسی، تاریخچه و مثال‌هایی از آن‌ها مورد بررسی قرار گرفته است.

رابطه عاطفی نباید با احساسات شروع شود. بلکه باید با علم آغاز شود و با توافق به پایان برسد.

اسکار وایلد، فیلم همسر ایده‌آل

تقاضا برای اطلاعات عقاید و احساسات

همیشه بخش مهمی از اطلاعاتی که انسان‌ها در طول فرآیند تصمیم‌گیریشان از آن بهره می‌برند، بر اساس پاسخ به پرسش «دیگران چه فکری می‌کنند» است. مدت‌های زیادی پیش از آنکه وب جهان‌گستر توسعه پیدا کند، بسیاری از انسان‌ها در هنگام انتخابات از دوستانشان می‌پرسیدند که به چه کسی رای خواهند داد، از همکارانشان در خواست توصیه‌نامه و یا از گزارش‌های ارائه شده توسط مشتریان یک محصول برای تصمیم‌گیری درباره اینکه چه محصولی را بخرند استفاده می‌کردند.

امروزه افراد به امتیازها و نقد و بررسی‌های آنلاین موجود برای یک محصول، سرویس یا حتی اشخاص اعتماد می‌کنند!

اما اینترنت و وب اکنون فرصت آن را فراهم کرده‌اند که انسان‌های بتوانند از عقاید و تجربیات دیگر افراد که الزاما از آشنایان خود و یا منتقدان حرفه‌ای یک حوزه خاص نیستند نیز آگاه باشند (افرادی که تاکنون حتی درباره آن‌ها چیزی نشنیده‌اند). بالعکس این مساله نیز صادق است، در واقع افراد بیشتری عقاید خود را از طریق اینترنت به اطلاع غریبه‌ها می‌رسانند. در ادامه برخی نتایج حاصل از دو نظرسنجی انجام شده در همین رابطه در میان بیش از دو هزار آمریکایی بزرگسال، ارائه شده است.

  • 81% از کاربران اینترنت (یا %60 از آمریکایی‌ها) دستکم یکبار در اینترنت پیرامون یک محصول جست‌و‌جو کرده‌اند.
  • 20% افراد (%15 از همه آمریکایی‌) این کار را به صورت روزمره انجام می‌دهند.
  • در میان خوانندگان نقد و بررسی‌های آنلاین رستوران‌ها، هتل‌ها و سرویس‌های متنوع دیگر (مانند آژانس‌های مسافرتی یا پزشکان)، %73 الی %87 افراد اذعان کرده‌اند که نقد و بررسی آنلاینی که مطالعه کرده‌اند تاثیر قابل توجهی بر خرید آن‌ها داشته است.
  • مصرف‌کنندگان گزارش داده‌اند که حاضرند %20 الی %99 پول بیشتر (بسته به اینکه نوع محصول یا سرویس چه باشد) برای خرید یک محصول دارای امتیاز پنج ستاره به جای یک محصول چهار ستاره‌ای بپردازند.
  • 32% از افراد اذعان کرده‌اند که با بهره‌گیری از سیستم‌های امتیازدهی به محصول، سرویس یا شخص به صورت آنلاین، به این موارد امتیازدهی کرده‌اند.

لازم به ذکر است که تنها انگیزه افراد برای دنبال کردن مبحث کاوش عقاید آنلاین، بازاریابی محصولات و سرویس‌های کسب‌و‌کارها نیست. بلکه برای مثال دستیابی به اطلاعات سیاسی یکی دیگر از کاربردهای بسیار مهم این حوزه است. نظرسنجی انجام شده توسط «رینی» (Rainie) و «هوریگان» (Horrigan) در میان ۲۵۰۰ آمریکایی حاکی از آن است که ٪۳۱ آمریکایی‌ها – بیش از ۶۰ میلیون نفر – در کمپین کاربران اینترنت سال ۲۰۰۶ (2006 campaign internet users) حضور داشته‌اند و به تولید محتوا و تبادل دیدگاه پیرامون انتخابات پرداخته‌اند. برخی از یافته‌های این بررسی در ادامه بیان شده است.

راه‌اندازی کمپین‌های آنلاین با اهداف گوناگون از جمله پیروزی در انتخابات، فروش خدمات و محصولات انجام می‌شود.

  • ۲۸٪ از شرکت‌کنندگان در نظرسنجی اذعان کرده‌اند که دلیل اصلی آن‌ها برای انجام چنین فعالیت‌های آنلاینی کسب چشم‌اندازی از جامعه است. ٪۳۴ نیز گفته‌اند که دلیل اصلی آن‌ها برای مشارکت در این کمپین، کسب چشم‌اندازی از فضای خارج از جامعه خودشان بوده.
  • ۲۷٪ افراد، مسائل آنلاین را پیگیری می‌کردند تا از دیدگاه‌ها و نحوه امتیازدهی سازمان‌های خارجی آگاه باشند.
  • ۲۸٪ شرکت‌کنندگان در نظرسنجی گفته‌اند که اغلب از وب‌سایت‌های به اشتراک‌گذاری عقاید استفاده کرده‌اند. این امر حاکی از آن است که بسیاری از افراد صرفا به دنبال سنجش اعتبار عقاید از پیش مطرح شده خود نیستند.
  • ۸٪ افراد اذعان کرده‌اند که نظرات شخصی سیاسی خود را به صورت آنلاین ارسال می‌کردند.

ولع کاربران برای اعتماد به توصیه‌ها و پیشنهاداتی که در داده‌های آنلاین ارائه می‌شود صرفا یکی از دلایل نهفته در پس علاقمندی به سیستم‌های جدیدی است که به‌طور مستقیم با عقاید کاربران کار می‌کنند. «هورینگان» (Horrigan) می‌گوید، به همان میزان که اغلب کاربران اینترنت آمریکا تجربیات مثبتی از جست‌و‌جوهای آنلاین خود پیرامون محصولات و سرویس‌ها ابراز کرده‌اند، ٪۵۸ از کاربران نیز گفته‌اند که اطلاعات آنلاینی برای محصول یا سرویسی که جست‌و‌جو کرده‌اند موجود نبوده، یا دسترسی به آن‌ها غیر ممکن و یا حتی خود داده‌های موجود گیج کننده بوده‌اند. بنابراین، نیاز واضح و مبرهنی جهت کمک به مصرف‌کنندگان محصولات، سرویس‌ها و حتی اطلاعات با ساخت سیستم‌هایی که دسترسی به اطلاعات کنونی موجود را تسهیل می‌کنند وجود دارد.

علاقه‌ای که افراد در عقاید آنلاین خود نسبت به یک محصول یا سرویس نشان می‌دهند و پتانسیل بالقوه تاثیر چنین عقایدی به خوبی برای اهداف گوناگون قابل استفاده است. آنچه بیان شد در واقع همان چیزی است که فروشندگان محصولات و خدمات همه روزه توجه زیادی به آن مبذول می‌دارند. قطعه متنی که از مقاله «زابین» (Zabin) و «جفریز» (Jefferies) در ادامه آمده تصویری از وضعیت موجود ارائه می‌کند.

با ظهور وب ۲.۰، پلتفرم‌هایی مانند وبلاگ‌ها، انجمن‌های گفت‌و‌گو، شبکه‌های همتا به همتا (Peer-to-Peer) و دیگر انواع رسانه‌های اجتماعی …، مصرف‌کنندگان محصولات و سرویس‌های گوناگون، امکان به‌اشتراک‌گذاری عقاید و تجربیات خود از برندهای مختلف، خواه مثبت یا منفی را با دیگر افراد دارند. از همین رو، شرکت‌های بزرگ به شدت به دنبال شنیدن صدای مشتریان و در نهایت جلب وفاداری آن‌ها، ایجاد تصمیم خرید در افراد و دفاع از برند خود هستند. … شرکت‌ها نیز می‌توانند به نظرات و رویکردهای ارائه شده توسط مشتریان، با بهره‌گیری از راهکارهای نظارت بر رسانه‌های اجتماعی و تحلیل آن‌ها پاسخ دهند. این پاسخ می تواند با تغییر پیام‌های بازرگانی، موقعیت نام تجاری، توسعه محصول و دیگر فعالیت‌های مستقیم یا غیر مستقیم داده شود.

شبکه‌های اجتماعی بر مبنای وب ۲.۰ بنا نهاده شدند.

تحلیل‌گران فضای صنعت و کسب‌و‌کار متذکر شده‌اند که بهره‌برداری از رسانه‌های جدید با هدف پیگیری تصویری که از محصول در ذهن مخاطبان وجود دارد، نیازمند بهره‌گیری از فناوری‌های جدید است. در متنی که در ادامه ارائه شده مشکلات این بخش بیان می‌شود.

بازاریاب‌ها همواره نیازمند نظارت بر رسانه‌ها جهت اطلاع از مباحث مرتبط به برند خود هستند. این کار با هدف روابط عمومی، پیش‌گیری از جرایم کلاهبرداری، مواجهه با آن‌ها و کسب مزیت رقابتی انجام می‌شود. اما تنوع رسانه‌ها و تغییر رفتار مشتریان، روش‌های نظارتی سنتی را فلج کرده است.

موتور جستجوی ویژه وبلاگ‌ها به نام «تکنوراتی» (Technorati) تخمین می‌زند که روزانه بالغ بر ۷۵۰۰ وبلاگ و ۱.۲ میلیون مطلب جدید منتشر می‌شوند. بسیاری از این موارد به عقاید مصرف‌کنندگان درباره محصولات و سرویس‌های گوناگون اختصاص دارد. تاکتیک‌هایی (از نوع سنتی) مانند سرویس‌های کلیپینگ (clipping services)، عوامل زمینه‌ای و پژوهش‌های اختصاصی پیرامون یک مبحث، نمی‌توانند با سرعت لازم به‌منظور نظارت بر این حجم از محتوای در حال تولید پیشروی کرده و رو به جلو بروند.

بدین ترتیب، علاوه بر کارشناسان انسانی، یک سیستم نظارتی تحلیل خودکار احساسات مصرف‌کنندگان نیز مورد نیاز است. شرکت‌های زیادی وجود دارند که به چگونگی درک محصول یا خدمات خود توسط مشتریان، نظرات و نقد و بررسی‌های آن‌ها اهمیت می‌دهند.

مثالی از ساخت یک سیستم عقیده‌کاوی

ساخت سیستمی که بتواند اطلاعات ذهنی را به شیوه موثری پردازش کند، نیازمند غلبه بر چالش‌های نو و متعددی است. برای نشان دادن برخی از این چالش‌ها، می‌توان یک مثال واقعی از سیستم جست‌و‌جوی عقاید یا نقد و بررسی‌ها را در نظر گرفت. چنین نرم‌افزاری می‌تواند پاسخگوی نیازهای مهم و شایعی باشد که پیش‌تر تشریح شد. در چنین سیستمی، فرد می‌تواند در یک وبلاگ خاص پیرامون یک سرویس یا محصول (نقد و بررسی‌ها و عقاید ارائه شده برای آن‌ها) جست‌و‌جو کند.

چالش‌های متعددی بر سر راه ساخت یک سیستم عقیده‌کاوی وجود دارد.

این فرد می تواند جست‌و‌جوی خود را به صورت عمومی نیز انجام دهد (در یک موتور جست‌و‌جوی عمومی و یا بدون آوردن کلیدواژه‌های مربوط به نقد و بررسی و نظرات). ساخت و توسعه نرم‌افزار کامل جست‌و‌جوی نقد و بررسی یا عقاید، که بتواند پاسخ صحیحی برای جست‌و‌جوی انجام شده توسط کاربر ارائه کند باید بتواند هر یک از مشکلات و چالش‌هایی که در ادامه بیان شده‌اند را هدف بگیرد.

  1. اگر سیستم در یک موتور جست‌و‌جوی همه‌منظوره ادغام شده باشد، نیاز به تشخیص این است که کاربر در جست‌و‌جوی محتوای ذهنی (subjective) است یا خیر و این خود ممکن است مساله سختی باشد. این در حالیست که امکان دارد کوئری‌هایی از این نوع، شامل اصطلاحات شاخصی مانند «reviews» ،«review» یا «opinions» باشند. همچنین امکان دارد در برنامه یک چک‌باکس برای کاربر فراهم شده باشد تا او بتواند مستقیما نظر خود پیرامون خروجی جست‌و‌جو و اینکه آیا نقد‌و‌بررسی‌ها آنچنان که انتظار می‌رفت هستند یا خیر بیان کند. اما به‌طور کلی، دسته‌بندی کوئری‌ها (به ذهنی و غیر ذهنی) مساله‌ای دشوار است (تا حدی که موضوع رقابت‌های KDD Cup challenge در سال ۲۰۰۵ بوده است).
  2. علاوه بر مساله شناسایی دسته (خوشه) اسناد (محتوای ذهنی یا غیر ذهنی) که همچنان باز محسوب می‌شود، چالش دیگر شناسایی همزمان یا متعاقب اسناد یا بخش‌هایی از اسناد است که شامل محتوای نقد و بررسی و یا عقاید هستند. گاهی این کار آسان است، برای مثال در متن‌های گردآوری شده از سایت‌های نقد و بررسی که در آن‌ها محتوای بررسی‌ها در قالبی کلیشه‌ای ارائه شده‌اند. از این جمله می‌توان به وب‌سایت‌های Epinions.com و Amazon.com اشاره کرد. اگرچه، وب‌لاگ‌ها اغلب حاوی محتوای ذهنی هستند و در نتیجه محل مناسبی برای جست‌و‌جو محسوب می‌شوند (برخلاف سایت‌های فروش، برای کوئری‌های مربوط به سیاست، مردم یا دیگر موارد فاقد ارتباط به محصولات و خدمات، محل مناسب‌تری هستند). اما محتواهای دلخواه ارائه شده در وبلاگ‌ها می‌توانند به‌طور گسترده‌ای در محتوا، سبک، ارائه و حتی سطح دستور زبان متفاوت باشند.
  3. اگر فردی به دنبال اطلاعات ذهنی باشد و جست‌و‌جویی بر همین اساس انجام دهد، برای هر سند موجود (پیرامون هر مبحثی، خواه نقد و بررسی یک محصول باشد و خواه درباره یک کاندید انتخابات)، مساله شناسایی احساسات کلی بیان شده و/یا عقاید مشخص موجود در آن سند (با توجه به ویژگی‌ها یا جنبه‌های مشخصی از جست‌و‌جوی انجام شده توسط کاربر) وجود خواهد داشت. انجام چنین جست‌و‌جوهایی در برخی از سایت‌ها مانند Yahoo! Movies که کاربران باید نقد و بررسی خود پیرامون یک فیلم را همراه با دادن امتیاز به فیلم (سیستم امتیازبندی ثابتی که از پیش توسط سایت تعیین شده) منتشر کنند ساده‌تر محسوب می‌شود. لازم به ذکر است که تحلیل داده‌های ساختار نیافته و متن‌ها برای کامپیوترها سخت‌تر بوده و خود می‌تواند منجر به ایجاد چالش‌های جدیدی بشود. برای مثال، اگر نقل قول‌هایی در مقالات روزنامه‌ها وجود داشته باشد، باید دقت کرد که دیدگاه‌های بیان شده در هر نقل قول به موجودیت درستی اختصاص یابند.
  4. در نهایت، سیستم نیازمند ارائه اطلاعات احساسی گردآوری شده به صورت خلاصه است. این کار می‌تواند شامل برخی یا کلیه مواردی که در ادامه بیان شده‌اند بشود.
  • تجمیع آرایی که در مقیاس‌های گوناگون ثبت شده‌اند (برای مثال یک سایت از مقیاس ستاره‌ای – یک تا پنج ستاره – و دیگری از رتبه‌بندی با حروف الفبا یا اعداد استفاده می‌کند)
  • برجسته کردن گزینشی برخی از عقاید
  • ارائه نقاط مخالفت و اجماع
  • شناسایی اجتماعات صاحب نظران
  • محاسبه سطوح گوناگون قدرت در میان صاحب نظران (نظرات چه افرادی ضریب نفوذ بالاتری دارد)

توجه به این نکته لازم است که بصری‌سازی داده‌های احساسات، بهتر از خلاصه‌سازی آن‌ها به صورت متن است. خلاصه‌‌سازی‌های متنی در مسائل سندمحور کاربردی‌تر هستند.

تاریخچه

اگرچه اخیرا پژوهش‌های گسترده‌ای حول مبحث احساسات‌کاوی و عقیده‌کاوی انجام شده، اما هر دو این موضوعات از مدت‌ها پیش مطرح بوده‌اند. پژوهش‌های اولیه این حوزه پیرامون باورکاوی (belief mining) صورت پذیرفتند. پس از آن، تفسیر استعاره، تفسیر روایت، تفسیر دیدگاه (نقطه‌نظر)، گواه‌نمایی و دیگر مباحث مرتبط به این موضوع نیز مطرح شدند. در حدود سال ۲۰۰۱، آگاهی گسترده‌ای پیرامون مسائل پژوهشی تحلیل احساسات و عقیده‌کاوی ایجاد و متعاقبا هزاران مقاله در این حوزه انتشار یافت.

برخی از دلایل برجسته شدن این مبحث و جلب توجهات به آن در ادامه بیان شده است.

  •  ظهور و توسعه روش‌های یادگیری ماشین در پردازش زبان طبیعی و بازیابی اطلاعات
  • افزایش دسترسی‌پذیری به مجموعه داده‌های گوناگون برای الگوریتم‌های یادگیری ماشین جهت آموزش دادن مدل، با رشد و توسعه وب جهان گستر و البته سیستم‌های تجمیع نظر
  • شناسایی چالش‌های فکری شگفت‌انگیز، تجاری و کاربردهای هوشمند این حوزه

واژه‌شناسی: عقیده‌کاوی، تحلیل احساسات، عواطف و ذهنیت

«خِرَد»، با تعریف اصطلاحات آغاز می‌شود.

سقراط

این کلام قصار هنگامی که سخن از نظارت بر دنیای رسانه‌های اجتماعی و تحلیل آن‌ها به میان می‌آید که به نوعی فاقد هرگونه توافق جهانی در واژه گزینی برای آن وجود دارد، بسیار کاربردی خواهد بود. امروزه، پژوهشگران، فروشندگان و فعالان این زمینه نوظهور از واژگان گوناگونی برای آن استفاده می‌کنند که از جمله آن‌ها می‌توان به «نظارت بر برند»، «نظارت بر شایعه»، «مردم‌شناسی آنلاین»، «کاوش مکالمه» و «هوش مصنوعی آنلاین» اشاره کرد. … در نهایت، نکته جالب توجه آن است که «نظارت و تحلیل رسانه‌های اجتماعی» خود مفهومی چندگانه است. بنابراین، این لغت تا زمانی کاربرد دارد که جایگزین بهتری برای آن در زبان انگلیسی یافت نشود.

نقل قول بالا از مقاله زابین و جفریز، مساله‌ای را که به دلیل استفاده از اسامی گوناگون برای این حوزه به وقوع پیوسته نشان می‌دهد. در واقع تا به امروز، هیچ واژه یکتایی برای این حوزه نو برگزیده نشده. هرچند که مبانی آنچه این واژگان به آن‌ها اشاره دارند در برخی موارد مشترک است، ولی الزاما همه آن‌ها به یک مبحث واحد اشاره ندارند و چه بسا گاهی استفاده از این اصطلاحات به جای یکدیگر کاری نادرست باشد.

با این وجود معمولا مباحثی که با مواجهه رایانشی با عقاید، احساسات و ذهنیت در متن سر و کار دارند به عنوان «عقیده‌کاوی»، «تحلیل احساسات» و یا «تحلیل ذهنیت» (subjectivity analysis) شناخته می‌شوند. عبارات «نقد و بررسی‌کاوی» (review mining) و «استخراج ارزیابی» (appraisal extraction) نیز گاه به همین منظور استفاده می‌شوند و در واقع به‌نوعی با «رایانش عاطفی» (affective computing) که از جمله اهداف آن توانمندسازی کامپیوترها برای شناسایی و بیان عواطف بشر است ارتباط دارند.

تحلیل نقد و بررسی‌های آنلاین یکی از کاربردهای عقیده‌کاوی است.

ازدیاد واژگان و عباراتی که برای یک زمینه به‌کار می‌روند، به‌طور ضمنی دلالت بر تفاوت در مفاهیمی دارد که هر یک از این اصطلاحات برای نامیدن آن‌ها استفاده می‌شوند. در سال ۱۹۹۴، «ویبی» (Wiebe) تحت تاثیر آثار مکتوب «بن‌فیلد» (Banfield)، پیرامون مبحث ذهنیت و حالت پنهان قرار گرفت که پیش‌تر توسط «کرک» (Quirk) و همکاران به عنوان «حالتی که امکان بازرسی و ارزیابی آن وجود ندارد» مطرح شده بود. ولیکن، مثال اصلی که می‌توان برای پژوهش‌هایی که با عنوان تحلیل ذهنیت انجام می‌شوند بیان کرد، تشخیص «زبان عقیده‌محور» (opinion-oriented language) به‌منظور تمییز دادن آن از «زبان هدف» (objective language) است.

اصطلاح عقیده‌کاوی در مقاله انتشار یافته توسط «دِیو» (Dave) و همکاران، برای اولین بار در کنفرانس WWW سال ۲۰۰۳ مطرح شد. محل نشر این مقاله حاکی از محبوبیت این عبارت در جوامع متخصصان مرتبط با جست‌و‌جوی وب و بازیابی اطلاعات است. مطابق با پژوهش ارائه شده، یک ابزار عقیده‌کاوی ایده‌آل نتایج جست‌و‌جو برای یک محصول را پردازش کرده، لیستی از مشخصه‌های محصول (کیفیت، قابلیت‌ها و سایر موارد) را تولید و عقاید موجود درباره هر محصول را تجمیع می‌کند (ضعیف، ترکیبی، خوب).

در واقع اغلب پژوهش‌هایی که پس از این مقاله با عنوان عقیده‌کاوی انجام شدند با تاکید بر این مفهوم بنا نهاده شده بودند و در واقع بر استخراج و تحلیل قضاوت‌های مربوط به جنبه‌های مختلف یک محصول تاکید داشتند. این در حالیست که این اصطلاح اخیرا به‌طور گسترده‌تری تفسیر شده تا انواع مختلفی از تحلیل متن‌های ارزیابی را در بر بگیرد.

تاریخچه عبارت تحلیل احساسات به نوعی به موازات عقیده‌کاوی شکل گرفته است. استفاده از عبارت «احساسات» برای ارجاع به تحلیل خودکار متن‌های ارزیابی و پیگیری قضاوت‌های موجود در آن‌ها، ریشه در مقالات سال ۲۰۰۱ «داس» (Das) و «چن» (Chen) و همچنین «تونگ» (Tong) (در مقالات جداگانه‌ای) دارد. این پژوهشگران به تحلیل احساسات بازار علاقمند بودند.

تحلیل احساسات زمینه‌ای بسیار گسترده است.

متعاقبا، در سال ۲۰۰۲ در مقالات انتشار یافته توسط «تورنی» (Turney) و «پنگ» (Pang) و همکاران در دیدار سالانه انجمن زبان‌شناسی رایانشی (Association for Computational Linguistics | ACL) و کنفرانس سالانه «روش‌های تجربی در پردازش زبان طبیعی» (Empirical Methods in Natural Language Processing | EMNLP) نیز از این واژگان استفاده شد. به علاوه، «نیوشکا» (Nasukawa) و «یی» (Yi) مقاله‌ای با عنوان «تحلیل احساسات: ثبت علاقمندی‌ها با استفاده از پردازش زبان طبیعی» (Sentiment analysis: Capturing favorability using natural language processing) در سال ۲۰۰۳ منتشر کردند.

این رویدادها روی هم رفته می‌تواند دلیل محبوبیت «تحلیل عواطف» در جوامعی که بر استفاده از پردازش زبان طبیعی متمرکز هستند را به خوبی نشان دهد. تعداد قابل توجهی از مقالاتی که از عبارت تحلیل احساسات استفاده کرده‌اند بر دسته‌بندی نقد و بررسی‌ها بر اساس قطبش آن‌ها (مثبت یا منفی) متمرکز هستند و این امر موجب شده تا برخی از نویسندگان یک عبارت کلی را به یک وظیفه و کاربرد بسیار محدود تقلیل دهند. اگرچه امروزه، بسیاری از پژوهشگران، این عبارت را به‌طور گسترده‌تر برای مواجهه رایانشی با عقاید، احساسات و ذهنیت در متن تفسیر کرده‌اند.

بدین ترتیب، هنگامی که عبارات تحلیل احساسات و عقیده‌کاوی به‌صورت گسترده‌تری تفسیر می‌شوند، هر دو به زمینه مشابهی از مطالعات اشاره می‌کنند (که خود می‌تواند به‌عنوان یک زیر مجموعه از تحلیل ذهنیت باشد).

عقیده‌کاوی چیست؟

عقیده‌کاوی به استفاده از «پردازش زبان طبیعی» (natural language processing)، «تحلیل متن» (text analysis)، «زبان‌شناسی رایانشی» (computational linguistics) و «زیست‌سنجشی» (biometrics) برای شناسایی، استخراج، کیفیت‌یابی، مطالعه وضعیت عواطف و اطلاعات موضوعی سیستماتیک گفته می‌شود.

تحلیل عواطف

تحلیل احساسات به‌طور گسترده‌ای برای مباحث مرتبط با صدای مشتریان مانند پاسخ‌گویی به نظرسنجی‌ها و نقد و بررسی‌ها، شبکه‌های اجتماعی و بهداشت و درمان و به‌طور کلی برای طیف گسترده‌ای از کاربردها از بازاریابی گرفته تا خدمات مشتریان و درمان‌های کلینیکی اعمال می‌شود.

به‌طور کلی، هدف تحلیل احساسات شناسایی نگرش‌های یک سخنران یا نویسنده با توجه به قطبیت کلی متن، واکنش عاطفی به یک سند و یا تعامل‌های به وقوع پیوسته پیرامون آن است. «نگرش» ممکن است قضاوت یا ارزیابی (درباره نظریه ارزیابی مطالعه کنید)، حالت عاطفی (حالت عاطفی نویسنده یا سخنران)، یا ارتباطات عاطفی (اثر عاطفی مورد نظر از یک نویسنده یا مخاطبان) باشد.

مثال‌ها

اهداف و چالش‌های تحلیل عواطف از طریق چند مثال ساده قابل بیان است.

موارد ساده

  • شهر «کرونات» (Coronet) همه روزه دارای بهترین خطوط ناوبری است.
  • کروز «بِترام» (Bertram) دارای یک بدنه «V شکل» عمیق است که به‌سادگی در دریا حرکت می‌کند.
  • ناوهای پاستیلی سال ۱۹۸۰ فلوریدا زشت هستند.
  • من کروزهای کابین‌دار قدیمی را دوست ندارم.

تصویری از یک قایق قدیمی

مثال‌های چالش برانگیزتر

  • من از کروزهای کابین‌دار بدم نمیاید. (مدیریت نقیض)
  • بیزاری از کشتی جزو روحیات من نیست. (نقیض، ترتیب عکس کلمات)
  • گاهی واقعا از قایق‌های فلزی متنفر هستم. (قیدها، عواطف را تغییر می‌دهند.)
  • من واقعا از ته دل بیرون رفتن در این هوا را دوست دارم! (طعنه مثبت)
  • کریس کرفت (Chris Craft) از لیمستون (Limestone) بهتر به نظر می‌رسد. (اسامی دو برند، شناسایی هدف نگرش‌ها دشوار است.)
  • کریس کرفت از لیمستون بهتر به نظر می‌رسد، اما لیمستون قابل دریانوردی و همچنین قابل اعتماد است. (دو نگرش، دو نام برند)
  • فیلم به شکل تعجب برانگیزی دارای صحنه‌های پر پیچ و تاب ناراحت‌کننده است. (اصطلاح منفی که به شکل مثبتی در برخی دامنه‌های استفاده می‌شود.)
  • شما باید منو دسرهای اغوا کننده آن‌ها را ببینید. (اصطلاح اغواکننده بیان کننده نگرشی منفی است. اما اخیرا قطبش آن در برخی از متون تغییر کرده است)
  • من عاشقم تلفن موبایلم هستم، اما خرید آن را به هیچ کدام از همکارانم پیشنهاد نکردم. (عواطف مثبت شرطی که دسته‌بندی آن‌ها دشوار است.)
  • قهرمان هفته آینده koide9 خواهد بود! (اصطلاح جدیدا ایجاد شده‌ای که می‌تواند به شدت نگرش فرد را نشان دهد اما دارای قطبش فراّر و اغلب خارج از دامنه لغات شناخته شده است.)

ابزارها

مجموعه داده‌های متعددی ویژه عقیده‌کاوی به‌صورت آنلاین و منبع باز موجود هستند. در ادامه لیستی از برخی ابزارها و مجموعه داده‌های عقیده‌کاوی ارائه شده است.

  1. (SEAS(gsi-upm/SEAS
  2. (SAGA(gsi-upm/SAGA
  • ماژول تحلیل عواطف استنفورد (حرکت عمیق: یادگیری عمیق برای تحلیل عواطف) (Stanford Sentiment Analysis Module)
  • LingPipe (آموزش عقیده‌کاوی)
  • TextBlob (آموزش: شروع سریع)
  • (Opinion Finder (OpinionFinder | MPQA
  • (Clips pattern.en (pattern.en | CLiPS

دیکشنری‌ها یا منابع متن‌باز:

  • SentiWordNet
  • مجموعه داده‌های Bing liu (عقیده‌کاوی، تحلیل احساسات، استخراج عقیده)
  • مجموعه داده General Inquirer
  • MPQA opinion Corpus (منابع MPQA)
  • Wordnet affect (مجموعه داده واژگان WordNet Domains)

انواع رویکردها

یک وظیفه اساسی در تحلیل عواطف دسته‌بندی قطبش متن، جمله یا جنبه/ویژگی‌های موجود در یک سند، در صورتی است که عقیده بیان شده در آن سند، یک موجودیت مثبت، منفی یا خنثی باشد. دسته‌بندی احساسات «فرا قطبی» پیشرفته در وضعیت‌های عاطفی مانند عصبانیت، غم و شادی به چشم می‌خورد. پیشگامان تحلیل عواطف افرادی بودند که راهکارهایی را برای کمی‌سازی الگوها در متن، و همچنین به طور جداگانه، پژوهش‌های روانشناسی را برای تبیین وضعیت روانی یک فرد بر اساس تحلیل رفتار انجام داده‌اند.

عواطف و احساسات گوناگون

روشی که در حق امتیاز انحصاری Volcani and Fogel بیان شده، به‌طور مشخص به احساسات، کلمات و عبارات مجزای شناسایی شده در متن با توجه به مقیاس‌های عاطفی گوناگون می‌پردازد. سیستم فعلی بر اساس کارایی آن‌، EffectCheck نامیده می‌شود. این سیستم در واقع لغات هم‌معنی موجود در یک متن را برای تبیین شدت عواطف استخراج شده از آن استفاده می‌کند.

بسیاری از دیگر تلاش‌های انجام شده در این حوزه دارای پیچیدگی کمتری بوده‌اند و از دید تک قطبیِ عواطف از مثبت به منفی استفاده می‌کردند. از جمله این پژوهش‌ها می توان به کارهای تورنی و «پانگ» Pang اشاره کرد که روش‌های گوناگونی را برای شناسایی قطبش نقد و بررسی‌های محصولات و فیلم‌ها اعمال کرده‌اند. این پژوهش‌ها روی متن انجام شده است.

می‌توان قطبش یک سند را با روش ارائه شده توسط پانگ و «سنیدر» (Snyder) سنجید. همچنین، پانگ و «لی» (Lee) پژوهشی پیرامون چگونگی تحلیل نقد و بررسی فیلم‌های موجود در دسته‌های مثبت و منفی به‌منظور پیش‌بینی درجه ستاره‌های آن در مقیاس سه یا چهار ستاره انجام داده‌اند. همچنین، تحلیل‌های عمیقی بر اساس نقد و بررسی‌های انجام شده برای رستوران‌ها و پیش‌بینی رتبه جنبه‌های گوناگون یک رستوران مانند غذا و جَو (در مقیاس پنج ستاره) توسط سیندر صورت پذیرفته است.

رتبه‌دهی به سرویس‌ها و محصولات گوناگون به صورت آنلاین

اولین گام برای کنار هم آوردن رویکردهای گوناگون (یادگیری، واژگان، دانش‌محور و دیگر موارد) در سمپوزیوم بهاری AAAI سال ۲۰۰۴ برداشته شد و در آن رویداد، زبان‌شناسان، دانشمندان کامپیوتر و دیگر پژوهشگران، مباحث مورد علاقه خود را ترازبندی کرده و با هدف انجام پژوهش‌های محاسباتی سیستماتیک پیرامون عواطف، ذهنیت و احساست موجود در متن آن‌ها را به همراه مجموعه داده‌های بنچ مارک به اشتراک گذاشتند.

هر چند در اغلب روش‌های دسته‌بندی آماری، کلاس خنثی با این فرض که متن‌های خنثی در نزدیکی مرزهای دسته‌بندهای دودویی قرار گرفته‌اند نادیده گرفته می‌شوند، اما پژوهشگران زیادی پیشنهاد می‌دهند که در هر مساله قطبش سه دسته باید شناسایی شوند. علاوه بر این می‌توان اثبات کرد که دسته‌بندهای مشخص مانند «حداکثر توزیع احتمال آنتروپی» (Maximum entropy probability distribution) و ماشین بردار پشتیبان می‌توانند از یک کلاس خنثی بهره برده و صحت کلی دسته‌بندی را افزایش دهند.

دو راه برای مواجهه با کلاس‌های خنثی وجود دارد. الگوریتم ابتدا با شناسایی جملات خنثی پردازش و فیلترینگ آن‌ها را انجام می‌دهد، و سپس ارزیابی احساسات مثبت و منفی انجام می‌شود. راه دیگر آن است که یک دسته‌بندی سه‌گانه از ابتدا انجام شود. دومین رویکرد اغلب شامل محاسبه توزیع احتمال در کلیه دسته‌ها (برای مثال دسته‌بندهای نایو بیز به عنوان جعبه ابزار زبان طبیعی یا NLTK) می‌شود.

چگونگی استفاده از کلاس خنثی بستگی به داده‌های خنثی دارد. اگر داده‌ها به شکل واضحی در دسته‌های خنثی، احساسات مثبت و منفی قرار گرفته باشند، می‌توان زبان خنثی را فیلتر کرد و تمرکز را روی قطبش بین احساسات مثبت و منفی قرار داد. در عین حال اگر، داده‌ها اغلب خنثی باشند در صورت وجود انحراف کوچکی از اثرات مثبت و منفی، استراتژی مطرح شده جهت ایجاد تمایز بین دو قطب با دشواری مواجه می‌شود.

یک روش متفاوت برای شناسایی احساسات، استفاده از سیستم‌های مقیاس‌دار است که در آن به کلمات دارای احساسات منفی، خنثی یا مثبت یک شماره در مقیاس بین ۱۰- و ۱۰+ تخصیص داده می‌شود (از منفی‌ترین به سمت مثبت‌ترین) یا به شکل ساده‌تر از ۰ به محدوده مثبت‌تر مانند +۴. این کار امکان تنظیم شدت عواطف یک عبارت بیان شده نسبت به محیط خود را فراهم می‌کند (معمولا در سطح جملات). هنگامی که یک تکه از متن ساختار نیافته با استفاده از پردازش زبان طبیعی (NLP) تحلیل می‌شود، به هر مفهوم بر مبنای روشی که لغات احساسی به مفهوم و امتیاز تخصیص داده شده به آن مرتبط می‌شوند، در محیط مشخص شده امتیازی تخصیص داده خواهد شد.

امتیازدهی به عواطف

این کار امکان حرکت به سمت درک احساسات پیچیده‌تر را فراهم می‌کند، زیرا در حال حاضر امکان تنظیم مقدار احساسات یک مفهوم، با ویرایش‌هایی که ممکن است روی آن انجام بگیرد مرتبط است. واژگانی که احساس بیان شده در یک مفهوم را خنثی، منفی یا تشدید می‌کنند، در واقع امتیاز آن را دستخوش تغییر کرده‌اند. در عین حال، اگر هدف شناسایی استحکام احساسات در متن به جای قطبش کلی آن باشد، می‌توان به متن امتیاز استحکام احساسات مثبت و منفی تخصیص داد.

شناسایی ذهنیت/عینیت

این وظیفه معمولا به عنوان دسته‌بندی یک متن داده شده (معمولا یک جمله) در یکی از دو کلاس ذهنیت یا عینیت تعریف می‌شود و گاهی می‌تواند دشوارتر از دسته‌بندی قطبی باشد. محتوای کلمات و عبارات ممکن است بسته به زمینه آن‌ها و اسناد عینی، شامل جملات ذهنی باشد (برای مثال یک مقاله خبری که شامل نظرات مردم است).

علاوه بر این، همانطور که توسط «سو» (Su) اشاره شده، نتایج به شدت وابسته به تعریف ذهنیتی هستند که هنگام تفسیر متن استفاده شده. اگرچه، پانگ نشان داده که حذف جملات عینی از یک سند پیش از دسته‌بندی قطبش آن به افزایش کارایی کمک می‌کند.

روش ویژگی/جنبه محور

این روش به شناسایی عقاید یا احساسات بیان شده در جنبه‌ها یا ویژگی‌های گوناگون موجودیت‌ها (برای مثال یک گوشی تلفن، یک دوربین دیجیتال یا یک بانک) اشاره دارد. یک ویژگی یا جنبه، مشخصه یا مولفه‌ای از یک موجودیت است؛ برای مثالی از این مورد می‌توان به صفحه تلفن همراه، خدمات یک رستوران، یا کیفیت تصویر دوربین اشاره کرد. مزیت روش مبتنی بر ویژگی امکان‌پذیر بودن ثبت تفاوت‌های ظریف اشیا یا علاقمندی‌ها است.

ویژگی‌های متفاوت می‌توانند احساسات متفاوتی را ایجاد کنند، برای مثال یک هتل می‌تواند مکان مناسب اما غذای معمولی داشته باشد. این مساله شامل چندین زیر مساله است، از جمله این زیر مسائل می‌توان به شناسایی موجودیت‌ها، استخراج ویژگی‌ها/جنبه‌ها و تشخیص اینکه عقاید بیان شده برای هر ویژگی/جنبه متعلق به دسته مثبت، منفی یا خنثی هستند اشاره کرد. شناسایی خودکار ویژگی‌ها می‌تواند با روش‌های نحوی، مدل‌سازی موضوع یا یادگیری عمیق انجام شود. بحث‌های جزئی‌تر درباره این سطح از تحلیل احساسات در کارهای «لیوز» (Liu’s) قابل مشاهده است.

روش‌ها و ویژگی‌ها

رویکردهای موجود برای تحلیل عواطف را می‌توان در سه گروه اصلی شامل روش‌های دانش محور، روش‌های آماری و رویکردهای ترکیبی قرار داد. روش‌های مبتنی بر دانش، متن را با دسته‌های عواطف و بر اساس حضور واژگان عاطفی غیرمبهم (یکپارچه) مانند خوشحال، ناراحت، ترسیده و کسل دسته‌بندی می‌کنند.

برخی از پایگاه‌های دانش، نه تنها کلمات عاطفی واضح را لیست می‌کنند، بلکه به هر کلمه دلخواه یک احتمال «وابستگی» به عواطف خاص را می‌دهند. روش‌های آماری بر عناصر یادگیری ماشین مانند «تحلیل پنهان مفهومی» (Latent semantic analysis)، «مدل کیسه کلمات» (bag of words) و «جهت‌گیری معنایی» (Semantic Orientation) – اطلاعات متقابل نقطعه عطف – تکیه دارند.

کیسه کلمات

روش‌های پیچیده‌تر سعی در شناسایی نگهدارنده احساسات (ظرف احساسات) (برای مثال فردی که آن حالت عاطفی را بیان می‌کند) و هدف (موجودیتی که احساسات درباره آن به وقوع پیوسته) دارند. برای کاوش عقاید موجود در یک متن، و دریافت ویژگی‌هایی درباره آنچه سخنران پیرامون آن به اظهار عقیده پرداخته، از رابطه دستور زبان بین کلمات استفاده می‌شود.

وابستگی دستور زبانی با تجزیه عمیق متن به دست آمده است. رویکردهای ترکیبی هم بر یادگیری ماشین و هم عناصری از ارائه دانش مانند «هستی‌شناسی» (ontologies) و «شبکه‌های معنایی» (Semantic network) تکیه دارند. دلیل این رویکرد شناسایی معناهایی است که به شیوه‌ای ظریف‌تر، مثلا از طریق تحلیل مفهومی که به‌طور صریح اطلاعات مرتبط را نشان نمی‌دهد، اما به‌صورت ضمنی به دیگر مفاهیمی که چنین کاری را انجام می‌دهند مرتبط شده.

ابزارهای نرم‌افزاری متن باز، روش‌های یادگیری ماشین، آمار و پردازش زبان طبیعی را برای خودکارسازی تحلیل عواطف در مجموعه بزرگی از متن‌ها، شامل صفحات وب، خبرهای آنلاین، گروه‌های بحث اینترنتی، بررسی‌های آنلاین و شبکه‌های اجتماعی توسعه می‌دهند. از سوی دیگر، سیستم‌های مبتنی بر دانش از منابع موجود به صورت عمومی برای استخراج اطلاعات معنایی و عاطفی مرتبط با مفاهیم زبان طبیعی استفاده می‌کنند.

تحلیل احساسات می‌تواند روی محتواهای بصری، برای مثال تصاویر یا ویدئوها نیز انجام شود (درباره تحلیل احساسات چند منظوره مطالعه کنید). یکی از اولین رویکردها در این جهت SentiBank است که از ارائه صفت اسم برای محتوای بصری استفاده می‌کند. به علاوه، قریب به اکثریت رویکردهای دسته‌بندی احساسات بر مدل کیسه کلمات تکیه دارند که متن، دستور زبان و حتی ترتیب واژگان را نادیده می‌گیرد. رویکردهایی که احساسات را برپایه چگونگی ترکیب کلمات در عبارات طولانی‌تر تحلیل می‌کنند نتایج بهتری از خود نشان داده‌اند، اما متحمل سربار تفسیر می‌شود.

بازشناسی احساس در تصویر

مولفه تحلیل انسانی در تحلیل احساسات مورد نیاز است، زیرا سیستم‌های خودکار قادر به تحلیل گرایش‌های تاریخی نظرات شخصی فرد یا یک پلتفرم نیستند و اغلب به صورت نادرست در احساسات بیان شده خود دسته‌بندی می‌شوند. خودکارسازی تقریبا ٪۲۳ از نظراتی که توسط انسان به درستی دسته‌بندی شده‌اند را تحت تاثیر قرار می‌دهد. با این حال، انسان‌ها اغلب مخالف این امر هستند و چنین استدلال می‌کنند که توافقات بین انسانی مرزهای بالاتری ایجاد می‌کند که دسته‌بندهای احساسی خودکار نیز سرانجام می‌توانند به آن برسند.

گاهی، ساختار احساسات و موضوعات به شدت پیچیده است. همچنین، مساله تحلیل احساسات با توجه به افزونه جمله و جایگزینی کلمات توقف (stop-word)، غیر یکنواخت (non-monotonic) است (برای درک بهتر این مفهوم، مقایسه این دو جمله با یکدیگر توصیه می‌شود: ۱. آن‌ها اجازه نخواهند داد سگ من در این هتل بماند. ۲. من اجازه نمی‌دهم سگم در این هتل بماند.) برای حل این مساله، برخی از رویکردهای قاعده محور و استدلال محور شامل برنامه‌نویسی منطق فسخ ناپذیر (defeasible logic programming) برای تحلیل احساسات اعمال شده‌اند. همچنین، تعدادی از قواعد گذرگاهی درختی برای استخراج حالت مناسب از احساسات در تنظیمات دامنه باز بر درخت تجزیه نحوی اعمال شده است.

ارزیابی

صحت سیستم‌های تحلیل احساسات، اصولا وابسته به این است که چقدر با قضاوت‌های انسانی تطابق دارد. این امر معمولا به وسیله سنجه‌های متنوعی بر مبنای صحت و دقت در دو دسته هدف از متن‌های مثبت و منفی اندازه‌گیری می‌شود.

با این حال، با توجه به پژوهش‌های انجام شده امتیازهای انسانی معمولا در ٪۸۰ مواقع با ماشین متفق هستند (قابلیت اطمینان شاهد). بدین‌ترتیب، برنامه‌ای که در دسته‌بندی احساسات صحت ٪۷۰ به دست می‌آورد، تقریبا به خوبی انسان‌ها کار می‌کند. اگرچه چنین صحتی ممکن است خیلی هم جذاب به نظر نرسد. اگر یک برنامه در ٪۱۰۰ زمان‌ها هم درست کار کند، انسان‌ها باز هم می‌توانند ۲۰٪ مواقع با آن موافق نباشند، زیرا آن‌ها با هر پاسخی مخالف هستند.

توافق انسان و ماشین

از سوی دیگر، سیستم‌های کامپیوتری خطاهای بسیار متفاوتی را نسبت به ارزیابی‌کنندگان انسانی انجام می‌دهند و بدین ترتیب ارقام به‌طور کامل با هم قابل قیاس نیستند. برای مثال، یک سیستم کامپیوتری با نقیض‌ها، اغراق‌ها، جوک‌ها و طعنه‌ها که مدیریت کردن آن‌ها برای انسان‌ها بیش از اندازه ساده است، دچار مشکل خواهد بود.

به‌طور کلی، ابزارهای موجود برای وظایف تجاری کاربرد تحلیل احساسات همانطور که در پژوهش‌های آکادمیک مطرح شده، بیشتر از یک مدل ساده تک بعدی احساسات از منفی به مثبت بهره می‌برند و اطلاعات نسبتا کمی – برای مشتری که نگران گفت‌و‌گوهای عمومی مثلا پیرامون یک برند یا شهرت یک شرکت است – ارائه می‌کنند.

برای تامین بهتر نیازهای بازار، توسعه و تکامل تحلیل احساسات به سنجه‌های وظیفه‌محورتری انتقال یافت، که با حضور کارشناسان آژانس‌های روابط عمومی و تحقیقات بازار فرموله شده‌اند. برای مثال در مجموعه داده ارزیابی RepLab، تمرکز کمتری روی محتوای متن و توجه بیشتری به تاثیر متن در پاسخ به پرسش مطرح شده پیرامون شهرت برند وجود دارد.

وب ۲.۰

با ظهور رسانه‌های اجتماعی مانند وبلاگ‌ها و شبکه‌های اجتماعی، علاقمندی به تحیل احساسات بیش از پیش افزایش یافت. با ازدیاد بررسی‌ها، امتیازدهی‌ها، توصیه‌ها و دیگر انواع اظهارات آنلاین، عقاید آنلاین برای کسب‌و‌کارهایی که به‌دنبال بازاریابی محصولات و شناسایی فرصت‌های جدید و مدیریت شهرت خود هستند مبدل به پول مجازی شد.

مقارن با اینکه کسب‌و‌کارها به دنبال خودکارسازی فرآیند فیلتر کردن نویز، درک مکالمات، شناسایی محتواهای مرتبط و به کارگیری آن‌ها به شکل مناسب هستند، بسیاری از افراد جدید جذب مبحث تحلیل احساسات می‌شوند. مساله پیچیده‌تر در این میان، ظهور پلتفرم‌های رسانه‌های اجتماعی ناشناخته مانند 4chan و «رِدیت» (Reddit) است. با توجه به این ادعا که وب ۲.۰ به دنبال ایجاد دموکراسی در انتشار محتوا است، باید گفت گام بعدی وب ممکن است بر پایه دموکراتیزه کردن داده‌کاوی کلیه محتواهایی منتشر شده باشد.

وب ۲.۰

یک گام به سوی این هدف، در پژوهش‌های این حوزه برداشته شده است. چندین تیم پژوهشی در دانشگاه‌های سراسر دنیا در حال حاضر روی درک کارکرد احساسات در اجتماعات الکترونیکی از طریق تحلیل احساسات کار می‌کنند. برای مثال، پروژه عواطف سایبری «CyberEmotions»، اخیرا به نقش عواطف منفی در به پیش راندن بحث‌ها در شبکه‌های اجتماعی پی برده است.

مساله این است که اغلب الگوریتم‌های تحلیل عواطف از عبارات ساده‌ای برای بیان احساسات درباره یک محصول یا خدمت استفاده می‌کنند. با این حال، عامل‌های فرهنگی، تنوع زبانی و زمینه‌های متفاوت تبدیل کردن رشته‌ای از متن نوشته شده به احساسات منفی یا مثبت ساده را بسیار دشوار می‌سازد. حقیقت آن است که انسان‌ها اغلب با این موضوع مخالف هستند که هرچه متن طولانی‌تر باشد، وظیفه تحلیل احساسات نیز برای کامپیوتر پیچیده‌تر می‌شود. در واقع آن‌ها بر این باورند که با کوتاه شدن متن، تحلیل احساسات نیز سخت‌تر خواهد بود.

حتی با وجود اینکه رشته‌های کوتاه متن ممکن است مساله‌ساز باشند، تحلیل عواطف در سرویس‌های میکروبلاگینگ نشان داده که توییتر می‌تواند به‌عنوان یک شاخص معتبر آنلاین برای عقاید سیاسی مردم استفاده شود. احساسات توییت‌های سیاسی، نشانگر مراودات نزدیک احزاب و جایگاه سیاسی سیاستمداران است و نشان می‌دهد محتوای پیام‌های توییتر به شکل قابل اعتمادی چشم‌انداز سیاسی آفلاین را نشان می‌دهد. علاوه بر این، تحلیل احساسات در توییتر، راهکاری جهت به تصویر کشیدن افکار نهفته در پس مباحثی همچون تولید مثل انسانی و یا مسائل مرتبط با سلامت مانند واکنش‌های نامطلوب به داروها است.

کاربرد عقیده‌کاوی در سیستم‌های توصیه‌گر

اثبات شده که تحلیل احساسات برای سیستم‌های توصیه‌گر مفید است. یک سیستم توصیه‌گر قصد دارد اولویت یک محصول را برای یک کاربر هدف پیش‌بینی کند. سیستم‌های توصیه‌گر مین‌استریم (Mainstream recommender systems) در مجموعه داده‌های صریح، برای مثال پالایش گروهی (collaborative filtering) روی ماتریس رتبه‌دهی و پالایش محتوا محور روی فراداده‌های مرتبط با یک محصول کار می‌کنند.

در بسیاری از سرویس‌های شبکه‌های اجتماعی یا وب‌سایت‌های تجارت الکترونیکی، کاربران می‌توانند نقد و بررسی‌های متنی، نظریات و یا بازخوردهای خود برای یک محصول را بنویسند. این متن‌های تولید شده توسط کاربران، منبعی غنی از عقاید احساسی کاربران درباره محصولات و موارد متعدد دیگر را فراهم می‌کنند. برای یک محصول، چنین متنی هم می‌تواند ویژگی‌ها/جنبه‌های مرتبط و هم نظر کاربران برای هر ویژگی را آشکار کند. ویژگی/جنبه‌ای که درباره یک محصول در متن تشریح شده، دارای نقش مشابهی با فرا داده در پالایش محتوا محور است، اما اولی برای سیستم‌های توصیه‌گر ارزشمندتر است.

از آنجا که این ویژگی‌ها به‌طور گسترده‌ای توسط کاربران در نقد و بررسی‌هایشان مورد اشاره قرار گرفته‌اند، می‌توان به آن‌ها به عنوان حیاتی‌ترین ویژگی که به‌طور موثر تجربه کاربر برای یک محصول را تحت تاثیر قرار می‌دهد نگاه کرد، در حالیکه فراداده یک محصول (معمولا به‌وسیله تولیدکنندگان فراهم شده نه مصرف‌کنندگان) ممکن است ویژگی‌هایی که برای کاربران نگران کننده است را نادیده بگیرند. برای محصولات متنوع با ویژگی‌های متداول، یک کاربر ممکن است احساسات گوناگونی داشته باشد. همچنین، یک ویژگی مشخص از یک محصول ممکن است احساسات مختلفی از کاربران گوناگون دریافت کند. احساسات کاربران برای یک محصول را می‌توان به عنوان یک امتیاز رتبه‌بندی چندبُعدی در نظر گرفت که ترجیح آن‌ها برای یک محصول را منعکس می‌کند.

سیستم‌های توصیه‌گر

یک سیستم توصیه‌گر ترکیبی براساس ویژگی‌ها/جنبه‌ها و احساسات استخراج شده از متن‌های تولید شده توسط کاربر قابل ساخت است. دو نوع انگیزه برای توصیه یک محصول کاندید برای یک کاربر وجود دارد. اولین انگیزه آن است که محصول کاندید شده ویژگی‌های متداول متعددی با دیگر محصولات پسندیده شده توسط کاربر داشته باشد، و دومین انگیزه دریافت حجم زیادی از احساسات توسط سایر کاربران برای ویژگی‌های موجود در محصول کاندید شده است.

منصفانه است که باور کنیم محصولی مشابه با آنچه پیش‌تر توسط کاربر پسندیده شده، احتمال دارد مورد پسند قرار بگیرد. از سوی دیگر، برای یک ویژگی مشترک برای دو محصول کاندید، دیگر کاربران ممکن است احساسات مثبتی برای یکی از آن‌ها و احساسات منفی برای دیگری بروز دهند. به وضوح، محصولی که احساسات مثبت برای آن ارزیابی شده باید به کاربر توصیه شود. بر اساس این دو نوع انگیزه ترکیبی از امتیاز رتبه‌بندی مشابهت و احساسات می‌تواند برای هر محصول کاندید ایجاد شود.

جدا از دشوار بودن تحلیل احساسات، اعمال تحلیل احساسات بر نقد و بررسی‌ها یا بازخوردها، خود با مساله وجود هرزنامه و نقد و بررسی‌های دارای سوگیری مواجه است. بنابراین یک بخش از کار همواره روی ارزیابی مفید بودن هر نقد و بررسی متمرکز است. نقد و بررسی یا بازخوردی که ضعیف نوشته شده باشد برای سیستم توصیه‌گر خیلی مفید نیست. علاوه بر این، یک نقد و بررسی ممکن است برای ممانعت از فروش یک محصول نوشته شده باشد و بنابراین برای سیستم توصیه‌گر آسیب‌زننده واقع شود، حتی اگر به شیوه خوبی نوشته شده باشد.

پژوهشگران همچنین کشف کرده‌اند که با متن‌های کوتاه و بلند تولید شده توسط کاربر باید به شکل‌های متفاوتی برخورد کرد. نتیجه یک پژوهش به شکل جالبی نشان می‌دهد که بررسی‌های کوتاه از بلندترها مفیدتر هستند، زیرا فیلتر کردن نویز در شکل کوتاه‌تر ساده‌تر است. برای متن‌های طولانی، طول در حال رشد متن همیشه منجر به افزایش مناسب تعداد ویژگی‌ها یا احساسات موجود در متن نمی‌شود.

اگر نوشته بالا برای شما مفید بود، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

بر اساس رای 7 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *