عقیدهکاوی و تحلیل احساسات ــ از مفهوم تا کاربرد
همیشه بخش مهمی از رفتاری که بشر در راستای گردآوری اطلاعات انجام میدهد برای فهمیدن این است که سایر انسانها چه فکری میکنند. با افزایش دسترسیپذیری و محبوبیت منابع غنی از عقاید مانند سایتهای نقد و بررسی آنلاین، وبلاگهای شخصی و شبکههای اجتماعی، فرصتها و چالشهای جدیدی در این حوزه ایجاد شده است. اکنون افراد میتوانند از فناوری اطلاعات برای کشف عقاید دیگران استفاده کنند.
از همینرو و با توجه به افزایش علاقمندی به سیستمهایی که بتوانند افکار و عقاید انسانها را مستقیما مورد کاوش قرار دهند، توجهات زیادی به مباحث «عقیدهکاوی» (opinion mining) و «تحلیل احساسات» (Sentiment analysis) جلب شد. این دو زمینه به مواجهه رایانشی با عقاید، احساسات و ذهنیت موجود در متن میپردازند. در این مطلب، مفاهیم، واژهشناسی، تاریخچه و مثالهایی از آنها مورد بررسی قرار گرفته است.
رابطه عاطفی نباید با احساسات شروع شود. بلکه باید با علم آغاز شود و با توافق به پایان برسد.
اسکار وایلد، فیلم همسر ایدهآل
تقاضا برای اطلاعات عقاید و احساسات
همیشه بخش مهمی از اطلاعاتی که انسانها در طول فرآیند تصمیمگیریشان از آن بهره میبرند، بر اساس پاسخ به پرسش «دیگران چه فکری میکنند» است. مدتهای زیادی پیش از آنکه وب جهانگستر توسعه پیدا کند، بسیاری از انسانها در هنگام انتخابات از دوستانشان میپرسیدند که به چه کسی رای خواهند داد، از همکارانشان در خواست توصیهنامه و یا از گزارشهای ارائه شده توسط مشتریان یک محصول برای تصمیمگیری درباره اینکه چه محصولی را بخرند استفاده میکردند.
اما اینترنت و وب اکنون فرصت آن را فراهم کردهاند که انسانهای بتوانند از عقاید و تجربیات دیگر افراد که الزاما از آشنایان خود و یا منتقدان حرفهای یک حوزه خاص نیستند نیز آگاه باشند (افرادی که تاکنون حتی درباره آنها چیزی نشنیدهاند). بالعکس این مساله نیز صادق است، در واقع افراد بیشتری عقاید خود را از طریق اینترنت به اطلاع غریبهها میرسانند.
در ادامه برخی نتایج حاصل از دو نظرسنجی انجام شده در همین رابطه در میان بیش از دو هزار آمریکایی بزرگسال، ارائه شده است.
- 81% از کاربران اینترنت (یا %60 از آمریکاییها) دستکم یکبار در اینترنت پیرامون یک محصول جستوجو کردهاند.
- 20% افراد (%15 از همه آمریکایی) این کار را به صورت روزمره انجام میدهند.
- در میان خوانندگان نقد و بررسیهای آنلاین رستورانها، هتلها و سرویسهای متنوع دیگر (مانند آژانسهای مسافرتی یا پزشکان)، %73 الی %87 افراد اذعان کردهاند که نقد و بررسی آنلاینی که مطالعه کردهاند تاثیر قابل توجهی بر خرید آنها داشته است.
- مصرفکنندگان گزارش دادهاند که حاضرند %20 الی %99 پول بیشتر (بسته به اینکه نوع محصول یا سرویس چه باشد) برای خرید یک محصول دارای امتیاز پنج ستاره به جای یک محصول چهار ستارهای بپردازند.
- 32% از افراد اذعان کردهاند که با بهرهگیری از سیستمهای امتیازدهی به محصول، سرویس یا شخص به صورت آنلاین، به این موارد امتیازدهی کردهاند.
لازم به ذکر است که تنها انگیزه افراد برای دنبال کردن مبحث کاوش عقاید آنلاین، بازاریابی محصولات و سرویسهای کسبوکارها نیست. بلکه برای مثال دستیابی به اطلاعات سیاسی یکی دیگر از کاربردهای بسیار مهم این حوزه است. نظرسنجی انجام شده توسط «رینی» (Rainie) و «هوریگان» (Horrigan) در میان ۲۵۰۰ آمریکایی حاکی از آن است که ٪۳۱ آمریکاییها - بیش از ۶۰ میلیون نفر - در کمپین کاربران اینترنت سال ۲۰۰۶ (2006 campaign internet users) حضور داشتهاند و به تولید محتوا و تبادل دیدگاه پیرامون انتخابات پرداختهاند. برخی از یافتههای این بررسی در ادامه بیان شده است.
- ۲۸٪ از شرکتکنندگان در نظرسنجی اذعان کردهاند که دلیل اصلی آنها برای انجام چنین فعالیتهای آنلاینی کسب چشماندازی از جامعه است. ٪۳۴ نیز گفتهاند که دلیل اصلی آنها برای مشارکت در این کمپین، کسب چشماندازی از فضای خارج از جامعه خودشان بوده.
- ۲۷٪ افراد، مسائل آنلاین را پیگیری میکردند تا از دیدگاهها و نحوه امتیازدهی سازمانهای خارجی آگاه باشند.
- ۲۸٪ شرکتکنندگان در نظرسنجی گفتهاند که اغلب از وبسایتهای به اشتراکگذاری عقاید استفاده کردهاند. این امر حاکی از آن است که بسیاری از افراد صرفا به دنبال سنجش اعتبار عقاید از پیش مطرح شده خود نیستند.
- ۸٪ افراد اذعان کردهاند که نظرات شخصی سیاسی خود را به صورت آنلاین ارسال میکردند.
ولع کاربران برای اعتماد به توصیهها و پیشنهاداتی که در دادههای آنلاین ارائه میشود صرفا یکی از دلایل نهفته در پس علاقمندی به سیستمهای جدیدی است که بهطور مستقیم با عقاید کاربران کار میکنند. «هورینگان» (Horrigan) میگوید، به همان میزان که اغلب کاربران اینترنت آمریکا تجربیات مثبتی از جستوجوهای آنلاین خود پیرامون محصولات و سرویسها ابراز کردهاند، ٪۵۸ از کاربران نیز گفتهاند که اطلاعات آنلاینی برای محصول یا سرویسی که جستوجو کردهاند موجود نبوده، یا دسترسی به آنها غیر ممکن و یا حتی خود دادههای موجود گیج کننده بودهاند. بنابراین، نیاز واضح و مبرهنی جهت کمک به مصرفکنندگان محصولات، سرویسها و حتی اطلاعات با ساخت سیستمهایی که دسترسی به اطلاعات کنونی موجود را تسهیل میکنند وجود دارد.
علاقهای که افراد در عقاید آنلاین خود نسبت به یک محصول یا سرویس نشان میدهند و پتانسیل بالقوه تاثیر چنین عقایدی به خوبی برای اهداف گوناگون قابل استفاده است. آنچه بیان شد در واقع همان چیزی است که فروشندگان محصولات و خدمات همه روزه توجه زیادی به آن مبذول میدارند. قطعه متنی که از مقاله «زابین» (Zabin) و «جفریز» (Jefferies) در ادامه آمده تصویری از وضعیت موجود ارائه میکند.
با ظهور وب ۲.۰، پلتفرمهایی مانند وبلاگها، انجمنهای گفتوگو، شبکههای همتا به همتا (Peer-to-Peer) و دیگر انواع رسانههای اجتماعی ...، مصرفکنندگان محصولات و سرویسهای گوناگون، امکان بهاشتراکگذاری عقاید و تجربیات خود از برندهای مختلف، خواه مثبت یا منفی را با دیگر افراد دارند. از همین رو، شرکتهای بزرگ به شدت به دنبال شنیدن صدای مشتریان و در نهایت جلب وفاداری آنها، ایجاد تصمیم خرید در افراد و دفاع از برند خود هستند. ... شرکتها نیز میتوانند به نظرات و رویکردهای ارائه شده توسط مشتریان، با بهرهگیری از راهکارهای نظارت بر رسانههای اجتماعی و تحلیل آنها پاسخ دهند. این پاسخ می تواند با تغییر پیامهای بازرگانی، موقعیت نام تجاری، توسعه محصول و دیگر فعالیتهای مستقیم یا غیر مستقیم داده شود.
تحلیلگران فضای صنعت و کسبوکار متذکر شدهاند که بهرهبرداری از رسانههای جدید با هدف پیگیری تصویری که از محصول در ذهن مخاطبان وجود دارد، نیازمند بهرهگیری از فناوریهای جدید است. در متنی که در ادامه ارائه شده مشکلات این بخش بیان میشود.
بازاریابها همواره نیازمند نظارت بر رسانهها جهت اطلاع از مباحث مرتبط به برند خود هستند. این کار با هدف روابط عمومی، پیشگیری از جرایم کلاهبرداری، مواجهه با آنها و کسب مزیت رقابتی انجام میشود. اما تنوع رسانهها و تغییر رفتار مشتریان، روشهای نظارتی سنتی را فلج کرده است.
موتور جستجوی ویژه وبلاگها به نام «تکنوراتی» (Technorati) تخمین میزند که روزانه بالغ بر ۷۵۰۰ وبلاگ و ۱.۲ میلیون مطلب جدید منتشر میشوند. بسیاری از این موارد به عقاید مصرفکنندگان درباره محصولات و سرویسهای گوناگون اختصاص دارد. تاکتیکهایی (از نوع سنتی) مانند سرویسهای کلیپینگ (clipping services)، عوامل زمینهای و پژوهشهای اختصاصی پیرامون یک مبحث، نمیتوانند با سرعت لازم بهمنظور نظارت بر این حجم از محتوای در حال تولید پیشروی کرده و رو به جلو بروند.
بدین ترتیب، علاوه بر کارشناسان انسانی، یک سیستم نظارتی تحلیل خودکار احساسات مصرفکنندگان نیز مورد نیاز است. شرکتهای زیادی وجود دارند که به چگونگی درک محصول یا خدمات خود توسط مشتریان، نظرات و نقد و بررسیهای آنها اهمیت میدهند.
مثالی از ساخت یک سیستم عقیدهکاوی
ساخت سیستمی که بتواند اطلاعات ذهنی را به شیوه موثری پردازش کند، نیازمند غلبه بر چالشهای نو و متعددی است. برای نشان دادن برخی از این چالشها، میتوان یک مثال واقعی از سیستم جستوجوی عقاید یا نقد و بررسیها را در نظر گرفت.
چنین نرمافزاری میتواند پاسخگوی نیازهای مهم و شایعی باشد که پیشتر تشریح شد. در چنین سیستمی، فرد میتواند در یک وبلاگ خاص پیرامون یک سرویس یا محصول (نقد و بررسیها و عقاید ارائه شده برای آنها) جستوجو کند.
این فرد می تواند جستوجوی خود را به صورت عمومی نیز انجام دهد (در یک موتور جستوجوی عمومی و یا بدون آوردن کلیدواژههای مربوط به نقد و بررسی و نظرات). ساخت و توسعه نرمافزار کامل جستوجوی نقد و بررسی یا عقاید، که بتواند پاسخ صحیحی برای جستوجوی انجام شده توسط کاربر ارائه کند باید بتواند هر یک از مشکلات و چالشهایی که در ادامه بیان شدهاند را هدف بگیرد.
- اگر سیستم در یک موتور جستوجوی همهمنظوره ادغام شده باشد، نیاز به تشخیص این است که کاربر در جستوجوی محتوای ذهنی (subjective) است یا خیر و این خود ممکن است مساله سختی باشد. این در حالیست که امکان دارد کوئریهایی از این نوع، شامل اصطلاحات شاخصی مانند «reviews» ،«review» یا «opinions» باشند. همچنین امکان دارد در برنامه یک چکباکس برای کاربر فراهم شده باشد تا او بتواند مستقیما نظر خود پیرامون خروجی جستوجو و اینکه آیا نقدوبررسیها آنچنان که انتظار میرفت هستند یا خیر بیان کند. اما بهطور کلی، دستهبندی کوئریها (به ذهنی و غیر ذهنی) مسالهای دشوار است (تا حدی که موضوع رقابتهای KDD Cup challenge در سال ۲۰۰۵ بوده است).
- علاوه بر مساله شناسایی دسته (خوشه) اسناد (محتوای ذهنی یا غیر ذهنی) که همچنان باز محسوب میشود، چالش دیگر شناسایی همزمان یا متعاقب اسناد یا بخشهایی از اسناد است که شامل محتوای نقد و بررسی و یا عقاید هستند. گاهی این کار آسان است، برای مثال در متنهای گردآوری شده از سایتهای نقد و بررسی که در آنها محتوای بررسیها در قالبی کلیشهای ارائه شدهاند. از این جمله میتوان به وبسایتهای Epinions.com و Amazon.com اشاره کرد. اگرچه، وبلاگها اغلب حاوی محتوای ذهنی هستند و در نتیجه محل مناسبی برای جستوجو محسوب میشوند (برخلاف سایتهای فروش، برای کوئریهای مربوط به سیاست، مردم یا دیگر موارد فاقد ارتباط به محصولات و خدمات، محل مناسبتری هستند). اما محتواهای دلخواه ارائه شده در وبلاگها میتوانند بهطور گستردهای در محتوا، سبک، ارائه و حتی سطح دستور زبان متفاوت باشند.
- اگر فردی به دنبال اطلاعات ذهنی باشد و جستوجویی بر همین اساس انجام دهد، برای هر سند موجود (پیرامون هر مبحثی، خواه نقد و بررسی یک محصول باشد و خواه درباره یک کاندید انتخابات)، مساله شناسایی احساسات کلی بیان شده و/یا عقاید مشخص موجود در آن سند (با توجه به ویژگیها یا جنبههای مشخصی از جستوجوی انجام شده توسط کاربر) وجود خواهد داشت. انجام چنین جستوجوهایی در برخی از سایتها مانند Yahoo! Movies که کاربران باید نقد و بررسی خود پیرامون یک فیلم را همراه با دادن امتیاز به فیلم (سیستم امتیازبندی ثابتی که از پیش توسط سایت تعیین شده) منتشر کنند سادهتر محسوب میشود. لازم به ذکر است که تحلیل دادههای ساختار نیافته و متنها برای کامپیوترها سختتر بوده و خود میتواند منجر به ایجاد چالشهای جدیدی بشود. برای مثال، اگر نقل قولهایی در مقالات روزنامهها وجود داشته باشد، باید دقت کرد که دیدگاههای بیان شده در هر نقل قول به موجودیت درستی اختصاص یابند.
- در نهایت، سیستم نیازمند ارائه اطلاعات احساسی گردآوری شده به صورت خلاصه است. این کار میتواند شامل برخی یا کلیه مواردی که در ادامه بیان شدهاند بشود.
- تجمیع آرایی که در مقیاسهای گوناگون ثبت شدهاند (برای مثال یک سایت از مقیاس ستارهای - یک تا پنج ستاره - و دیگری از رتبهبندی با حروف الفبا یا اعداد استفاده میکند)
- برجسته کردن گزینشی برخی از عقاید
- ارائه نقاط مخالفت و اجماع
- شناسایی اجتماعات صاحب نظران
- محاسبه سطوح گوناگون قدرت در میان صاحب نظران (نظرات چه افرادی ضریب نفوذ بالاتری دارد)
توجه به این نکته لازم است که بصریسازی دادههای احساسات، بهتر از خلاصهسازی آنها به صورت متن است. خلاصهسازیهای متنی در مسائل سندمحور کاربردیتر هستند.
تاریخچه
اگرچه اخیرا پژوهشهای گستردهای حول مبحث احساساتکاوی و عقیدهکاوی انجام شده، اما هر دو این موضوعات از مدتها پیش مطرح بودهاند. پژوهشهای اولیه این حوزه پیرامون باورکاوی (belief mining) صورت پذیرفتند. پس از آن، تفسیر استعاره، تفسیر روایت، تفسیر دیدگاه (نقطهنظر)، گواهنمایی و دیگر مباحث مرتبط به این موضوع نیز مطرح شدند.
در حدود سال ۲۰۰۱، آگاهی گستردهای پیرامون مسائل پژوهشی تحلیل احساسات و عقیدهکاوی ایجاد و متعاقبا هزاران مقاله در این حوزه انتشار یافت.
برخی از دلایل برجسته شدن این مبحث و جلب توجهات به آن در ادامه بیان شده است.
- ظهور و توسعه روشهای یادگیری ماشین در پردازش زبان طبیعی و بازیابی اطلاعات
- افزایش دسترسیپذیری به مجموعه دادههای گوناگون برای الگوریتمهای یادگیری ماشین جهت آموزش دادن مدل، با رشد و توسعه وب جهان گستر و البته سیستمهای تجمیع نظر
- شناسایی چالشهای فکری شگفتانگیز، تجاری و کاربردهای هوشمند این حوزه
واژهشناسی: عقیدهکاوی، تحلیل احساسات، عواطف و ذهنیت
«خِرَد»، با تعریف اصطلاحات آغاز میشود.
سقراط
این کلام قصار هنگامی که سخن از نظارت بر دنیای رسانههای اجتماعی و تحلیل آنها به میان میآید که به نوعی فاقد هرگونه توافق جهانی در واژه گزینی برای آن وجود دارد، بسیار کاربردی خواهد بود. امروزه، پژوهشگران، فروشندگان و فعالان این زمینه نوظهور از واژگان گوناگونی برای آن استفاده میکنند که از جمله آنها میتوان به «نظارت بر برند»، «نظارت بر شایعه»، «مردمشناسی آنلاین»، «کاوش مکالمه» و «هوش مصنوعی آنلاین» اشاره کرد. ... در نهایت، نکته جالب توجه آن است که «نظارت و تحلیل رسانههای اجتماعی» خود مفهومی چندگانه است. بنابراین، این لغت تا زمانی کاربرد دارد که جایگزین بهتری برای آن در زبان انگلیسی یافت نشود.
نقل قول بالا از مقاله زابین و جفریز، مسالهای را که به دلیل استفاده از اسامی گوناگون برای این حوزه به وقوع پیوسته نشان میدهد. در واقع تا به امروز، هیچ واژه یکتایی برای این حوزه نو برگزیده نشده. هرچند که مبانی آنچه این واژگان به آنها اشاره دارند در برخی موارد مشترک است، ولی الزاما همه آنها به یک مبحث واحد اشاره ندارند و چه بسا گاهی استفاده از این اصطلاحات به جای یکدیگر کاری نادرست باشد.
با این وجود معمولا مباحثی که با مواجهه رایانشی با عقاید، احساسات و ذهنیت در متن سر و کار دارند به عنوان «عقیدهکاوی»، «تحلیل احساسات» و یا «تحلیل ذهنیت» (subjectivity analysis) شناخته میشوند. عبارات «نقد و بررسیکاوی» (review mining) و «استخراج ارزیابی» (appraisal extraction) نیز گاه به همین منظور استفاده میشوند و در واقع بهنوعی با «رایانش عاطفی» (affective computing) که از جمله اهداف آن توانمندسازی کامپیوترها برای شناسایی و بیان عواطف بشر است ارتباط دارند.
ازدیاد واژگان و عباراتی که برای یک زمینه بهکار میروند، بهطور ضمنی دلالت بر تفاوت در مفاهیمی دارد که هر یک از این اصطلاحات برای نامیدن آنها استفاده میشوند. در سال ۱۹۹۴، «ویبی» (Wiebe) تحت تاثیر آثار مکتوب «بنفیلد» (Banfield)، پیرامون مبحث ذهنیت و حالت پنهان قرار گرفت که پیشتر توسط «کرک» (Quirk) و همکاران به عنوان «حالتی که امکان بازرسی و ارزیابی آن وجود ندارد» مطرح شده بود. ولیکن، مثال اصلی که میتوان برای پژوهشهایی که با عنوان تحلیل ذهنیت انجام میشوند بیان کرد، تشخیص «زبان عقیدهمحور» (opinion-oriented language) بهمنظور تمییز دادن آن از «زبان هدف» (objective language) است.
اصطلاح عقیدهکاوی در مقاله انتشار یافته توسط «دِیو» (Dave) و همکاران، برای اولین بار در کنفرانس WWW سال ۲۰۰۳ مطرح شد. محل نشر این مقاله حاکی از محبوبیت این عبارت در جوامع متخصصان مرتبط با جستوجوی وب و بازیابی اطلاعات است. مطابق با پژوهش ارائه شده، یک ابزار عقیدهکاوی ایدهآل نتایج جستوجو برای یک محصول را پردازش کرده، لیستی از مشخصههای محصول (کیفیت، قابلیتها و سایر موارد) را تولید و عقاید موجود درباره هر محصول را تجمیع میکند (ضعیف، ترکیبی، خوب).
در واقع اغلب پژوهشهایی که پس از این مقاله با عنوان عقیدهکاوی انجام شدند با تاکید بر این مفهوم بنا نهاده شده بودند و در واقع بر استخراج و تحلیل قضاوتهای مربوط به جنبههای مختلف یک محصول تاکید داشتند. این در حالیست که این اصطلاح اخیرا بهطور گستردهتری تفسیر شده تا انواع مختلفی از تحلیل متنهای ارزیابی را در بر بگیرد.
تاریخچه عبارت تحلیل احساسات به نوعی به موازات عقیدهکاوی شکل گرفته است. استفاده از عبارت «احساسات» برای ارجاع به تحلیل خودکار متنهای ارزیابی و پیگیری قضاوتهای موجود در آنها، ریشه در مقالات سال ۲۰۰۱ «داس» (Das) و «چن» (Chen) و همچنین «تونگ» (Tong) (در مقالات جداگانهای) دارد. این پژوهشگران به تحلیل احساسات بازار علاقمند بودند.
متعاقبا، در سال ۲۰۰۲ در مقالات انتشار یافته توسط «تورنی» (Turney) و «پنگ» (Pang) و همکاران در دیدار سالانه انجمن زبانشناسی رایانشی (Association for Computational Linguistics | ACL) و کنفرانس سالانه «روشهای تجربی در پردازش زبان طبیعی» (Empirical Methods in Natural Language Processing | EMNLP) نیز از این واژگان استفاده شد. به علاوه، «نیوشکا» (Nasukawa) و «یی» (Yi) مقالهای با عنوان «تحلیل احساسات: ثبت علاقمندیها با استفاده از پردازش زبان طبیعی» (Sentiment analysis: Capturing favorability using natural language processing) در سال ۲۰۰۳ منتشر کردند.
این رویدادها روی هم رفته میتواند دلیل محبوبیت «تحلیل عواطف» در جوامعی که بر استفاده از پردازش زبان طبیعی متمرکز هستند را به خوبی نشان دهد. تعداد قابل توجهی از مقالاتی که از عبارت تحلیل احساسات استفاده کردهاند بر دستهبندی نقد و بررسیها بر اساس قطبش آنها (مثبت یا منفی) متمرکز هستند و این امر موجب شده تا برخی از نویسندگان یک عبارت کلی را به یک وظیفه و کاربرد بسیار محدود تقلیل دهند. اگرچه امروزه، بسیاری از پژوهشگران، این عبارت را بهطور گستردهتر برای مواجهه رایانشی با عقاید، احساسات و ذهنیت در متن تفسیر کردهاند.
بدین ترتیب، هنگامی که عبارات تحلیل احساسات و عقیدهکاوی بهصورت گستردهتری تفسیر میشوند، هر دو به زمینه مشابهی از مطالعات اشاره میکنند (که خود میتواند بهعنوان یک زیر مجموعه از تحلیل ذهنیت باشد).
عقیدهکاوی چیست؟
عقیدهکاوی به استفاده از «پردازش زبان طبیعی» (natural language processing)، «تحلیل متن» (text analysis)، «زبانشناسی رایانشی» (computational linguistics) و «زیستسنجشی» (biometrics) برای شناسایی، استخراج، کیفیتیابی، مطالعه وضعیت عواطف و اطلاعات موضوعی سیستماتیک گفته میشود.
تحلیل احساسات بهطور گستردهای برای مباحث مرتبط با صدای مشتریان مانند پاسخگویی به نظرسنجیها و نقد و بررسیها، شبکههای اجتماعی و بهداشت و درمان و بهطور کلی برای طیف گستردهای از کاربردها از بازاریابی گرفته تا خدمات مشتریان و درمانهای کلینیکی اعمال میشود.
بهطور کلی، هدف تحلیل احساسات شناسایی نگرشهای یک سخنران یا نویسنده با توجه به قطبیت کلی متن، واکنش عاطفی به یک سند و یا تعاملهای به وقوع پیوسته پیرامون آن است. «نگرش» ممکن است قضاوت یا ارزیابی (درباره نظریه ارزیابی مطالعه کنید)، حالت عاطفی (حالت عاطفی نویسنده یا سخنران)، یا ارتباطات عاطفی (اثر عاطفی مورد نظر از یک نویسنده یا مخاطبان) باشد.
مثالها
اهداف و چالشهای تحلیل عواطف از طریق چند مثال ساده قابل بیان است.
موارد ساده
- شهر «کرونات» (Coronet) همه روزه دارای بهترین خطوط ناوبری است.
- کروز «بِترام» (Bertram) دارای یک بدنه «V شکل» عمیق است که بهسادگی در دریا حرکت میکند.
- ناوهای پاستیلی سال ۱۹۸۰ فلوریدا زشت هستند.
- من کروزهای کابیندار قدیمی را دوست ندارم.
مثالهای چالش برانگیزتر
- من از کروزهای کابیندار بدم نمیاید. (مدیریت نقیض)
- بیزاری از کشتی جزو روحیات من نیست. (نقیض، ترتیب عکس کلمات)
- گاهی واقعا از قایقهای فلزی متنفر هستم. (قیدها، عواطف را تغییر میدهند.)
- من واقعا از ته دل بیرون رفتن در این هوا را دوست دارم! (طعنه مثبت)
- کریس کرفت (Chris Craft) از لیمستون (Limestone) بهتر به نظر میرسد. (اسامی دو برند، شناسایی هدف نگرشها دشوار است.)
- کریس کرفت از لیمستون بهتر به نظر میرسد، اما لیمستون قابل دریانوردی و همچنین قابل اعتماد است. (دو نگرش، دو نام برند)
- فیلم به شکل تعجب برانگیزی دارای صحنههای پر پیچ و تاب ناراحتکننده است. (اصطلاح منفی که به شکل مثبتی در برخی دامنههای استفاده میشود.)
- شما باید منو دسرهای اغوا کننده آنها را ببینید. (اصطلاح اغواکننده بیان کننده نگرشی منفی است. اما اخیرا قطبش آن در برخی از متون تغییر کرده است)
- من عاشقم تلفن موبایلم هستم، اما خرید آن را به هیچ کدام از همکارانم پیشنهاد نکردم. (عواطف مثبت شرطی که دستهبندی آنها دشوار است.)
- قهرمان هفته آینده koide9 خواهد بود! (اصطلاح جدیدا ایجاد شدهای که میتواند به شدت نگرش فرد را نشان دهد اما دارای قطبش فراّر و اغلب خارج از دامنه لغات شناخته شده است.)
ابزارها
مجموعه دادههای متعددی ویژه عقیدهکاوی بهصورت آنلاین و منبع باز موجود هستند. در ادامه لیستی از برخی ابزارها و مجموعه دادههای عقیدهکاوی ارائه شده است.
- (SEAS(gsi-upm/SEAS
- (SAGA(gsi-upm/SAGA
- ماژول تحلیل عواطف استنفورد (حرکت عمیق: یادگیری عمیق برای تحلیل عواطف) (Stanford Sentiment Analysis Module)
- LingPipe (آموزش عقیدهکاوی)
- TextBlob (آموزش: شروع سریع)
- (Opinion Finder (OpinionFinder | MPQA
- (Clips pattern.en (pattern.en | CLiPS
دیکشنریها یا منابع متنباز:
- SentiWordNet
- مجموعه دادههای Bing liu (عقیدهکاوی، تحلیل احساسات، استخراج عقیده)
- مجموعه داده General Inquirer
- MPQA opinion Corpus (منابع MPQA)
- Wordnet affect (مجموعه داده واژگان WordNet Domains)
انواع رویکردها
یک وظیفه اساسی در تحلیل عواطف دستهبندی قطبش متن، جمله یا جنبه/ویژگیهای موجود در یک سند، در صورتی است که عقیده بیان شده در آن سند، یک موجودیت مثبت، منفی یا خنثی باشد. دستهبندی احساسات «فرا قطبی» پیشرفته در وضعیتهای عاطفی مانند عصبانیت، غم و شادی به چشم میخورد. پیشگامان تحلیل عواطف افرادی بودند که راهکارهایی را برای کمیسازی الگوها در متن، و همچنین به طور جداگانه، پژوهشهای روانشناسی را برای تبیین وضعیت روانی یک فرد بر اساس تحلیل رفتار انجام دادهاند.
روشی که در حق امتیاز انحصاری Volcani and Fogel بیان شده، بهطور مشخص به احساسات، کلمات و عبارات مجزای شناسایی شده در متن با توجه به مقیاسهای عاطفی گوناگون میپردازد. سیستم فعلی بر اساس کارایی آن، EffectCheck نامیده میشود. این سیستم در واقع لغات هممعنی موجود در یک متن را برای تبیین شدت عواطف استخراج شده از آن استفاده میکند.
بسیاری از دیگر تلاشهای انجام شده در این حوزه دارای پیچیدگی کمتری بودهاند و از دید تک قطبیِ عواطف از مثبت به منفی استفاده میکردند. از جمله این پژوهشها می توان به کارهای تورنی و «پانگ» Pang اشاره کرد که روشهای گوناگونی را برای شناسایی قطبش نقد و بررسیهای محصولات و فیلمها اعمال کردهاند. این پژوهشها روی متن انجام شده است.
میتوان قطبش یک سند را با روش ارائه شده توسط پانگ و «سنیدر» (Snyder) سنجید. همچنین، پانگ و «لی» (Lee) پژوهشی پیرامون چگونگی تحلیل نقد و بررسی فیلمهای موجود در دستههای مثبت و منفی بهمنظور پیشبینی درجه ستارههای آن در مقیاس سه یا چهار ستاره انجام دادهاند. همچنین، تحلیلهای عمیقی بر اساس نقد و بررسیهای انجام شده برای رستورانها و پیشبینی رتبه جنبههای گوناگون یک رستوران مانند غذا و جَو (در مقیاس پنج ستاره) توسط سیندر صورت پذیرفته است.
اولین گام برای کنار هم آوردن رویکردهای گوناگون (یادگیری، واژگان، دانشمحور و دیگر موارد) در سمپوزیوم بهاری AAAI سال ۲۰۰۴ برداشته شد و در آن رویداد، زبانشناسان، دانشمندان کامپیوتر و دیگر پژوهشگران، مباحث مورد علاقه خود را ترازبندی کرده و با هدف انجام پژوهشهای محاسباتی سیستماتیک پیرامون عواطف، ذهنیت و احساست موجود در متن آنها را به همراه مجموعه دادههای بنچ مارک به اشتراک گذاشتند.
هر چند در اغلب روشهای دستهبندی آماری، کلاس خنثی با این فرض که متنهای خنثی در نزدیکی مرزهای دستهبندهای دودویی قرار گرفتهاند نادیده گرفته میشوند، اما پژوهشگران زیادی پیشنهاد میدهند که در هر مساله قطبش سه دسته باید شناسایی شوند. علاوه بر این میتوان اثبات کرد که دستهبندهای مشخص مانند «حداکثر توزیع احتمال آنتروپی» (Maximum entropy probability distribution) و ماشین بردار پشتیبان میتوانند از یک کلاس خنثی بهره برده و صحت کلی دستهبندی را افزایش دهند.
دو راه برای مواجهه با کلاسهای خنثی وجود دارد. الگوریتم ابتدا با شناسایی جملات خنثی پردازش و فیلترینگ آنها را انجام میدهد، و سپس ارزیابی احساسات مثبت و منفی انجام میشود. راه دیگر آن است که یک دستهبندی سهگانه از ابتدا انجام شود. دومین رویکرد اغلب شامل محاسبه توزیع احتمال در کلیه دستهها (برای مثال دستهبندهای نایو بیز به عنوان جعبه ابزار زبان طبیعی یا NLTK) میشود.
چگونگی استفاده از کلاس خنثی بستگی به دادههای خنثی دارد. اگر دادهها به شکل واضحی در دستههای خنثی، احساسات مثبت و منفی قرار گرفته باشند، میتوان زبان خنثی را فیلتر کرد و تمرکز را روی قطبش بین احساسات مثبت و منفی قرار داد. در عین حال اگر، دادهها اغلب خنثی باشند در صورت وجود انحراف کوچکی از اثرات مثبت و منفی، استراتژی مطرح شده جهت ایجاد تمایز بین دو قطب با دشواری مواجه میشود.
یک روش متفاوت برای شناسایی احساسات، استفاده از سیستمهای مقیاسدار است که در آن به کلمات دارای احساسات منفی، خنثی یا مثبت یک شماره در مقیاس بین ۱۰- و ۱۰+ تخصیص داده میشود (از منفیترین به سمت مثبتترین) یا به شکل سادهتر از ۰ به محدوده مثبتتر مانند +۴. این کار امکان تنظیم شدت عواطف یک عبارت بیان شده نسبت به محیط خود را فراهم میکند (معمولا در سطح جملات). هنگامی که یک تکه از متن ساختار نیافته با استفاده از پردازش زبان طبیعی (NLP) تحلیل میشود، به هر مفهوم بر مبنای روشی که لغات احساسی به مفهوم و امتیاز تخصیص داده شده به آن مرتبط میشوند، در محیط مشخص شده امتیازی تخصیص داده خواهد شد.
این کار امکان حرکت به سمت درک احساسات پیچیدهتر را فراهم میکند، زیرا در حال حاضر امکان تنظیم مقدار احساسات یک مفهوم، با ویرایشهایی که ممکن است روی آن انجام بگیرد مرتبط است. واژگانی که احساس بیان شده در یک مفهوم را خنثی، منفی یا تشدید میکنند، در واقع امتیاز آن را دستخوش تغییر کردهاند. در عین حال، اگر هدف شناسایی استحکام احساسات در متن به جای قطبش کلی آن باشد، میتوان به متن امتیاز استحکام احساسات مثبت و منفی تخصیص داد.
شناسایی ذهنیت/عینیت
این وظیفه معمولا به عنوان دستهبندی یک متن داده شده (معمولا یک جمله) در یکی از دو کلاس ذهنیت یا عینیت تعریف میشود و گاهی میتواند دشوارتر از دستهبندی قطبی باشد. محتوای کلمات و عبارات ممکن است بسته به زمینه آنها و اسناد عینی، شامل جملات ذهنی باشد (برای مثال یک مقاله خبری که شامل نظرات مردم است).
علاوه بر این، همانطور که توسط «سو» (Su) اشاره شده، نتایج به شدت وابسته به تعریف ذهنیتی هستند که هنگام تفسیر متن استفاده شده. اگرچه، پانگ نشان داده که حذف جملات عینی از یک سند پیش از دستهبندی قطبش آن به افزایش کارایی کمک میکند.
روش ویژگی/جنبه محور
این روش به شناسایی عقاید یا احساسات بیان شده در جنبهها یا ویژگیهای گوناگون موجودیتها (برای مثال یک گوشی تلفن، یک دوربین دیجیتال یا یک بانک) اشاره دارد. یک ویژگی یا جنبه، مشخصه یا مولفهای از یک موجودیت است؛ برای مثالی از این مورد میتوان به صفحه تلفن همراه، خدمات یک رستوران، یا کیفیت تصویر دوربین اشاره کرد. مزیت روش مبتنی بر ویژگی امکانپذیر بودن ثبت تفاوتهای ظریف اشیا یا علاقمندیها است.
ویژگیهای متفاوت میتوانند احساسات متفاوتی را ایجاد کنند، برای مثال یک هتل میتواند مکان مناسب اما غذای معمولی داشته باشد. این مساله شامل چندین زیر مساله است، از جمله این زیر مسائل میتوان به شناسایی موجودیتها، استخراج ویژگیها/جنبهها و تشخیص اینکه عقاید بیان شده برای هر ویژگی/جنبه متعلق به دسته مثبت، منفی یا خنثی هستند اشاره کرد. شناسایی خودکار ویژگیها میتواند با روشهای نحوی، مدلسازی موضوع یا یادگیری عمیق انجام شود. بحثهای جزئیتر درباره این سطح از تحلیل احساسات در کارهای «لیوز» (Liu's) قابل مشاهده است.
روشها و ویژگیها
رویکردهای موجود برای تحلیل عواطف را میتوان در سه گروه اصلی شامل روشهای دانش محور، روشهای آماری و رویکردهای ترکیبی قرار داد. روشهای مبتنی بر دانش، متن را با دستههای عواطف و بر اساس حضور واژگان عاطفی غیرمبهم (یکپارچه) مانند خوشحال، ناراحت، ترسیده و کسل دستهبندی میکنند.
برخی از پایگاههای دانش، نه تنها کلمات عاطفی واضح را لیست میکنند، بلکه به هر کلمه دلخواه یک احتمال «وابستگی» به عواطف خاص را میدهند. روشهای آماری بر عناصر یادگیری ماشین مانند «تحلیل پنهان مفهومی» (Latent semantic analysis)، «مدل کیسه کلمات» (bag of words) و «جهتگیری معنایی» (Semantic Orientation) - اطلاعات متقابل نقطعه عطف - تکیه دارند.
روشهای پیچیدهتر سعی در شناسایی نگهدارنده احساسات (ظرف احساسات) (برای مثال فردی که آن حالت عاطفی را بیان میکند) و هدف (موجودیتی که احساسات درباره آن به وقوع پیوسته) دارند. برای کاوش عقاید موجود در یک متن، و دریافت ویژگیهایی درباره آنچه سخنران پیرامون آن به اظهار عقیده پرداخته، از رابطه دستور زبان بین کلمات استفاده میشود.
وابستگی دستور زبانی با تجزیه عمیق متن به دست آمده است. رویکردهای ترکیبی هم بر یادگیری ماشین و هم عناصری از ارائه دانش مانند «هستیشناسی» (ontologies) و «شبکههای معنایی» (Semantic network) تکیه دارند. دلیل این رویکرد شناسایی معناهایی است که به شیوهای ظریفتر، مثلا از طریق تحلیل مفهومی که بهطور صریح اطلاعات مرتبط را نشان نمیدهد، اما بهصورت ضمنی به دیگر مفاهیمی که چنین کاری را انجام میدهند مرتبط شده.
ابزارهای نرمافزاری متن باز، روشهای یادگیری ماشین، آمار و پردازش زبان طبیعی را برای خودکارسازی تحلیل عواطف در مجموعه بزرگی از متنها، شامل صفحات وب، خبرهای آنلاین، گروههای بحث اینترنتی، بررسیهای آنلاین و شبکههای اجتماعی توسعه میدهند. از سوی دیگر، سیستمهای مبتنی بر دانش از منابع موجود به صورت عمومی برای استخراج اطلاعات معنایی و عاطفی مرتبط با مفاهیم زبان طبیعی استفاده میکنند.
تحلیل احساسات میتواند روی محتواهای بصری، برای مثال تصاویر یا ویدئوها نیز انجام شود (درباره تحلیل احساسات چند منظوره مطالعه کنید). یکی از اولین رویکردها در این جهت SentiBank است که از ارائه صفت اسم برای محتوای بصری استفاده میکند. به علاوه، قریب به اکثریت رویکردهای دستهبندی احساسات بر مدل کیسه کلمات تکیه دارند که متن، دستور زبان و حتی ترتیب واژگان را نادیده میگیرد. رویکردهایی که احساسات را برپایه چگونگی ترکیب کلمات در عبارات طولانیتر تحلیل میکنند نتایج بهتری از خود نشان دادهاند، اما متحمل سربار تفسیر میشود.
مولفه تحلیل انسانی در تحلیل احساسات مورد نیاز است، زیرا سیستمهای خودکار قادر به تحلیل گرایشهای تاریخی نظرات شخصی فرد یا یک پلتفرم نیستند و اغلب به صورت نادرست در احساسات بیان شده خود دستهبندی میشوند. خودکارسازی تقریبا ٪۲۳ از نظراتی که توسط انسان به درستی دستهبندی شدهاند را تحت تاثیر قرار میدهد. با این حال، انسانها اغلب مخالف این امر هستند و چنین استدلال میکنند که توافقات بین انسانی مرزهای بالاتری ایجاد میکند که دستهبندهای احساسی خودکار نیز سرانجام میتوانند به آن برسند.
گاهی، ساختار احساسات و موضوعات به شدت پیچیده است. همچنین، مساله تحلیل احساسات با توجه به افزونه جمله و جایگزینی کلمات توقف (stop-word)، غیر یکنواخت (non-monotonic) است (برای درک بهتر این مفهوم، مقایسه این دو جمله با یکدیگر توصیه میشود: ۱. آنها اجازه نخواهند داد سگ من در این هتل بماند. ۲. من اجازه نمیدهم سگم در این هتل بماند.) برای حل این مساله، برخی از رویکردهای قاعده محور و استدلال محور شامل برنامهنویسی منطق فسخ ناپذیر (defeasible logic programming) برای تحلیل احساسات اعمال شدهاند. همچنین، تعدادی از قواعد گذرگاهی درختی برای استخراج حالت مناسب از احساسات در تنظیمات دامنه باز بر درخت تجزیه نحوی اعمال شده است.
ارزیابی
صحت سیستمهای تحلیل احساسات، اصولا وابسته به این است که چقدر با قضاوتهای انسانی تطابق دارد. این امر معمولا به وسیله سنجههای متنوعی بر مبنای صحت و دقت در دو دسته هدف از متنهای مثبت و منفی اندازهگیری میشود.
با این حال، با توجه به پژوهشهای انجام شده امتیازهای انسانی معمولا در ٪۸۰ مواقع با ماشین متفق هستند (قابلیت اطمینان شاهد). بدینترتیب، برنامهای که در دستهبندی احساسات صحت ٪۷۰ به دست میآورد، تقریبا به خوبی انسانها کار میکند. اگرچه چنین صحتی ممکن است خیلی هم جذاب به نظر نرسد. اگر یک برنامه در ٪۱۰۰ زمانها هم درست کار کند، انسانها باز هم میتوانند ۲۰٪ مواقع با آن موافق نباشند، زیرا آنها با هر پاسخی مخالف هستند.
از سوی دیگر، سیستمهای کامپیوتری خطاهای بسیار متفاوتی را نسبت به ارزیابیکنندگان انسانی انجام میدهند و بدین ترتیب ارقام بهطور کامل با هم قابل قیاس نیستند. برای مثال، یک سیستم کامپیوتری با نقیضها، اغراقها، جوکها و طعنهها که مدیریت کردن آنها برای انسانها بیش از اندازه ساده است، دچار مشکل خواهد بود.
بهطور کلی، ابزارهای موجود برای وظایف تجاری کاربرد تحلیل احساسات همانطور که در پژوهشهای آکادمیک مطرح شده، بیشتر از یک مدل ساده تک بعدی احساسات از منفی به مثبت بهره میبرند و اطلاعات نسبتا کمی - برای مشتری که نگران گفتوگوهای عمومی مثلا پیرامون یک برند یا شهرت یک شرکت است - ارائه میکنند.
برای تامین بهتر نیازهای بازار، توسعه و تکامل تحلیل احساسات به سنجههای وظیفهمحورتری انتقال یافت، که با حضور کارشناسان آژانسهای روابط عمومی و تحقیقات بازار فرموله شدهاند. برای مثال در مجموعه داده ارزیابی RepLab، تمرکز کمتری روی محتوای متن و توجه بیشتری به تاثیر متن در پاسخ به پرسش مطرح شده پیرامون شهرت برند وجود دارد.
وب ۲.۰
با ظهور رسانههای اجتماعی مانند وبلاگها و شبکههای اجتماعی، علاقمندی به تحیل احساسات بیش از پیش افزایش یافت. با ازدیاد بررسیها، امتیازدهیها، توصیهها و دیگر انواع اظهارات آنلاین، عقاید آنلاین برای کسبوکارهایی که بهدنبال بازاریابی محصولات و شناسایی فرصتهای جدید و مدیریت شهرت خود هستند مبدل به پول مجازی شد.
مقارن با اینکه کسبوکارها به دنبال خودکارسازی فرآیند فیلتر کردن نویز، درک مکالمات، شناسایی محتواهای مرتبط و به کارگیری آنها به شکل مناسب هستند، بسیاری از افراد جدید جذب مبحث تحلیل احساسات میشوند. مساله پیچیدهتر در این میان، ظهور پلتفرمهای رسانههای اجتماعی ناشناخته مانند 4chan و «رِدیت» (Reddit) است. با توجه به این ادعا که وب ۲.۰ به دنبال ایجاد دموکراسی در انتشار محتوا است، باید گفت گام بعدی وب ممکن است بر پایه دموکراتیزه کردن دادهکاوی کلیه محتواهایی منتشر شده باشد.
یک گام به سوی این هدف، در پژوهشهای این حوزه برداشته شده است. چندین تیم پژوهشی در دانشگاههای سراسر دنیا در حال حاضر روی درک کارکرد احساسات در اجتماعات الکترونیکی از طریق تحلیل احساسات کار میکنند. برای مثال، پروژه عواطف سایبری «CyberEmotions»، اخیرا به نقش عواطف منفی در به پیش راندن بحثها در شبکههای اجتماعی پی برده است.
مساله این است که اغلب الگوریتمهای تحلیل عواطف از عبارات سادهای برای بیان احساسات درباره یک محصول یا خدمت استفاده میکنند. با این حال، عاملهای فرهنگی، تنوع زبانی و زمینههای متفاوت تبدیل کردن رشتهای از متن نوشته شده به احساسات منفی یا مثبت ساده را بسیار دشوار میسازد. حقیقت آن است که انسانها اغلب با این موضوع مخالف هستند که هرچه متن طولانیتر باشد، وظیفه تحلیل احساسات نیز برای کامپیوتر پیچیدهتر میشود. در واقع آنها بر این باورند که با کوتاه شدن متن، تحلیل احساسات نیز سختتر خواهد بود.
حتی با وجود اینکه رشتههای کوتاه متن ممکن است مسالهساز باشند، تحلیل عواطف در سرویسهای میکروبلاگینگ نشان داده که توییتر میتواند بهعنوان یک شاخص معتبر آنلاین برای عقاید سیاسی مردم استفاده شود. احساسات توییتهای سیاسی، نشانگر مراودات نزدیک احزاب و جایگاه سیاسی سیاستمداران است و نشان میدهد محتوای پیامهای توییتر به شکل قابل اعتمادی چشمانداز سیاسی آفلاین را نشان میدهد. علاوه بر این، تحلیل احساسات در توییتر، راهکاری جهت به تصویر کشیدن افکار نهفته در پس مباحثی همچون تولید مثل انسانی و یا مسائل مرتبط با سلامت مانند واکنشهای نامطلوب به داروها است.
کاربرد عقیدهکاوی در سیستمهای توصیهگر
اثبات شده که تحلیل احساسات برای سیستمهای توصیهگر مفید است. یک سیستم توصیهگر قصد دارد اولویت یک محصول را برای یک کاربر هدف پیشبینی کند. سیستمهای توصیهگر میناستریم (Mainstream recommender systems) در مجموعه دادههای صریح، برای مثال پالایش گروهی (collaborative filtering) روی ماتریس رتبهدهی و پالایش محتوا محور روی فرادادههای مرتبط با یک محصول کار میکنند.
در بسیاری از سرویسهای شبکههای اجتماعی یا وبسایتهای تجارت الکترونیکی، کاربران میتوانند نقد و بررسیهای متنی، نظریات و یا بازخوردهای خود برای یک محصول را بنویسند. این متنهای تولید شده توسط کاربران، منبعی غنی از عقاید احساسی کاربران درباره محصولات و موارد متعدد دیگر را فراهم میکنند. برای یک محصول، چنین متنی هم میتواند ویژگیها/جنبههای مرتبط و هم نظر کاربران برای هر ویژگی را آشکار کند. ویژگی/جنبهای که درباره یک محصول در متن تشریح شده، دارای نقش مشابهی با فرا داده در پالایش محتوا محور است، اما اولی برای سیستمهای توصیهگر ارزشمندتر است.
از آنجا که این ویژگیها بهطور گستردهای توسط کاربران در نقد و بررسیهایشان مورد اشاره قرار گرفتهاند، میتوان به آنها به عنوان حیاتیترین ویژگی که بهطور موثر تجربه کاربر برای یک محصول را تحت تاثیر قرار میدهد نگاه کرد، در حالیکه فراداده یک محصول (معمولا بهوسیله تولیدکنندگان فراهم شده نه مصرفکنندگان) ممکن است ویژگیهایی که برای کاربران نگران کننده است را نادیده بگیرند. برای محصولات متنوع با ویژگیهای متداول، یک کاربر ممکن است احساسات گوناگونی داشته باشد. همچنین، یک ویژگی مشخص از یک محصول ممکن است احساسات مختلفی از کاربران گوناگون دریافت کند. احساسات کاربران برای یک محصول را میتوان به عنوان یک امتیاز رتبهبندی چندبُعدی در نظر گرفت که ترجیح آنها برای یک محصول را منعکس میکند.
یک سیستم توصیهگر ترکیبی براساس ویژگیها/جنبهها و احساسات استخراج شده از متنهای تولید شده توسط کاربر قابل ساخت است. دو نوع انگیزه برای توصیه یک محصول کاندید برای یک کاربر وجود دارد. اولین انگیزه آن است که محصول کاندید شده ویژگیهای متداول متعددی با دیگر محصولات پسندیده شده توسط کاربر داشته باشد، و دومین انگیزه دریافت حجم زیادی از احساسات توسط سایر کاربران برای ویژگیهای موجود در محصول کاندید شده است.
منصفانه است که باور کنیم محصولی مشابه با آنچه پیشتر توسط کاربر پسندیده شده، احتمال دارد مورد پسند قرار بگیرد. از سوی دیگر، برای یک ویژگی مشترک برای دو محصول کاندید، دیگر کاربران ممکن است احساسات مثبتی برای یکی از آنها و احساسات منفی برای دیگری بروز دهند. به وضوح، محصولی که احساسات مثبت برای آن ارزیابی شده باید به کاربر توصیه شود. بر اساس این دو نوع انگیزه ترکیبی از امتیاز رتبهبندی مشابهت و احساسات میتواند برای هر محصول کاندید ایجاد شود.
جدا از دشوار بودن تحلیل احساسات، اعمال تحلیل احساسات بر نقد و بررسیها یا بازخوردها، خود با مساله وجود هرزنامه و نقد و بررسیهای دارای سوگیری مواجه است. بنابراین یک بخش از کار همواره روی ارزیابی مفید بودن هر نقد و بررسی متمرکز است. نقد و بررسی یا بازخوردی که ضعیف نوشته شده باشد برای سیستم توصیهگر خیلی مفید نیست. علاوه بر این، یک نقد و بررسی ممکن است برای ممانعت از فروش یک محصول نوشته شده باشد و بنابراین برای سیستم توصیهگر آسیبزننده واقع شود، حتی اگر به شیوه خوبی نوشته شده باشد.
پژوهشگران همچنین کشف کردهاند که با متنهای کوتاه و بلند تولید شده توسط کاربر باید به شکلهای متفاوتی برخورد کرد. نتیجه یک پژوهش به شکل جالبی نشان میدهد که بررسیهای کوتاه از بلندترها مفیدتر هستند، زیرا فیلتر کردن نویز در شکل کوتاهتر سادهتر است. برای متنهای طولانی، طول در حال رشد متن همیشه منجر به افزایش مناسب تعداد ویژگیها یا احساسات موجود در متن نمیشود.
اگر نوشته بالا برای شما مفید بود، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای هوش محاسباتی
- آموزش تحلیل شبکههای اجتماعی با نرم افزار نود ایکس ال (NodeXL)
- علم داده چیست؟
^^
سلام و عرض ادب
بسیار جامع و کاربردی بود
از شما ممنونم
با سلام میشه یک تعریف ججامع از روش مبتنی بر فرهنگ لغت و روش های مبتنی بر پیکره بدید من فرق این دو رو متوجه نشدم
سلامو عرض ادب محضر خانم مهندس
و تشکر از مطلبوتون
عقیده کاوی ترجمه لفظی است و واژه مناسبی نیست برای این اصطلاح نیستopinion / mining . به نظرم واژه نگرش سنجی دقیقتر است
با سلام؛
از همراهی شما با مجله فرادرس و ارائه بازخورد بسیار سپاسگزارم. در فرهنگ فارسی عمید در تعریف «عقیده» چنین آمده است:
آنچه انسان به آن اعتقاد دارد؛ باور.
آنچه انسان در دل و ضمیر خود نگه میدارد.
در تعریف «نگرش» نیز آمده است:
دیدگاه.
ملاحظه؛ رعایت.
نظر؛ نگاه؛ دیدن
از سوی دیگر، عقدیه ترجمه واژه انگلیسی «Opinion» و نگرش ترجمه واژه «Approach» است. در فرهنگ لغت آکسفورد در تعریف «Opinion» چنین آمده است:
your feelings or thoughts about somebody/something, rather than a fact
این در حالی است که در تعریف «Approach» چنین آمده است:
a way of dealing with somebody/something; a way of doing or thinking about something such as a problem or a task
با توجه به ماهیت «Opinion Mining» که در بحث تحلیل و پردازش انسانی قرار دارد و در آن اعتقادات و باورهای افراد پیرامون موضوعی مورد کاوش قرار میگیرد، به نظر میرسد عبارت «عقیدهکاوی» جایگزین مناسبی باشد. از سوی دیگر، این اصطلاح در بخش آکادمیک شناخته شده و بسیار پرکاربرد و مصطلح است.
پیروز، شاد و تندرست باشید.