«تحلیل احساسات» (Sentiment Analysis) راهکاری قدرتمند برای اندازه‌گیری عقاید افراد پیرامون یک موضوع مشخص در برهه مشخصی از زمان است. در این مطلب، با استفاده از «بسته‌های» (Packages) زبان برنامه‌نویسی R شامل twitteR و tidytext تحلیل احساسات به منظور تعیین عواطف موجود پیرامون قیمت کنونی طلا استفاده شده است. پروژه انجام شده در این مطلب روی داده‌های انگلیسی صورت پذیرفته، ولیکن مفهوم و روش کلی پیاده‌سازی برای دیگر زبان‌ها نیز مشابه است. تفاوت‌ها تنها در بخش‌های مربوط به پردازش زبان طبیعی بروز می‌کند.

دانلود توییت‌ها با بسته twitteR

برای فراهم کردن امکان دانلود توئیت‌ها، باید برنامه کاربردی مناسب برای انجام آن را از این مسیر (+) ساخت. در مسیر مذکور، کاربر باید حساب کاربری بسازد که کدهای احراز هویت گوناگون برای اتصال به API را در اختیار او قرار می‌دهد. اکنون و در ابتدا، با استفاده از قطعه کد زیر، دسترسی را احراز هویت کرده و سپس، ۵۰۰ توییت مربوط به کلیدواژه جست‌و‌جوی «قیمت طلا» (gold prices) (توییت‌های به زبان انگلیسی) دانلود می‌شوند.

library(twitteR)
setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret)

tweets<-searchTwitter("gold prices", n=500, since='2018-06-25')
df <- twListToDF(tweets)

اکنون، توییت‌ها را از حالت لیست خارج کرده (به بردار تبدیل می‌شوند) و از dplyr برای ذخیره‌سازی آن‌ها به صورت یک مشاهده استفاده می‌شود.

wctext<-paste(unlist(df), collapse=" ")
str(df)

library(dplyr)
wctext <- data_frame(line = 1, text = wctext)
wctext

انجام تحلیل احساسات در توییتر با tidytext

در ادامه، چگونگی انجام تحلیل عواطف با استفاده از tidytext (+) آموزش داده شده است. اکنون، «کلمات بازدارنده» (Stop Words)، پیش از انجام گام‌های دیگر از تحلیل‌ها حذف می‌شوند. کلمات بازدارنده به واژگانی گفته می‌شود که به طور متداول مورد استفاده قرار می‌گیرند، ولی الزاما ارزشی به تحلیل احساسات اضافه نمی‌کنند. بنابراین، باید آن‌ها را حذف کرد زیرا تعداد آن‌ها زیاد است و وجود آن‌ها مانع کسب هر گونه بینش مفیدی از داده‌ها طی انجام تحلیل‌ها می‌شود.

library(tidytext)

wctext2 <- wctext %>%
  unnest_tokens(word,text)

data(stop_words)

wctext2 <- wctext2 %>%
  anti_join(stop_words)

علاوه بر آن، لیستی از کلمات بازدارنده نیز در یک فایل متنی جدا ذخیره می‌شوند (شامل واژه‌های trump، twitter و gold) و آن‌ها نیز از تحلیل‌ها حذف می‌شوند. شایان توجه است که کلمه gold حذف می‌شود، زیرا tidytext آن را به عنوان یک کلمه مثبت در نظر می‌گیرد، اما در این مساله خاص، وجود آن مانع اندازه‌گیری احساسات صحیح نسبت به کالای طلا می‌شود.

setwd("C:/Users/michaeljgrogan/Documents/a_documents/computing/data science/datasets")
library(tm)

stopwords = readLines('stopwords.txt')
x  = wctext2$word
x  =  removeWords(x,stopwords)

wctext2 <- x
wctext2<-data.frame(wctext2)

اکنون، یک tibble ساخته شده که در آن وقوع هر کلمه در تحلیل‌ها اندازه‌گیری می‌شود، و سپس موتور احساسات Bing برای رتبه‌دهی به کلیدواژه‌ها مورد استفاده قرار می‌گیرد.

tibble<-wctext2 %>%
  count(wctext2,sort=TRUE)
col_headings<-c("word","n")
names(tibble) <- col_headings

tibblefiltered = tibble %>% filter(n > 1)
attach(tibblefiltered)
barplot(tibblefiltered$n, main="Word Frequency", 
        xlab="Word", names.arg=tibblefiltered$word)
str(tibblefiltered)
barsentiment <- tibblefiltered %>%
  inner_join(get_sentiments("bing"), by = c("word"))

rm(list= ls()[!(ls() %in% c('barsentiment'))])
attach(barsentiment)
library(ggplot2)

barsentiment %>%
  count(sentiment, word, n=n) %>%
  ungroup() %>%
  filter(n >= 1) %>%
  mutate(n = ifelse(sentiment == "negative", -n, n)) %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n, fill = sentiment)) +
  geom_bar(stat = "identity") +
  ylab("Contribution to sentiment") +
  coord_flip()

در تصویر زیر، تحلیل احساسات نشان داده شده است.

تحلیل احساسات در توییتر با زبان R

می‌توان مشاهده کرد که کلمات مثبت در تحلیل‌ها مانند «amazing» و «beautiful» الزاما بیانگر احساسات مثبت پیرامون مباحث مالی طلا نیستند. اگرچه، کلمات منفی نیز وجود دارند که به احساسات پیرامون موضوعات مالی طلا مربوط هستند و از آن جمله می‌توان به «risk» و «fall» اشاره کرد. با نگاهی به تصویر بالا، به نظر می‌رسد عواطف کلی نسبت به طلا از چشم‌انداز مالی «منفی» است.

هنگامی که نگاهی به قیمت طلا طی ۲۴ ساعت گذشته انداخته می‌شود، مشهود است که قیمت طلا کاهش پیدا کرده و این می‌تواند پشتوانه‌ای برای عواطف منفی موجود نسبت به قیمت طلا در توییتر باشد.

تحلیل احساسات در توییتر با زبان R

نتیجه‌گیری

در این راهنما، چگونگی دانلود توییت‌ها با کتابخانه twitteR و انجام متن‌کاوی با استفاده از tidytext در زبان برنامه‌نویسی R آموزش داده شده است. همچنین، چگونگی انجام تحلیل احساسات در یک پروژه کاربردی (تحلیل احساسات پیرامون قیمت طلا با استفاده از داده‌های شبکه اجتماعی توییتر) مورد بررسی قرار گرفت.

اگر نوشته بالا برای شما مفید بود، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

بر اساس رای 2 نفر

آیا این مطلب برای شما مفید بود؟

یک نظر ثبت شده در “تحلیل احساسات در توییتر با زبان R — راهنمای کاربردی

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *