در این مطلب «وب اسکرپینگ» (Web Scraping) با بهره‌گیری از زبان برنامه‌نویسی R آموزش داده می‌شود. در مثالی که در ادامه این مطلب مطرح شده، زبان R برای «وارد کردن» (Import) یک جدول نمونه از این صفحه وب (+) با استفاده از کتابخانه rvest مورد استفاده قرار گرفته است. rvest یکی از کتابخانه‌های استاندارد برای «وب اسکرپینگ» با استفاده از R محسوب می‌شود. در جدول نمونه، ۱۰۰ مشاهده وجود دارد. از کد زیر برای وارد کردن این جدول به محیط R استفاده می‌شود. توجه به این نکته لازم است که اگر هدف وارد کردن داده‌ها در قالب ماتریس باشد، می‌توان از قطعه کدی که در زیر آمده استفاده کرد.

گام اول: وارد کردن جدول وب به عنوان ماتریس

#We install the "rvest" package to scrape data:
install.packages("rvest")
 
#Load the library:
library(rvest)
 
#Load HTML website:
html <- read_html("/rvest-web-scraping-using-r/")
 
#Include relevant HTML nodes using CSS generator:
marketingtable <- html_nodes(html, ".odd .column-4 , .odd .column-3 , .odd .column-2 , .odd .column-1, .even .column-4 , .even .column-3 , .even .column-2 , .even .column-1")
 
#Determine table length
length(marketingtable)

#Import table by html_text function
html_text(marketingtable)

شایان توجه است که کاربر می‌تواند از ابزار «Selector Gadget» (+) برای انتخاب قسمت‌های گوناگون یک صفحه وب که قصد وارد کردن آن‌ها را در R دارد، به صورت بصری استفاده کند. در اینجا، سطرهای زوج و فرد به سادگی در html_nodes با بهره‌گیری از کدی که در بالا آمده تعیین می‌شوند.

نتایج

همانطور که در زیر می‌توان مشاهده کرد، جدول در R وارد شده است.

> webtable<-html_text(marketingtable)
> webtable
 [1] "Observation"         "Marketing Spend"     "Number of campaigns" "Consumer Rating"     "1"                   "9201"               
 [7] "20"                  "2"                   "2"                   "3759"                "61"                  "6"                  
[13] "3"                   "11702"               "39"                  "8"                   "4"                   "6990"               
[19] "84"                  "9"                   "5"                   "1023"                "44"                  "6"

گام ۲: وارد کردن جدول وب به عنوان یک دیتا فریم

هنگامی که بحث انجام تحلیل روی داده‌های وارد شده (Import) می‌شود، ماتریس را به دیتافریم تبدیل می‌کنند. در واقع، داده‌ها را به جدولی تبدیل می‌کنند که برای R قابل خواندن به صورتی باشد که بتواند مستقیما روی آن‌ها محاسبات انجام دهد. برای انجام این کار، نیاز به تبدیل ساختار ماتریس به یک دیتافریم است.

#Import rvest library
library(rvest)
 
#Import table from web page
html <- read_html("/rvest-web-scraping-using-r/")
 
#Structure separate variables according to node
observation <- html_nodes(html, ".odd .column-1, .even .column-1")
marketingspend <- html_nodes(html, ".odd .column-2, .even .column-2")
numberofcampaigns <- html_nodes(html, ".odd .column-3, .even .column-3")
consumerrating <- html_nodes(html, ".odd .column-4, .even .column-4")
 
#Define separate variables
observationvalues<-html_text(observation)
marketingspendvalues<-html_text(marketingspend)
numberofcampaignsvalues<-html_text(numberofcampaigns)
consumerratingvalues<-html_text(consumerrating)
 
#Structure data frame and remove heading
df = data.frame(observationvalues, marketingspendvalues, numberofcampaignsvalues, consumerratingvalues)
df2<-df[-1, ]
df2

می‌توان مشاهده کرد که هر ستون (زوج و فرد) با متغیرها جداسازی شده و این متغیرها در تابع data.frame برای تعریف متغیرها به صورت جداگانه درج شده‌اند. با توجه به اینکه جدول اصلی در منبع دارای «عنوان» (heading) بوده است، با استفاده از [ ,df[-1 عنوان را باید حذف کرد. دیتافریم جدید اکنون در R با نام df2 راه‌اندازی شده و موجود است.

observationvalues marketingspendvalues numberofcampaignsvalues consumerratingvalues
                  1                 9201                      20                    2
                  2                 3759                      61                    6
                  3                11702                      39                    8
                  4                 6990                      84                    9
                  5                 1023                      44                    6

اگر مطلب بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

^^

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

بر اساس رای 2 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *