وب اسکرپینگ (Web Scraping) با استفاده از R – راهنمای کاربردی


در این مطلب «وب اسکرپینگ» (Web Scraping) با بهرهگیری از زبان برنامهنویسی R آموزش داده میشود. در مثالی که در ادامه این مطلب مطرح شده، زبان R برای «وارد کردن» (Import) یک جدول نمونه از این صفحه وب (+) با استفاده از کتابخانه rvest مورد استفاده قرار گرفته است. rvest یکی از کتابخانههای استاندارد برای «وب اسکرپینگ» با استفاده از R محسوب میشود. در جدول نمونه، ۱۰۰ مشاهده وجود دارد. از کد زیر برای وارد کردن این جدول به محیط R استفاده میشود. توجه به این نکته لازم است که اگر هدف وارد کردن دادهها در قالب ماتریس باشد، میتوان از قطعه کدی که در زیر آمده استفاده کرد.
گام اول: وارد کردن جدول وب به عنوان ماتریس
شایان توجه است که کاربر میتواند از ابزار «Selector Gadget» (+) برای انتخاب قسمتهای گوناگون یک صفحه وب که قصد وارد کردن آنها را در R دارد، به صورت بصری استفاده کند. در اینجا، سطرهای زوج و فرد به سادگی در html_nodes با بهرهگیری از کدی که در بالا آمده تعیین میشوند.
نتایج
همانطور که در زیر میتوان مشاهده کرد، جدول در R وارد شده است.
گام ۲: وارد کردن جدول وب به عنوان یک دیتا فریم
هنگامی که بحث انجام تحلیل روی دادههای وارد شده (Import) میشود، ماتریس را به دیتافریم تبدیل میکنند. در واقع، دادهها را به جدولی تبدیل میکنند که برای R قابل خواندن به صورتی باشد که بتواند مستقیما روی آنها محاسبات انجام دهد.
برای انجام این کار، نیاز به تبدیل ساختار ماتریس به یک دیتافریم است.
میتوان مشاهده کرد که هر ستون (زوج و فرد) با متغیرها جداسازی شده و این متغیرها در تابع data.frame برای تعریف متغیرها به صورت جداگانه درج شدهاند.
با توجه به اینکه جدول اصلی در منبع دارای «عنوان» (heading) بوده است، با استفاده از [ ,df[-1 عنوان را باید حذف کرد. دیتافریم جدید اکنون در R با نام df2 راهاندازی شده و موجود است.
اگر مطلب بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشود:
- آموزش برنامهنویسی R و نرمافزار R Studio
- مجموعه آموزشهای برنامهنویسی پایتون
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای شبکههای عصبی مصنوعی
- مجموعه آموزشهای هوش محاسباتی
^^