وب اسکرپینگ (Web Scraping) با استفاده از R – راهنمای کاربردی

۴۸۱

۱۴۰۲/۰۲/۲۵

۲ دقیقه

PDF

آموزش متنی جامع

امکان دانلود نسخه PDF

در این مطلب «وب اسکرپینگ» (Web Scraping) با بهره‌گیری از زبان برنامه‌نویسی R آموزش داده می‌شود. در مثالی که در ادامه این مطلب مطرح شده، زبان R برای «وارد کردن» (Import) یک جدول نمونه از این صفحه وب (+) با استفاده از کتابخانه rvest مورد استفاده قرار گرفته است. rvest یکی از کتابخانه‌های استاندارد برای «وب اسکرپینگ» با استفاده از R محسوب می‌شود. در جدول نمونه، ۱۰۰ مشاهده وجود دارد. از کد زیر برای وارد کردن این جدول به محیط R استفاده می‌شود. توجه به این نکته لازم است که اگر هدف وارد کردن داده‌ها در قالب ماتریس باشد، می‌توان از قطعه کدی که در زیر آمده استفاده کرد.

فهرست مطالب این نوشته

گام اول: وارد کردن جدول وب به عنوان ماتریس

نتایج

گام ۲: وارد کردن جدول وب به عنوان یک دیتا فریم

گام اول: وارد کردن جدول وب به عنوان ماتریس

فیلم آموزش مقدماتی وب اسکرپینگ با پایتون – استخراج داده های سایت با Web Scraping + گواهینامه در فرادرس

کلیک کنید

شایان توجه است که کاربر می‌تواند از ابزار «Selector Gadget» (+) برای انتخاب قسمت‌های گوناگون یک صفحه وب که قصد وارد کردن آن‌ها را در R دارد، به صورت بصری استفاده کند. در اینجا، سطرهای زوج و فرد به سادگی در html_nodes با بهره‌گیری از کدی که در بالا آمده تعیین می‌شوند.

نتایج

همانطور که در زیر می‌توان مشاهده کرد، جدول در R وارد شده است.

گام ۲: وارد کردن جدول وب به عنوان یک دیتا فریم

هنگامی که بحث انجام تحلیل روی داده‌های وارد شده (Import) می‌شود، ماتریس را به دیتافریم تبدیل می‌کنند. در واقع، داده‌ها را به جدولی تبدیل می‌کنند که برای R قابل خواندن به صورتی باشد که بتواند مستقیما روی آن‌ها محاسبات انجام دهد.

فیلم آموزش وب اسکرپینگ برای استخراج داده های سایت با سی شارپ – Web Scraping با #C در فرادرس

کلیک کنید

برای انجام این کار، نیاز به تبدیل ساختار ماتریس به یک دیتافریم است.

می‌توان مشاهده کرد که هر ستون (زوج و فرد) با متغیرها جداسازی شده و این متغیرها در تابع data.frame برای تعریف متغیرها به صورت جداگانه درج شده‌اند.

فیلم آموزش طراحی خزشگر وب Web Crawler با پایتون Python در فرادرس

کلیک کنید

با توجه به اینکه جدول اصلی در منبع دارای «عنوان» (heading) بوده است، با استفاده از [ ,df[-1 عنوان را باید حذف کرد. دیتافریم جدید اکنون در R با نام df2 راه‌اندازی شده و موجود است.

اگر مطلب بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۴ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

مطالب مرتبط