انواع داده ها در یادگیری ماشین چیست؟ – به زبان ساده

۱۴۷ بازدید
آخرین به‌روزرسانی: ۰۵ فروردین ۱۴۰۳
زمان مطالعه: ۸ دقیقه
انواع داده ها در یادگیری ماشین چیست؟ – به زبان ساده

یادگیری ماشین تا کنون در گستره عظیمی از زمینه‌ها مانند موتورهای توصیه‌گر، خدمات درمانی، بازار سهام و مدیریت زنجیره تامین موفق بوده است. موفقیتی که از پیشرفت‌های چشمگیر در منابع سخت‌افزاری و همچنین ظهور عصر داده‌ها سرچشمه می‌گیرد. در حال حاضر، می‌توانیم حجم زیادی از داده‌های مورد استفاده را در الگوریتم‌های پیچیده یادگیری ماشین جمع‌آوری و ذخیره کنیم. برای بهره‌برداری از این الگوریتم‌ها و سپس پاک‌سازی و پیش‌پردازش، ابتدا لازم است تا درک مناسبی از انواع داده ها در یادگیری ماشین به‌دست آوریم؛ زیرا تنها در آن زمان می‌توانیم با استفاده از مدل‌های کارآمد، الگوهای پنهان موجود را در داده‌ها شناسایی و به عملکرد قابل قبولی دست پیدا کنیم. در فرایند پیش‌پردازش، به‌منظور قابل فهم بودن برای کامپیوتر و همچنین یادگیری الگوها، ابتدا داده‌ها به شکل عددی خود تبدیل می‌شوند. در این مطلب از مجله فرادرس، با انواع داده ها در یادگیری ماشین آشنا می‌شویم؛ فرایندی که در نهایت به ما در شناسایی تکنیک‌های پیش‌پردازش و تبدیل موثر داده‌ها کمک می‌کند.

در این مطلب، ابتدا با اهمیت یادگیری ماشین و همچنین نقش انواع داده‌ها آشنا می‌شویم. سپس یاد می‌گیریم «مجموعه‌داده» (Dataset) چیست و به شرح انواع داده ها در یادگیری ماشین می‌پردازیم. در انتهای این مطلب از مجله فرادرس نیز، چند نمونه از مشهورترین منابع دسترسی به مجموعه‌داده‌های کاربردی را معرفی می‌کنیم.

اهمیت یادگیری ماشین در چیست؟

یادگیری ماشین یا «ماشین لرنینگ» (Machine Learning) زیرشاخه‌ای از هوش مصنوعی است که به کامپیوترها یاد می‌دهد مانند انسان و با تکیه بر تجربیات گذشته فکر کنند. اغلب کارهایی که وابسته به داده‌های از پیش تعریف شده یا مجموعه‌ای از قواعد هستند را می‌توان با بهره‌گیری از یادگیری ماشین خودکارسازی کرد. در نتیجه، یادگیری ماشین به شرکت‌ها این امکان را می‌دهد تا کارهایی مانند پاسخ دادن به تماس‌ها، حسابداری و بررسی رزومه افراد که تا کنون تنها انسان‌ها قادر به انجام آن بوده‌اند را به کامپیوترها واگذار کنند.

کوزه گلی با طرح گراف و علائم آماری که بیانگر اهمیت یادگیری ماشین است

همچنین یادگیری ماشین قابلیت «مقایس‌پذیری» (Scalability) بالایی دارد؛ به این معنی که با پیچیدگی و بزرگی مساله تطبیق یافته و در کاربردهایی همچون شناسایی تصویر در اتومبیل‌های خودران، پیش‌بینی موقعیت مکانی و زمانی بلایای طبیعی و تشخیص عوارض داروها مورد استفاده قرار می‌گیرد.

نقش انواع داده ها در یادگیری ماشین

در «تحلیل داده» (Data Analytics) علاوه‌بر استفاده از الگوریتم‌های کارآمد برای بهبود مداوم عملکرد، دسترسی به داده‌های با کیفیت نیز ضرورت دارد. درک نحوه کارکرد یادگیری ماشین، نیازمند شناخت داده‌ها می‌باشد و به همین خاطر، در ادامه به بررسی موضوعاتی همچون «مجموعه‌داده» (Dataset) و انواع داده ها در یادگیری ماشین می‌پردازیم.

تصویر چرخ دنده ای در میانه تصویر با چند گراف و نمودار اطراف آن که نشان دهنده نقش انواع داده در یادگیری ماشین است

مجموعه داده چیست؟

برای درک بهتر مفهوم مجموعه‌داده و همچنین تشریح انواع داده ها در یادگیری ماشین، ابتدا لازم است تا اجزاء مختلف مجموعه‌داده را بشناسیم. به هر سطر از کل مجموعه‌داده، یک «نمونه» (Instance) گفته می‌شود؛ در واقع هر مجموعه‌داده، کلکسیونی از نمونه‌ها با یک ویژگی مشترک است. در کاربردهای حقیقی و به‌طور معمول، از بیش از یک مجموعه‌داده به عنوان ورودی سیستم‌های یادگیری استفاده می‌شود. مدل‌های یادگیری ماشین، از طریق «مجموعه آموزشی» (Training Set) که قسمتی از مجموعه‌داده اصلی است، نحوه اجرای فعالیت‌های مورد نظر را یاد می‌گیرند. پس از فرایند آموزش و برای اطمینان از تفسیر دقیق داده‌ها، عملکرد مدل یادگیری ماشین نسبت به قسمت دیگری از مجموعه‌داده با عنوان «مجموعه اعتبارسنجی» (Validation Set) یا «مجموعه آزمایشی» (Testing Set) مورد ارزیابی قرار می‌گیرد.

نماد مجموعه داده و آیکون های مینیمالی که انواع داده ها را نشان می دهنده - مجموعه داده چیست

پس از آموزش دادن مدل با مجموعه آموزشی و اطمینان حاصل کردن از عملکرد آن در مقابل مجموعه اعتبارسنجی، سایر مجموعه‌داده‌های گردآوری شده نیز به مدل یادگیری ماشین ارائه می‌شوند. هر چه مدل با داده‌های بیشتری روبه‌رو شود، دقت آن در شناسایی درست نمونه‌های جدید افزایش پیدا می‌کند.

چگونه انواع داده ها را با فرادرس یاد بگیریم؟

فیلم های آموزش یادگیری ماشین مرتبط با فرادرس

درک انواع داده ها در حوزه یادگیری ماشین از اهمیت ویژه‌ای برخوردار است. داده‌ها نقش محرک اصلی آموزش مدل‌های یادگیری ماشین را بر عهده دارند و نوع آن‌ها می‌تواند بر کیفیت و عملکرد این مدل‌ها تاثیر بگذارد. برای شروع یادگیری انواع داده ها، ابتدا باید با دو دسته اصلی یعنی داده‌های «عددی» و «طبقه‌بندی شده» (Categorical) آشنا شوید. داده‌های عددی شامل مقادیر پیوسته و گسسته‌ای هستند که در مسائلی مانند رگرسیون کاربرد دارند. از طرف دیگر، داده‌های طبقه‌بندی شده به موجودیت‌ها یا ویژگی‌هایی اشاره دارند که در دسته‌ها یا گروه‌های مختلفی قرار گرفته و در مسائل «طبقه‌بندی» (Classification) به‌کار می‌روند.

سپس لازم است تا با انواع دیگر داده‌ها از نظر نوع محتوا مانند داده‌های «سری زمانی» (Time Series) و داده‌های «متنی» آشنا شوید. توجه داشته باشید که هر کدام از انواع داده‌ها، ویژگی و کاربردهای خاص خود را دارد که شناخت آن‌ها برای پیاده‌سازی مناسب الگوریتم‌های یادگیری ماشین امری ضروری است. اگر به این مبحث علاقه‌مند هستید، می‌توانید از فیلم های آموزشی فرادرس که در همین رابطه تهیه شده‌اند بهره بگیرید. مشاهده این فیلم ها به ترتیبی که در ادامه آورده شده است به شما پیشنهاد می‌شود.

همچنین، چنانچه قصد دارید آموخته‌های خود را با استفاده از ابزارهایی مانند زبان برنامه‌نویسی پایتون، R و «متلب» (MATLAB) در حوزه یادگیری ماشین محک بزنید، می‌توانید فیلم های آموزشی جامع و مرتبط فرادرس را از طریق لینک‌های زیر مشاهده کنید.

انواع داده ها در یادگیری ماشین

با این وجود که داده می‌تواند شکل‌های مختلفی داشته باشد، انواع داده ها در یادگیری ماشین به چهار گروه اصلی تقسیم می‌شوند. چهار گروه شامل داده‌های «عددی»، داده‌های «طبقه‌بندی شده»، «داده‌های سری زمانی» و «داده‌های متنی» که در ادامه این مطلب از مجله فرادرس، با هر کدام بیشتر آشنا می‌شویم.

انواع مختلف داده ها در یادگیری ماشین
انواع مختلف داده‌ها در یادگیری ماشین

داده های عددی

همان‌طور که از نام آن مشخص است، داده‌های «Numerical» که با عنوان داده‌های «کمی» (Quantitative) نیز شناخته می‌شوند، شامل نمونه‌هایی هستند که ماهیت عددی دارند. نمونه‌هایی که به عنوان بخشی از انواع داده ها در یادگیری ماشین بسیار کاربرد داشته و در قالب معیار اندازه‌گیری مانند قیمت خانه یا شمارش، مانند تعداد ساکنان محله یا تعداد خانه‌های به فروش رفته در سال گذشته، معنی و مفهوم پیدا می‌کنند. داده‌های عددی به دو گروه «پیوسته» (Continuous) و «گسسته» (Discrete) تقیسم می‌شوند. برای داده‌هایی با نوع پیوسته، هر مقداری در یک بازه مشخص قابل پذیرش است؛ در حالی که، داده‌های گسسته تنها شامل مقادیر متمایز یا همان اعداد حسابی می‌شوند.

انواع داده های عددی در یادگیری ماشین
انواع داده‌های عددی در یادگیری ماشین

به عنوان مثال، تعداد دانشجوهای یک کلاس از نوع گسسته است. چرا که تنها مقادیری مانند ۱۰، ۲۵ یا ۳۳، قابل قبول و منطقی هستند. کلاسی با تعداد ۱۲/۷۵ دانشجو وجود ندارد. یک دانشجو یا عضو کلاس هست یا نیست. از طرفی دیگر، داده‌های پیوسته از هر عددی در یک بازه مشخص پشتیبانی می‌کنند. به عنوان مثال، ممکن است نمره دانشجویی ۸۸/۲۵ شده باشد؛ مقدار عددی که در بازه ۰ تا ۱۰۰ قرار دارد.

داده های طبقه بندی شده

این نوع از داده‌ها، یعنی داده‌های طبقه‌بندی شده، برخی از ویژگی‌ها را به نمایش می‌گذارند. مانند موقعیت مکانی یک بازیکن فوتبال، داده‌های طبقه‌بندی شده نیز ممکن است شامل مقادیر عددی باشند. به عنوان مثال، اگر کلاس هدف ما شامل دو رنگ قرمز و آبی باشد، می‌توانیم به ترتیب مقادیر عددی ۱ و ۲ را به هر کدام اختصاص دهیم. اما این اعداد، مفهوم ریاضیاتی نداشته و نمی‌توانیم آن‌ها را با یک‌دیگر جمع کرده یا میانگین بگیریم.

مقایسه انواع داده ترتیبی و اسمی
مقایسه انواع داده ترتیبی و اسمی

وقتی صحبت از برچسب کلاسی می‌شود، منظور همان داده‌های طبقه‌بندی شده است. به عنوان مثال، زن یا مرد و همچنین مسکونی یا تجاری، دو مورد از برچسب‌هایی هستند که برای جنسیت و کاربرد ملک استفاده می‌شوند. همانند داده‌های عددی، این دست از داده‌ها نیز به دو نوع «ترتیبی» (Ordinal) و «اسمی» (Nominal) تقسیم می‌شوند. داده‌های ترتیبی، در واقع ترکیبی از داده‌های عددی و طبقه‌بندی شده هستند. یکی از انواع داده ها در یادگیری ماشین که در آن، نمونه‌ها هم ترتیب داشته و هم در گروه‌های مجزا قرار می‌گیرند. سطح کلاس که با عناوینی مانند «مبتدی»، «متوسط» و «پیشرفته» تعریف می‌شود، از جمله داده‌های ترتیبی به‌شمار می‌آید. به این صورت، علاوه‌بر مشخص بودن برچسب‌ها، هر کلاس نیز مطابق با سطح دشواری مرتب می‌شود.

مثال سطح کلاسی در داده های ترتیبی
مثال سطح کلاسی در داده‌های ترتیبی

تنها تفاوت داده‌های اسمی با داده‌های ترتیبی در نبود نظم یا ترتیبی خاص است. کشور محل تولد و مدرک تحصیلی افراد، دو مورد از مثال‌هایی است که برای داده‌های اسمی مطرح می‌شود.

داده های سری زمانی

دنباله‌ای از اعداد که در بازه زمانی مشخص و با فواصل منظم جمع‌آوری شده‌اند، داده‌های «سری زمانی» نام دارند. این قبیل از داده‌ها در کاربردهایی همچون امور مالی بسیاری حائز اهمیت هستند. همواره و برای دنبال کردن الگوهای تغییر، نوعی مقدار زمانی مانند تاریخ، به این نوع از داده‌ها پیوست شده است.

مثال انواع داده سری زمانی
نمودار تغییر سالانه قیمت ملک در کشور کانادا

مسئله تعداد خانه‌های فروش رفته در سال را در نظر بگیرید. برخلاف نوع عددی، داده‌های سری زمانی بر اساس زمان مرتب شده‌اند. به بیان ساده‌تر، اولین و آخرین نمونه داده جمع‌آوری شده مشخص است.

داده های متنی

در حقیقت، داده‌های «متنی» همان واژگان هستند. اغلب، اولین کاری که هنگام پردازش داده‌های متنی انجام می‌شود، تبدیل نمونه‌ها به معادل عددی آن‌ها، با استفاده از نوعی تابع مانند «کیسه واژگان» (Bag of Words) است. هدف از کار با داده‌های متنی، در فهم موضوع کلی متن و ارتباط میان واژگان مختلف یک جمله خلاصه می‌شود.

انواع داده متنی در یادگیری ماشین

باید به این نکته توجه داشت که نوع الگوریتم‌های استفاده شده در «مهندسی ویژگی» (Feature Engineering) و مدل‌سازی، وابستگی زیادی به نوع داده‌ها داشته و به همین خاطر، درک انواع داده ها در یادگیری ماشین، قدمی لازم و ضروری است. برای آشنایی بیشتر با انواع داده‌ها و بررسی شاخص‌‌های آماری، مطالعه مطلب زیر را از مجله فرادرس پیشنهاد می‌کنیم.

منابع دسترسی به مجموعه داده ها

پس از آشنایی با انواع داده ها در یادگیری ماشین، باید برای مسئله مورد نظر خود به‌دنبال مجموعه‌داده مناسب باشیم. امروزه منابع بسیاری برای دسترسی به مجموعه‌داده‌های مختلف وجود دارد؛ اما در ادامه، به معرفی چهار مورد از مشهورترین این منابع می‌پردازیم.

محبوب ترین منابع مجموعه داده برای یادگیری ماشین
منابع رایج مجموعه‌داده‌ها در یادگیری ماشین

موتور جستجوی مجموعه داده شرکت گوگل

شرکت «گوگل» (Google) در سپتامبر سال ۲۰۱۸، موتور جستجویی برای پیدا کردن مجموعه‌داده‌ها «+» منتشر کرد. از این ابزار می‌توانید برای مشاهده گستره وسیعی از مجموعه‌داده‌ها در موضوعات مختلفی همچون آب‌وهوا و بازار مسکن استفاده کنید. پس از وارد کردن عبارت جستجو، مجموعه‌داده‌های مرتبط همراه با اطلاعاتی از قبیل تاریخ انتشار، نوع داده‌ها و لینک مرجع به شما نمایش داده می‌شود. این موتور جستجو، ابزاری محبوب برای یافتن انواع مجموعه داده ها در یادگیری ماشین است.

وب سایت Google Dataset Search
وب‌سایت Google Dataset Search - «برای بزرگ‌نمایی کلیک کنید»

مجموعه داده های شرکت مایکروسافت

شرکت مایکروسافت یکی دیگر از پیشتازان حوزه فناوری است که پایگاه داده‌ای رایگان از مجموعه‌داده‌ها، با عنوان Microsoft Research Open Data «+» ایجاد کرده است. این مجموعه‌داده‌ها در دسترس عموم قرار داشته و در زمینه‌هایی مانند «پردازش زبان طبیعی» (Natural Language Processing | NLP) و «بینایی ماشین» کاربرد دارند. برای استفاده از این مجموعه‌داده‌ها، هم می‌توانید آن‌ها را دانلود کرده و هم به‌طور مستقیم در پلتفرم‌های ابری بارگذاری کنید.

وب سایت Microsoft Research Open Data
وب‌سایت Microsoft Research Open Data - «برای بزرگ‌نمایی روی تصویر کلیک کنید»

مجموعه داده های شرکت آمازون

از «سرویس‌های وب آمازون» به عنوان یکی از بزرگ‌ترین پلتفرم‌های محاسبات ابری در جهان یاد می‌شود. از آنجا که حجم زیادی از داده‌ها بر روی سرور‌های شرکت آمازون ذخیره شده‌اند، مجموعه‌داده‌های بسیاری نیز از طریق سرویس AWS «+» در دسترس هستند. استفاده از این ابزار آسان بوده و تنها با وارد کردن موضوع مجموعه‌داده‌ای که به‌دنبال آن هستید، توصیفی کوتاه و دیگر اطلاعات مورد نیاز در اختیار شما قرار می‌گیرد.

وب سایت Registry of Open Data on AWS
وب‌سایت Registry of Open Data on AWS - «برای بزرگ‌نمایی روی تصویر کلیک کنید»

مجموعه داده های UCI

دانشکده علوم کامپیوترِ دانشگاه کالیفرنیا، از طریق پایگاه داده‌ای با عنوان UCI Machine Learning Repository «+»، حجم عظیمی از اطلاعات را در اختیار عموم مردم قرار داده است. تعداد بیش از ۶۰۰ مجموعه‌داده، پایگاه داده UCI را به گزینه‌ای محبوب در میان پژوهشگران حوزه یادگیری ماشین تبدیل کرده است. در این ابزار، نه تنها فرایند جستجو راحت است، بلکه مجموعه‌داده‌ها نیز بر اساس نوع مسئله یادگیری ماشین طبقه‌بندی شده‌اند.

وب‌سایت UCI Machine Learning Repository - «برای بزرگ‌نمایی روی تصویر کلیک کنید»

جمع‌بندی

توجه به داده در یادگیری ماشین بسیار مهم است؛ چرا که تنها پس از آشنایی با انواع داده‌ها و همچنین نحوه استفاده موثر از آن‌ها است که به نتیجه مطلوب می‌رسیم. همان‌طور که در این مطلب از مجله فرادرس خواندیم، کار کردن با داده‌ها نیازمند کسب مهارت در زمینه علم داده و دارا بودن درک عمیقی از انواع داده ها در یادگیری ماشین است. دانشی که هر صنعتی را قادر می‌سازد تا علاوه‌بر تحلیل عملکرد کوتاه‌مدت، استراتژی‌های بلند‌مدتی نیز برای بازدهی بیشتر توسعه دهد.

بر اساس رای ۰ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
Towards Data ScienceTowards AIDataRobot
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *