داده کاوی — آشنایی با مفهوم نمونه و ویژگی

۳۰۳ بازدید
آخرین به‌روزرسانی: ۲۵ اردیبهشت ۱۴۰۲
زمان مطالعه: ۲ دقیقه
داده کاوی — آشنایی با مفهوم نمونه و ویژگی

داده‌کاوی نیز مانند هر دانش دیگری دارای لغات و اصطلاحات مختص به خود است. از آنجا که این زمینه میان رشته‌ای محسوب می‌شود، واژگان گوناگونی از علوم دیگر به آن آمده‌اند که گاه همان معنای اصلی خود را حفظ کرده‌اند و گاه با مفهومی ویژه این حوزه به کار می‌روند. مساله دیگر آن است که (اغلب به واسطه میان رشته‌ای بودن داده‌کاوی) برخی مواقع برای یک مفهوم واحد واژگان زیادی وجود دارد که از علوم مختلف آمده‌اند و همه به یک مفهوم واحد اشاره دارند.

افرادی که کتب، مقالات و ویدئوهای آموزشی (چه به زبان انگلیسی و چه فارسی) این حوزه را دنبال کرده‌اند با برخی از این واژگان آشنا هستند. اما در بیشتر مواقع برای درک معانی آن‌ها دچار سردرگمی می‌شوند. در این مطلب، این لغات و اصطلاحات مورد بررسی قرار خواهند گرفت. چنانچه واضح است داده‌کاو طی فرآیند داده‌کاوی با یک مجموعه داده سر و کار دارد.

مجموعه داده می‌تواند به صورت یکی از انواع پایگاه داده (ساختار یافته، ساختار نیافته و پایگاه داده‌های تراکنشی) و یا انبار داده باشد. چیزی که می‌توان گفت در کلیه مجموعه داده‌ها مشابه است، «سطرها» (raw) و «ستون‌ها» (Columns) سازنده آن هستند. آنچه که کارشناسان پایگاه داده به آن سطر و یا رکورد (record) می‌گویند، از دیدگاه کارشناسان آمار یک نمونه (هر سه واژه انگلیسی Instance ،Sample و Example برای آن به کار می‌رود) به همراه «خصیصه‌های» (Attribute) مربوط به آن است.

این در حالیست که در جوامع داده‌کاوی از عبارات شی (object) و نقطه داده (data point) برای داده‌ای که توسط خصیصه‌ها توصیف می‌شود استفاده می‌کنند. استفاده از واژه نمونه نیز در میان داده‌کاوان متداول است. در مقالات و کتب این حوزه کلیه اصطلاحات به ویژه مواردی که در جوامع آماری و داده‌کاوی متداول است، استفاده می‌شوند.

مجموعه داده

اما یک نمونه حقیقتا چیست؟ مجموعه داده‌ای مفروض است که در آن داده‌های مربوط به هزار نفر از مراجعان یک کلینیک وجود دارد. برای هر یک از مراجعان، شناسه، جنسیت، سن، قد، وزن، گوشت‌خوار بودن یا نبودن، گیاه‌خوار بودن یا نبودن، داشتن/نداشتن تمرینات ورزشی روزانه و سابقه ژنتیکی ابتلا به فشار خون موجود است.

یک نمونه (شی) داده در این مجموعه، داده «مراجع ۷۷» است و این نمونه به همراه خصیصه‌هایی که آن را تعریف می‌کنند (و به صورت زیر هستند) یک «تاپل داده» (data tuple) محسوب می‌شود.

شناسهجنسیتسنقدوزنگوشت‌خوارگیاه‌خوارتمرینات ورزشی روزانهسابقه ارثی
مراجع ۷۷زن۲۹۱۶۲۵۵بلیخیربلیندارد

اما همانطور که مشخص است هر یک از ستون‌ها نامی اختصاصی دارند که بیانگر مفهوم نوع داده‌های موجود در این ستون‌ها است. خصیصه، «ویژگی» (Feature) و «متغیر» (Variable) کلماتی هستند که برای بیان این عناوین و مفهومی که در بردارند به کار می‌روند. در واقع، یک خصیصه یا ویژگی، توصیفی در یک زمینه خاص از نمونه ارائه می‌کند. برای مثال برای مراجع ۷۷، سن و قد دو خصیصه‌ای هستند که توصیفی درباره آن در اختیار داده‌کاو قرار می‌دهند. مقادیر مشاهده شده برای هر خصیصه یک نمونه، را «مشاهدات» گویند.

انبار داده

کارشناسان انبار داده (Data warehouse) برای این خصیصه‌ها از واژه بُعد (Dimension) استفاده می‌کنند. یکی از مراحل فرآیند داده‌کاوی، انتخاب و استخراج ویژگی است که از آن با عنوان کاهش ابعاد نیز یاد می‌شود. زیرا طی این فرآیند، تعداد ویژگی‌هایی که یک نمونه را توصیف می‌کنند تحت شرایطی خاص کاهش پیدا می‌کند.

برای نمونه‌هایی با بیش از دو بُعد از اصطلاح مجموعه داده چندبُعدی استفاده می‌شود. در مسائلی که مجموعه داده دارای تعداد ویژگی‌های بسیار زیادی است، از راهکارهای ویژه داده‌های ابعاد بالا (High Dimensional Data) استفاده می‌شود.

اگر نوشته بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *