داده کاوی — آشنایی با مفهوم نمونه و ویژگی
دادهکاوی نیز مانند هر دانش دیگری دارای لغات و اصطلاحات مختص به خود است. از آنجا که این زمینه میان رشتهای محسوب میشود، واژگان گوناگونی از علوم دیگر به آن آمدهاند که گاه همان معنای اصلی خود را حفظ کردهاند و گاه با مفهومی ویژه این حوزه به کار میروند. مساله دیگر آن است که (اغلب به واسطه میان رشتهای بودن دادهکاوی) برخی مواقع برای یک مفهوم واحد واژگان زیادی وجود دارد که از علوم مختلف آمدهاند و همه به یک مفهوم واحد اشاره دارند.
افرادی که کتب، مقالات و ویدئوهای آموزشی (چه به زبان انگلیسی و چه فارسی) این حوزه را دنبال کردهاند با برخی از این واژگان آشنا هستند. اما در بیشتر مواقع برای درک معانی آنها دچار سردرگمی میشوند. در این مطلب، این لغات و اصطلاحات مورد بررسی قرار خواهند گرفت. چنانچه واضح است دادهکاو طی فرآیند دادهکاوی با یک مجموعه داده سر و کار دارد.
مجموعه داده میتواند به صورت یکی از انواع پایگاه داده (ساختار یافته، ساختار نیافته و پایگاه دادههای تراکنشی) و یا انبار داده باشد. چیزی که میتوان گفت در کلیه مجموعه دادهها مشابه است، «سطرها» (raw) و «ستونها» (Columns) سازنده آن هستند. آنچه که کارشناسان پایگاه داده به آن سطر و یا رکورد (record) میگویند، از دیدگاه کارشناسان آمار یک نمونه (هر سه واژه انگلیسی Instance ،Sample و Example برای آن به کار میرود) به همراه «خصیصههای» (Attribute) مربوط به آن است.
این در حالیست که در جوامع دادهکاوی از عبارات شی (object) و نقطه داده (data point) برای دادهای که توسط خصیصهها توصیف میشود استفاده میکنند. استفاده از واژه نمونه نیز در میان دادهکاوان متداول است. در مقالات و کتب این حوزه کلیه اصطلاحات به ویژه مواردی که در جوامع آماری و دادهکاوی متداول است، استفاده میشوند.
اما یک نمونه حقیقتا چیست؟ مجموعه دادهای مفروض است که در آن دادههای مربوط به هزار نفر از مراجعان یک کلینیک وجود دارد. برای هر یک از مراجعان، شناسه، جنسیت، سن، قد، وزن، گوشتخوار بودن یا نبودن، گیاهخوار بودن یا نبودن، داشتن/نداشتن تمرینات ورزشی روزانه و سابقه ژنتیکی ابتلا به فشار خون موجود است.
یک نمونه (شی) داده در این مجموعه، داده «مراجع ۷۷» است و این نمونه به همراه خصیصههایی که آن را تعریف میکنند (و به صورت زیر هستند) یک «تاپل داده» (data tuple) محسوب میشود.
شناسه | جنسیت | سن | قد | وزن | گوشتخوار | گیاهخوار | تمرینات ورزشی روزانه | سابقه ارثی |
مراجع ۷۷ | زن | ۲۹ | ۱۶۲ | ۵۵ | بلی | خیر | بلی | ندارد |
اما همانطور که مشخص است هر یک از ستونها نامی اختصاصی دارند که بیانگر مفهوم نوع دادههای موجود در این ستونها است. خصیصه، «ویژگی» (Feature) و «متغیر» (Variable) کلماتی هستند که برای بیان این عناوین و مفهومی که در بردارند به کار میروند. در واقع، یک خصیصه یا ویژگی، توصیفی در یک زمینه خاص از نمونه ارائه میکند. برای مثال برای مراجع ۷۷، سن و قد دو خصیصهای هستند که توصیفی درباره آن در اختیار دادهکاو قرار میدهند. مقادیر مشاهده شده برای هر خصیصه یک نمونه، را «مشاهدات» گویند.
کارشناسان انبار داده (Data warehouse) برای این خصیصهها از واژه بُعد (Dimension) استفاده میکنند. یکی از مراحل فرآیند دادهکاوی، انتخاب و استخراج ویژگی است که از آن با عنوان کاهش ابعاد نیز یاد میشود. زیرا طی این فرآیند، تعداد ویژگیهایی که یک نمونه را توصیف میکنند تحت شرایطی خاص کاهش پیدا میکند.
برای نمونههایی با بیش از دو بُعد از اصطلاح مجموعه داده چندبُعدی استفاده میشود. در مسائلی که مجموعه داده دارای تعداد ویژگیهای بسیار زیادی است، از راهکارهای ویژه دادههای ابعاد بالا (High Dimensional Data) استفاده میشود.
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشوند:
^^