داده کاوی – آشنایی با مفهوم نمونه و ویژگی

۷۵۲

۱۴۰۲/۰۲/۲۵

۲ دقیقه

PDF

آموزش متنی جامع

داده‌کاوی نیز مانند هر دانش دیگری دارای لغات و اصطلاحات مختص به خود است. از آنجا که این زمینه میان رشته‌ای محسوب می‌شود، واژگان گوناگونی از علوم دیگر به آن آمده‌اند که گاه همان معنای اصلی خود را حفظ کرده‌اند و گاه با مفهومی ویژه این حوزه به کار می‌روند. مساله دیگر آن است که (اغلب به واسطه میان رشته‌ای بودن داده‌کاوی) برخی مواقع برای یک مفهوم واحد واژگان زیادی وجود دارد که از علوم مختلف آمده‌اند و همه به یک مفهوم واحد اشاره دارند.

افرادی که کتب، مقالات و ویدئوهای آموزشی (چه به زبان انگلیسی و چه فارسی) این حوزه را دنبال کرده‌اند با برخی از این واژگان آشنا هستند. اما در بیشتر مواقع برای درک معانی آن‌ها دچار سردرگمی می‌شوند. در این مطلب، این لغات و اصطلاحات مورد بررسی قرار خواهند گرفت. چنانچه واضح است داده‌کاو طی فرآیند داده‌کاوی با یک مجموعه داده سر و کار دارد.

فیلم آموزش متن‌کاوی در فرادرس

کلیک کنید

مجموعه داده می‌تواند به صورت یکی از انواع پایگاه داده (ساختار یافته، ساختار نیافته و پایگاه داده‌های تراکنشی) و یا انبار داده باشد. چیزی که می‌توان گفت در کلیه مجموعه داده‌ها مشابه است، «سطرها» (raw) و «ستون‌ها» (Columns) سازنده آن هستند. آنچه که کارشناسان پایگاه داده به آن سطر و یا رکورد (record) می‌گویند، از دیدگاه کارشناسان آمار یک نمونه (هر سه واژه انگلیسی Instance ،Sample و Example برای آن به کار می‌رود) به همراه «خصیصه‌های» (Attribute) مربوط به آن است.

این در حالیست که در جوامع داده‌کاوی از عبارات شی (object) و نقطه داده (data point) برای داده‌ای که توسط خصیصه‌ها توصیف می‌شود استفاده می‌کنند. استفاده از واژه نمونه نیز در میان داده‌کاوان متداول است. در مقالات و کتب این حوزه کلیه اصطلاحات به ویژه مواردی که در جوامع آماری و داده‌کاوی متداول است، استفاده می‌شوند.

مجموعه داده

اما یک نمونه حقیقتا چیست؟ مجموعه داده‌ای مفروض است که در آن داده‌های مربوط به هزار نفر از مراجعان یک کلینیک وجود دارد. برای هر یک از مراجعان، شناسه، جنسیت، سن، قد، وزن، گوشت‌خوار بودن یا نبودن، گیاه‌خوار بودن یا نبودن، داشتن/نداشتن تمرینات ورزشی روزانه و سابقه ژنتیکی ابتلا به فشار خون موجود است.

فیلم آموزش انتخاب‌ویژگی در داده‌کاوی در فرادرس

کلیک کنید

یک نمونه (شی) داده در این مجموعه، داده «مراجع ۷۷» است و این نمونه به همراه خصیصه‌هایی که آن را تعریف می‌کنند (و به صورت زیر هستند) یک «تاپل داده» (data tuple) محسوب می‌شود.

شناسه	جنسیت	سن	قد	وزن	گوشت‌خوار	گیاه‌خوار	تمرینات ورزشی روزانه	سابقه ارثی
مراجع ۷۷	زن	۲۹	۱۶۲	۵۵	بلی	خیر	بلی	ندارد

اما همانطور که مشخص است هر یک از ستون‌ها نامی اختصاصی دارند که بیانگر مفهوم نوع داده‌های موجود در این ستون‌ها است. خصیصه، «ویژگی» (Feature) و «متغیر» (Variable) کلماتی هستند که برای بیان این عناوین و مفهومی که در بردارند به کار می‌روند. در واقع، یک خصیصه یا ویژگی، توصیفی در یک زمینه خاص از نمونه ارائه می‌کند. برای مثال برای مراجع ۷۷، سن و قد دو خصیصه‌ای هستند که توصیفی درباره آن در اختیار داده‌کاو قرار می‌دهند. مقادیر مشاهده شده برای هر خصیصه یک نمونه، را «مشاهدات» گویند.

انبار داده

کارشناسان انبار داده (Data warehouse) برای این خصیصه‌ها از واژه بُعد (Dimension) استفاده می‌کنند. یکی از مراحل فرآیند داده‌کاوی، انتخاب و استخراج ویژگی است که از آن با عنوان کاهش ابعاد نیز یاد می‌شود. زیرا طی این فرآیند، تعداد ویژگی‌هایی که یک نمونه را توصیف می‌کنند تحت شرایطی خاص کاهش پیدا می‌کند.

فیلم آموزش کلان‌داده و پایگاه‌داده NOSQL در فرادرس

کلیک کنید

برای نمونه‌هایی با بیش از دو بُعد از اصطلاح مجموعه داده چندبُعدی استفاده می‌شود. در مسائلی که مجموعه داده دارای تعداد ویژگی‌های بسیار زیادی است، از راهکارهای ویژه داده‌های ابعاد بالا (High Dimensional Data) استفاده می‌شود.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

اگر نوشته بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۵ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

مطالب مرتبط