داده‌ها ابزار کار در «یادگیری ماشین» (Machine Learning) هستند، در نتیجه نحوه جمع‌آوری و به‌کارگیری آن‌ها مهم است. «نمونه‌گیری» (Sampling) روشی آماری برای جمع‌آوری مشاهدات از یک جامعه آماری است. یک نمونه یا به منظور برآورد پارامترهای مجهول به کار می‌رود و یا جهت شناخت بهتر جامعه آماری به کار گرفته می‌شود. برای آشنایی بیشتر با مفهوم جامعه آماری و نمونه آماری بهتر است مطلب جامعه آماری — انواع داده و مقیاس‌های آن‌ها را مطالعه کنید.

در مقابل نمونه‌گیری، روش «بازنمونه‌گیری» (Re-sampling) براساس نمونه موجود، سعی در برآورد بهتر پارامترهای جامعه آماری و یا محاسبه خطای برآوردگر می‌کند. هر دو روش نمونه‌گیری و باز‌نمونه‌گیری برای حل مسائل مدل‌سازی به کار گرفته می‌شوند. در این مطلب با این دو مفهوم بیشتر آشنا شده و کاربرد آن‌ها را در یادگیری ماشین مرور می‌کنیم.

نمونه‌گیری آماری

خصوصیات یا ویژگی‌های یک عضو از جامعه آماری را در نظر بگیرید. مقدارهای این خصوصیات را برای آن عضو، «مقدار مشاهده شده» (Observation) می‌نامیم. در صورتی که همه اعضای جامعه آماری قابل مشاهده و اندازه‌گیری باشند، می‌توان از روش سرشماری برای جمع‌آوری داده‌‌ها استفاده کرد. زمانی که هدف، بررسی جامعه آماری با استفاده از مشاهدات آن است، احتمال دارد امکان دسترسی به همه این مشاهدات برای اعضای جامعه آماری فراهم نباشد. دلیل چنین امری می‌تواند یکی از موارد زیر باشد:

  • هزینه زیاد برای اندازه‌گیری خصوصیات یا ویژگی‌های اعضای جامعه آماری
  • زمان زیاد برای اندازه‌گیری همه ویژگی‌ها برای جامعه آماری
  • از بین رفتن اعضای جامعه آماری در زمان اندازه‌گیری ویژگی (تعیین زمان سوختن یک لامپ)
  • نامتناهی بودن جامعه آماری

ممکن است تعداد زیادی مشاهدات از جامعه آماری به روشی ساده و ارزان در اختیارمان قرار داشته باشد ولی از آنجایی که به همه جامعه آماری دسترسی نداشته‌ایم، این مجموعه مشاهدات، یک نمونه از جامعه محسوب می‌شوند.

statistical inference
جامعه آماری و برآورد پارامترهای آن

به کمک یک نمونه آماری مناسب، با صرف زمان و هزینه کم، قادر هستیم پارامترهای جامعه آماری را برآورد کرده و آن را بهتر بشناسیم.

نمونه‌گیری

روش نمونه‌گیری، فرآیندی است که به کمک آن زیرمجموعه‌ای از جامعه آماری تهیه می‌شود. این کار به منظور شناخت یا برآورد پارامترهای جامعه آماری صورت می‌گیرد. قبل از تهیه نمونه از جامعه آماری بهتر است به نکات زیر توجه کنیم:

  • هدف از نمونه‌گیری: برآورد خصوصیات جامعه آماری براساس نمونه
  • جامعه آماری: دامنه و حوزه‌ای که بررسی موضوع تحقیق را نشان می‌دهند.
  • تعیین محدودیت: تعیین معیاری برای انتخاب اعضای جامعه آماری در نمونه
  • حجم نمونه: تعداد اعضای انتخابی از جامعه آماری در نمونه

خطا در برآورد

از آنجایی که به جای استفاده از جامعه آماری، نمونه آماری به کار گرفته شده است، برآورد پارامتر جامعه با خطا همراه است. این خطا از دو دیدگاه بررسی می‌شود. «اُریبی» (Bias) و «خطای نمونه‌گیری» (Sampling Error).

  • اُریبی: این خطا به علت تمایل نمونه به یک سمت از جامعه آماری است. این میزان خطا نشان می‌دهد که به طور متوسط برآوردگر با مقدار واقعی چقدر تفاوت دارد.
  • خطای نمونه‌گیری: از آنجایی که نمونه به صورت تصادفی از جامعه آماری انتخاب شده است، با انتخاب نمونه دیگر نیز مقدار برای پارامتر جامعه با مقدار دیگری برآورد می‌شود. خطای نمونه‌گیری نشان می‌دهد که واریانس این برآوردگر چقدر است. یعنی اگر چندین بار نمونه‌گیری انجام شود، به طور متوسط پراکندگی این برآوردها چقدر خواهد بود.

در نتیجه باید شیوه نمونه‌گیری به شکلی باشد که این دو خطا در آن کمترین حالت خود را داشته باشند. بنابراین شیوه‌های نمونه‌گیری متنوعی مانند «نمونه‌گیری تصادفی ساده» (Simple Random Sampling)، «نمونه‌گیری سیستماتیک» (Systematic Random Sampling)، «نمونه‌گیری طبقه‌ای» (Stratified Random Sampling) و «نمونه‌گیری خوشه‌ای» (Clustering Sampling) بوجود آمده‌اند تا الگویی صحیح برای انتخاب اعضای نمونه آماری ارائه دهند.

بازنمونه‌گیری

با استفاده از نمونه آماری، برآورد پارامتر جامعه امکان پذیر است. ولی این برآورد براساس یک نمونه تصادفی حاصل شده است و دقت آن اندازه‌گیری نشده. یک روش برای مشخص کردن دقت برآوردگر، بازنمونه‌گیری و برآورد پارامتر است. به این ترتیب چندین برآوردگر براساس هر نمونه تولید شده در روش بازنمونه‌گیری حاصل می‌شود و می‌توان واریانس یا دقت این برآوردگرها را محاسبه کرد. در حقیقت بازنمونه‌گیری روشی مقرون به صرفه با استفاده از یک نمونه، برای محاسبه دقت برآوردهای حاصل شده است.

RESAMPLING

روش‌های بازنمونه‌گیری ساده بوده و احتیاج به محاسبات طولانی ندارند. به عنوان مثال می‌توان به روش «جک‌نایف» (Jackknife)، «بوت‌استرپ» (Bootstrap) و همچنین «اعتبار سنجی متقابل» (K-fold Cross-validation) اشاره کرد.

  • جک‌نایف: از یک نمونه با حجم n، چندین نمونه با استفاده از حذف یک به یک عناصر تولید شده و برآوردیابی انجام می‌شود. میانگین برآوردگرهای تولید شده می‌تواند به عنوان برآوردگر جدید معرفی شده و خطای آن محاسبه شود.
  • بوت‌استرپ: از یک نمونه با حجم n چندین نمونه با جایگذاری، تهیه می‌شود. از این نمونه‌ها به عنوان مجموعه «داده آموزشی» (Learning Data) استفاده شده و برآورد پارامتر جامعه انجام می‌شود. از مابقی اعضایی که در باز‌نمونه‌گیری به کار نرفته‌اند به عنوان مجموعه «داده‌های آزمایشی» (Test Data) استفاده می‌شود.
  • روش اعتبار سنجی متقابل: در این روش نمونه با حجم n به k زیر نمونه تقسیم شده بطوری که در هر بار برآورد پارامتر، یکی از این زیر نمونه‌ها به عنوان داده آموزشی و مابقی به عنوان داده‌های آزمایشی به کار می‌روند. این روش امروزه برای ارزیابی مدل‌های پیش‌بینی به کمک آموزش ماشین به کار گرفته می‌شود.
5 FOLD CROSS VALIDATION
اعتبار سنجی متقابل با ۵ لایه

اگر به فراگیری مباحث مشابه مطلب بالا علاقه‌مند هستید، آموزش‌هایی که در ادامه آمده‌اند نیز به شما پیشنهاد می‌شوند:

^^

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

بر اساس رای 3 نفر

آیا این مطلب برای شما مفید بود؟

یک نظر ثبت شده در “نمونه‌ گیری و بازنمونه‌ گیری آماری (Sampling and Resampling) — به زبان ساده

  1. سلام
    سپاسگزارم استاد گرامی،مطلب برای من بسیار مفید بود،اگر ممکنه راههای ارتباطی باخودتون رو بفرمایید.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *