رسم تابع چگالی احتمال دو بعدی با پایتون – راهنمای کاربردی

۱۷۳۳

۱۴۰۲/۰۳/۹

۴ دقیقه

PDF

آموزش متنی جامع

امروزه با توجه به حجم وسیع داده‌ها و اطلاعاتی که روزانه تولید و به کار گرفته می‌شوند، تجزیه و تحلیل آن‌ها امری مهم به حساب می‌آید. یکی از مراحل تحلیل داده‌ها در «داده‌کاوی» (Data Mining) مرحله «نمایش داده‌ها» (Data Visualization) است که یک روش برای توصیف رفتار پدیده‌ها براساس مشاهدات و اندازه‌های جمع‌آوری شده است. یکی از تکنیک‌های معمول برای این کار، رسم «نمودار فراوانی» یا «هیستوگرام» (Histogram) است. زمانی که فراوانی‌ها یا تعداد مشاهدات در هر گروه را به صورت درصدی در هیستوگرام نشان دهیم، در حقیقت یک نمودار چگالی را رسم کرده‌ایم. در این نوشتار با نحوه رسم تابع چگالی احتمال دو بعدی با پایتون آشنا می‌شویم و برای سه سری داده دو بُعدی، تابع توزیع احتمال را برآورد کرده و نمودار آن را رسم خواهیم کرد. در حقیقت این نمودارها باید به صورت سه بعدی باشند تا بتوانند رفتار دو متغیر تصادفی (مستقل یا وابسته) را براساس مقدار چگالی احتمال نشان دهند. به همین علت نیز در انتهای متن نمودارهای سه بُعدی را شاهد خواهید بود.

فهرست مطالب این نوشته

رسم تابع چگالی احتمال دو بعدی با پایتون

پیش از شروع و برای درک راحت‌تر این نوشتار، بهتر است مطلب رسم نمودار در پایتون با Matplotlib — راهنمای کاربردی و رسم نمودار داده ها در پایتون — راهنمای تخصصی را مطالعه کنید. همچنین خواندن نوشتارهای توزیع های آماری — مجموعه مقالات جامع وبلاگ فرادرس و توزیع نرمال یک و چند متغیره — مفاهیم و کاربردها نیز خالی از لطف نیست.

رسم تابع چگالی احتمال دو بعدی با پایتون

معمولا برای بیان و توصیف رفتار پدیده‌های تصادفی از تابع احتمال (در حالت گسسته) یا تابع چگالی احتمال (در حالت پیوسته) استفاده می‌شود. در اینجا قصد داریم براساس داده‌های شبیه‌سازی شده، نمودار تابع چگالی داده‌های پیوسته را بوسیله «کرنل گوسی» (Gaussian Kernel) برآورد کرده و سپس ترسیم کنیم. در این بین از زبان برنامه‌نویسی پایتون و بعضی از توابع مربوط به کتابخانه Matplotlib استفاده خواهیم کرد.

فیلم آموزش تئوری‌ احتمالات در فرادرس

کلیک کنید

ابتدا به تولید ۳۰۰ مشاهده یا داده‌ها بوسیله شبیه‌سازی با تابع make_blobs می‌پردازیم. این تابع از توزیع نرمال چند متغیره آمیخته با میانگین و واریانس مشخص شده، داده تولید می‌کند. کدهای زیر به این منظور نوشته شده‌اند. واضح است که از هر گروه ۱۰۰ مشاهده ایجاد خواهد شد.

در انتها نیز نمودار نقطه‌ای (Dotplot) از این داده‌ها مشاهده می‌کنید. محور افقی و عمودی دو بعد داده‌ها را مشخص می‌کنند. مشخص است که گروه‌ها یا دسته‌های مجزایی از این نمونه‌ها تولید شده که البته واریانس متفاوتی نیز دارند. برای مثال واضح است که گروه یا دسته زرد رنگ، واریانس کوچکتری دارند در حالیکه گروه یا دسته بنفش، دارای واریانس بزرگتر و در نتیجه پراکندگی بیشتری هستند. متاسفانه چگالی احتمال یا فراوانی در این نمودار دیده نمی‌شود.

make_blobs and its plot

برای رسم نمودار تابع چگالی، احتیاج به برآورد تابع احتمال داریم. در ادامه، برآورد تابع چگالی این داده‌ها توسط روش کرنل گاوسی انجام خواهد شد. برای راحتی کار و نمایش مقدارها روی محورها، ابتدا مقدارها را برای هر بُعد استخراج کرده و سپس با استفاده از تابع np.mgrid و کرنل گاوسی در تابع np.reshape مقدار تابع چگالی برای داده‌های دو بعدی را تخمین می‌زنیم. ابتدا عمل تفکیک ابعاد داده‌ها را به کمک کد زیر انجام می‌دهیم.

حال که به داده‌های دو بُعدی دسترسی داریم لازم است که براساس آن‌ها تابع چگالی را با کتابخانه gaussian_kde تخمین بزنیم.

برای نمایش تابع چگالی حاصل از برآورد کرنل از نمودار کانتور (Contout Plot) استفاده می‌کنیم. کد زیر به این منظور نوشته شده است.

در نتیجه نموداری به صورت زیر ظاهر خواهد شد.

contour plot of bivariate mixture normal distribution

البته برای نمایش نمودار به صورتی دیگر از quadcontour استفاده می‌کنیم که توسط تابع cset مشخص می‌شود. برای دسترسی به هر قطعه از نمودار کانتور از متغیر allsegs بهره می‌گیریم که براساس اندیس $j$ امکان دسترسی به هر لایه از نمودار کانتور را فراهم می‌کند. کدی که در زیر مشاهده می‌کنید، نمودار کانتوری را رسم می‌کند که هر لایه از آن در راهنمای نمودار ظاهر می‌شود.

نمودار حاصل از اجرای این کد به صورت زیر خواهد بود.

quad contour plot

در گام بعدی با استفاده از یک نمودار سه بُعدی نمودار تابع چگالی برای داده‌های تولید شده ترسیم می‌کنیم. در این حالت از آنجایی که برای برآورد تابع چگالی کرنل گاوسی را به کار گرفته‌ایم، نمودار حاصل را «برآورد کرنل تابع چگالی» (Kernel Density Estimation) یا به اختصار KDE می‌نامیم. در اینجا از تابع surface مربوط به کتابخانه matplotlib استفاده کرده‌ایم.

نمودار ترسیم شده توسط این کد در زیر دیده می‌‌شود.

3d surface plot

واضح است که در این نمودار، محور X و Y مربوط به دو بعد داده‌ها هستند و محور Z نیز همان تابع چگالی را نشان می‌دهد. از آنجایی که داده‌ها از توزیع نرمال تولید شده بودند، انتظار داریم که نمودار تابع چگالی آمیخته نیز به صورت سه نمودار توزیع نرمال دو متغیره (‌به حالت کله قند) درآید که البته این اتفاق هم افتاده است.

فیلم آموزش آزمون‌های نیکویی‌برازش با EasyFit در فرادرس

کلیک کنید

برای مقایسه بهتر و دیدی متفاوت از نمودار بعدی از «خطوط سه بعدی» (Wireframe Plot) استفاده کرده‌ایم. برای انجام این کار از دستورات زیر کمک گرفته‌ایم.

wireframe plot for 2d kde

در انتها نیز با استفاده از یک نمودار گرمایی یا حرارتی (Heatmap) نموداری شبیه هیستوگرام دو بُعدی را ترسیم می‌کنیم. واضح است که در اینجا رنگ زرد نشانگر ارتفاع بیشتر در نمودار است. کد زیر نمودار مورد نظر را برایمان ترسیم می‌کند.

heatmap 2d histogram

اگر مطلب بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۸ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

مطالب مرتبط

SPSS چیست و چه کاربرد و ويژگی‌هایی دارد؟

توزیع توانی چیست؟ – به زبان ساده

ضریب تعیین چیست؟ – ضریب تشخیص به زبان ساده

آمار توصیفی چیست؟ – هر آنچه باید بدانید

ضریب پراکندگی چیست؟ – به زبان ساده + فرمول محاسبه

ضریب همبستگی پیرسون چیست؟ – نحوه محاسبه با مثال و تمرین

رگرسیون چیست؟ – توضیح به زبان ساده

توزیع احتمال چیست؟ – توضیح به زبان ساده با مثال

چارک چیست؟ – توضیح به زبان ساده با مثال

انحراف معیار چیست؟ – به زبان ساده با مثال

۲ دیدگاه برای «رسم تابع چگالی احتمال دو بعدی با پایتون – راهنمای کاربردی»

saeideh

۲۳ مهر، در ۱۴۰۱ ۳:۵۰ ب.ظ

در کد نوشته شده ارور زیر مشاهده میشود:

ModuleNotFoundError: No module named ‘sklearn.datasets.samples_generator’

پاسخ

بابک خوش‌نویس

۲۷ مهر، در ۱۴۰۱ ۱۲:۵۱ ب.ظ

با سلام و احترام؛

صمیمانه از همراهی شما با مجله فرادرس و ارائه بازخورد سپاس‌گزاریم.

این مورد بررسی شد. در نسخه جدید scikit-learn، دیگر ماژولی به نام «sklearn.datasets.samples_generator» وجود ندارد و این ماژول با «sklearn.datasets» جایگزین شده است. بنابراین در کدها باید در خط ۴ باید کدهای «from sklearn.datasets.samples_generator import make_blobs» را با «from sklearn.datasets import make_blobs» جایگزین کنید. البته این مورد اکنون در کدهای مطلب هم اصلاح شده است و با کپی کردن این کدها و اجرای آن‌ها دیگر خطایی وجود نخواهد داشت.

برای شما آرزوی سلامتی و موفقیت داریم.

نظر شما چیست؟

برچسب‌ها