تولید مجموعه داده‌هایی با محتوای یکسان و نمودارهای متفاوت به کمک الگوریتم تبرید شبیه‌سازی‌شده

۱۲۱ بازدید
آخرین به‌روزرسانی: ۱۹ شهریور ۱۴۰۲
زمان مطالعه: ۵ دقیقه
تولید مجموعه داده‌هایی با محتوای یکسان و نمودارهای متفاوت به کمک الگوریتم تبرید شبیه‌سازی‌شده

بیان اهمیت بصری سازی داده‌ها کاری دشوار است. برخی افراد بر این باورند که نمودارها تنها تصاویری زیبا هستند و همه اطلاعات مهم را می‌توان از طریق تحلیل آماری استنباط کرد. ابزار کارآمدی که غالباً برای نمایش اهمیت بصری سازی داده‌ها استفاده می‌شود، نمودار چهار بخشی آنسکام (Anscome's Quartet) است که توسط اف. جی. آنسکام در سال 1973 ارائه شده است.

این نمودار چهار بخشی مجموعه‌ای از چهار دیتاست است که هر یک آمار توصیفی (میانگین، انحراف معیار، و همبستگی) یکسانی دارند. با این حال پس از بصری سازی (ترسیم) داده‌ها مشخص می‌شود که مجموعه داده‌ها به طرز متفاوتی نمایش می‌یابند.

کارآمدی نمودار چهار بخشی آنسکام به این دلیل نیست که صرفاً چهار مجموعه داده متفاوت با آمار یکسان دارد، بلکه دلیل آن این است که مجموعه داده‌های کاملاً متفاوت و از نظر بصری متمایز، مشخصات آماری یکسانی ارائه می‌کنند. برخلاف این وضعیت، «نمودار چهار بخشی ساخت نیافته» در سمت راست شکل زیر مشخصات آماری یکسانی با نمودار چهار بخشی آنسکام دارد؛ اما ساختار تشکیل دهنده مجموعه داده‌ها یکسان نیست و این نمودار چهار بخشی، میزان اهمیت بصری سازی داده‌ها را به خوبی نشان نمی‌دهد.

نمودار چهار بخشی آنسکام (چپ) و نمودار چهاربخشی ساخت نیافته (راست) که در آن مجموعه داده‌ها مشخصات آماری یکسانی با مجموعه داده‌های سمت چپ دارند؛ اما فاقد ساختار تشکیل دهنده یا تمایز بصری هستند.

با این که این نمودارهای چهار بخشی آنسکام برای نمایش اهمیت بصری سازی داده‌ها بسیار رایج و کارآمد هستند و بیش از 45 سال از معرفی آن‌ها می‌گذرد؛ اما مشخص نیست که آنسکام چگونه به این مجموعه داده‌ها دست یافته است. بنابراین ما اقدام به توسعه چارچوبی کردیم تا به چنین مجموعه داده‌هایی دست پیدا کنیم که در زمینه پاره‌ای مشخصات آماری، مقادیر یکسانی داشته باشند و در عین حال نمودارهای متمایزی را تولید کنند.

اخیراً آلبرتو کایرو یک مجموعه داده Datasaurus ایجاد کرده است تا افراد را قانع کند که «هرگز صرفاً به آمار توصیفی اتکا نکنند؛ و همواره در جهت بصری سازی داده‌ها اقدام نمایند.» در این مجموعه داده گرچه آمار توصیفی نرمالی مشاهده می‌شود؛ اما ترسیم داده‌ها تصویری از یک دایناسور را نمایش می‌دهد. ما با الهام گرفتن از نمودار چهار بخشی آنسکام و Datasaurus، مجموعه داده Datasaurus Dozen را ارائه کرده‌ایم (دانلود فایل CSV.) .

مجموعه داده‌های Datasaurus Dozen در عین حال که ظاهر متفاوتی دارند، اما هر مجموعه داده‌ها آمار توصیفی (میانگین، انحراف معیار، و همبستگی پیرسون) یکسانی تا دو رقم اعشار ارائه می‌کند.

این 13 مجموعه داده (Datasaurus به همراه 12 مجموعه داده دیگر) هر یک آمار توصیفی (میانگین، انحراف معیار و همبستگی پیرسون) یکسانی تا دو رقم اعشار دارند و در عین حال در هنگام ترسیم، نمودارهای متفاوتی تولید می‌کنند. این تحقیق روشی که برای تولید این مجموعه داده‌ها و انواع مشابه آن استفاده شده است را توضیح می‌دهد.

روش

بینش اصلی الهام‌بخش این رویکرد آن است که گرچه تولید مجموعه داده‌ای که مشخصات آماری مشخص داشته باشد، کار دشواری است؛ اما انتخاب یک مجموعه داده و اصلاح اندک آن برای رسیدن به آن مشخصات آسان است. بنابراین ما نقاطی تصادفی انتخاب کردیم، آن‌ها را اندکی تغییر دادیم و سپس بررسی کردیم که آیا مشخصات آماری از محدوده مورد نظر خارج شده است یا نه. در این مورد خاص می‌بایست مطمئن می‌شدیم که میانگین، انحراف معیار و همبستگی تا دو رقم اعشار در محدوده مشخص باقی می‌ماند)

با تکرار این فرایند «آشفتگی» به دفعات کافی، نتایج به صورت مجموعه داده‌ای کاملاً متفاوت ظاهر می‌شوند. با این حال همانطور که قبلاً اشاره کردیم برای این که این مجموعه داده‌ها ابزار کارآمدی برای نمایش اهمیت بصری سازی داده‌ها باشند، باید از نظر بصری متمایز و کاملاً متفاوت باشند. این وضعیت با سوق دادن حرکات نقاط تصادفی به سمت یک شکل خاص حاصل شده است. در انیمیشن زیر یک فرایند دارای 200،000 تکرار آشفتگی را نشان می‌دهیم که به سمت تشکیل یک دایره حرکت می‌کند:

تبدیل یک ابر تصادفی از نقاط به شکل یک دایره و در عین حال یکسان نگه داشتن مشخصات آماری

برای این که نقاط به سمت یک تشکیل یک شکل خاص حرکت کنند، می‌بایست پس از هر مرحله آشفتگی تصادفی بررسی‌هایی انجام دهیم. علاوه بر بررسی این که مشخصات آماری همچنان معتبر هستند، همچنین باید ببینیم که آیا نقاط به سمت تشکیل آن شکل خاص نزدیک شده‌اند یا نه. اگر هر دو شرایط برقرار باشند، موقعیت جدید پذیرفته می‌شود و به تکرار بعدی می‌رویم. برای کاهش احتمال این که در یک وضعیت بهینه موضعی قرار بگیریم و راه‌حل‌های بهینه کلی به شکل مورد نظر نزدیک‌تر باشند از تکنیک تبرید شبیه‌سازی‌شده استفاده کردیم که با پذیرش برخی راه‌حل‌ها که در آن‌ها نقاط در تکرارهای اولیه از شکل مطلوب فاصله می‌گیرند استفاده می‌شود. بدین ترتیب فراوانی چنین پذیرش‌هایی در طی زمان کاهش می‌یابد.

برای تولید Datasaurus Dozen 12 شکل ایجاد کردیم که نقطه‌ها را به سمت یکدیگر هدایت می‌کرد. هر یک از نمودارهای حاصل آمار توصیفی یکسانی با Datasaurus داشتند و در واقع همه فریم‌های میانی نیز چنین بودند. فرایند تبدیل Datasaurus به هر یک از این شکل‌ها را در ادامه می‌توانید مشاهده کنید. البته این تکنیک محدود به این شکل‌ها است و هر مجموعه‌ای از قطعات خط را می‌توان به عنوان یک هدف در نظر گرفت.

ایجاد همه مجموعه داده‌ها برای Datasaurus Dozen. ورودی‌ها مجموعه داده Datasaurus را در سمت چپ و یک مجموعه از شکل‌های هدف را در وسط نشان می‌دهند. تکرارهای منتهی به مجموعه داده نهایی در سمت راست نمایش یافته‌اند. همه مجموعه داده‌ها و همه فریم‌های انیمیشن آمار توصیفی یکسانی دارند (میانگین X برابر با 54.26، میانگین Y برابر با 47.83، انحراف معیار X برابر با 16.76، انحراف معیار Y برابر با 26.93، پیرسون برابر با 0.06)

با اجرای متوالی تکرارها بر روی مجموعه داده‌ها می‌توانیم ببینیم که نقاط داده‌ای از یک شکل به شکل دیگر تغییر می‌یابند و در عین حال مقادیر آمار توصیفی تا دو رقم اعشار در طی دوره کامل فرایند ثابت می‌مانند.

انیمیشن نشان دهنده پیشرفت مجموعه داده Datasaurus Dozen به سوی همه شکل‌های هدف.

نمونه‌های بیشتر

ما علاوه بر Datasaurus Dozen چند مجموعه داده نمونه دیگر نیز با استفاده از همین تکنیک اجرا کردیم. این نمونه‌ها با تفصیلات بیشتر در این مقاله توضیح داده شده‌اند و داده‌های آن‌ها را برای بصری سازی می‌توانید از اینجا دانلود نمایید.

یکی از جالب‌ترین مشخصه‌های تکنیک حاضر این است که آن را می‌توان برای بصری سازی نمودارهای پراکندگی غیر 2 بعدی و همچنین استفاده از مشخصات آماری فراتر از آمار توصیفی نیز به کار گرفت. در مثال زیر هر یک از مجموعه داده‌ها به صورت توزیع نرمالی از نقاط آغاز می‎شوند. نمودار جعبه‌ای زیر هر شکل یک «نمودار جعبه‌ای توکی» استاندارد است که مقادیر چارک نخست، میانه و چارک سوم را روی جعبه نمایش می‌دهد و میله‌ها موقعیت دورترین نقاط داده‌ای را درون محدوده 1.5 چارکی از چارک اول تا سوم نشان می‌دهند. نمودارهای جعبه‌ای به طور عمده برای نمایش توزیع مجموعه داده‌ها مورد استفاده قرار می‌گیرند و کارکرد آن‌ها بهتر از نمایش صرف مقادیر میانگین و میانه است. با این حال در اینجا می‌توانیم ببینیم که با تغییر نقاط، نمودار جعبه‌ای یکسان باقی می‌مانند.

سه توزیع متغیر 1-بعدی از داده‌ها که همگی بازنمایی نمودار جعبه‌ای یکسانی دارند.

روش دیگر برای نمایش توزیع 1-بعدی این است که یک مجموعه داده را در هفت دسته‌بندی (شکل زیر را ببینید). این داده‌ها در هر دسته در طی زمان تغییر انتقال می‌یابند که در نمایش داده‌های «خام» کاملاً به وضوح قابل مشاهده است، اما نمودارهای جعبه‌ای یکسان می‌مانند. نمودارهای ویولون روش بهتری نسبت به نمودار جعبه‌ای سنتی برای نمایش توزیع یک مجموعه داده با تفصیلات بیشتر است. این بدان معنی نیست که یک نمودار جعبه‌ای هرگز مناسب نخواهد بود؛ اما اگر می‌خواهید از یک نمودار جعبه‌ای استفاده کنید، ابتدا مطمئن شوید داده‌های تشکیل دهنده به ترتیبی توزیع یافته‌اند که اطلاعات مهم پنهان نمی‌مانند.

هفت توزیع داده‌ها که به ترتیب از چپ به راست به صورت نقاط خام داده‌ای (نمودارهای استریپ)، نمودارهای جعبه‌ای، و نمودارهای ویولون.

مجموعه داده‌ها و کد

مجموعه داده‌های ارائه شده در این صفحه (و در مقاله) برای دانلود موجود هستند. کد منبع پایتون را از اینجا می‌توانید دانلود کنید. تلاش شده است تا موارد اضافی تا حد امکان از کد حذف شوند تا خوانایی آن افزایش یابد.

اگر این نوشته مورد توجه شما قرار گرفته است، پیشنهاد می‌کنیم موارد زیر را نیز ملاحظه نمایید:

==

بر اساس رای ۰ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
autodeskresearch
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *