مصورسازی داده — مفاهیم و کاربردها
در دنیایی که به سرعت در حال تغییر و تحول است، درک وقایع باید بلادرنگ صورت گیرد، در غیر این صورت ممکن است زیانهای جبران ناپذیری بوجود آید. ذهن و تفکر انسانی در درک و شناخت اجسام و اشکال قویتر از اعداد و ارقام عمل میکند. البته این موضوع به این علت است که انتزاع اعداد برای بیان پدیدهها، پردازش بیشتری در ذهن انسان احتیاج دارد. برای مثال درک بلندی و کوتاهی قد دو نفر با چشم بسیار بهتر و سریعتر درک میشود تا دیدن رقم مربوط به ارتفاع قد آنها. حتی ممکن است با توجه به موقعیتهای جغرافیایی متفاوت و در کشورهای مختلف، مقیاسهای اندازهگیری طول با یکدیگر متفاوت بوده و امکان مقایسه صحیح دادههای حاصل از اندازهگیری قد آنها نیز به راحتی میسر نباشد. برای مثال ارتفاع قد یک نفر برابر با ۵ فوت و قد نفر دوم ۱۶۷ سانتیمتر باشد. واضح است که برای مقایسه قد این دو نفر فقط براساس ارقام دچار مشکل خواهیم شد. در این نوشتار با تکنیک و شیوههای مصورسازی داده آشنا شده و روشهایی برای توصیف اعداد و ارقام با سریعترین و البته دقیقترین میزان انتقال اطلاعات، ارائه خواهیم کرد. در این بین نیمنگاهی هم به انواع نمودارهای آماری و اطلاعاتی داشته و خصوصیات هر یک را مرور مینماییم.
از آنجایی که در اغلب موارد از نمودارها برای مصورسازی داده استفاده میشود، مطالعه نوشتارهای دیگر مجله فرادرس با عنوانهای نمایش و رسم نمودار برای دادهها — معرفی و کاربردها و رسم نمودار در SPSS — راهنمای کاربردی پیشنهاد میشود. همچنین خواندن مطالب نمودار جعبه ای (Boxplot) و رسم آن در پایتون – به زبان ساده و رسم نمودار در پایتون با Matplotlib — راهنمای کاربردی نیز خالی از لطف نیست.
مصورسازی داده
نمایش تصویری اطلاعات را «مصورسازی داده» (Data Visualization) مینامند. در این شیوه، اطلاعات و دادهها، به واسطه تصاویر و شکلها، قابل نمایش شده و بیننده قادر به درک سریعتر و بهتر اطلاعات نهفته در دادهها خواهد شد.
ارتباط تصویری، نگاشتی سیستمی، بین تصاویر و مقادیر متغیرها (کمی یا کیفی) است که در مصورسازی داده به بهترین نحو صورت میگیرد. ویژگیهای متنوع در نمودارها (Graphs)، آنها را به ابزاری مهم برای مصورسازی داده تبدیل کرده است. وجود رنگ، اندازههای مختلف برای هر دنباله از دادهها و همچنین نمایش روند تغییرات، از مواردی است که نمودارها را برای ارتباط تصویری بهتر، نسبت به جداول و گزارشات متنی، متمایز میکند.
نمودارهای آماری، اینفوگرافیک، شکلها و نمادها (Icons) ابزارهایی مهمی در مصورسازی داده محسوب میشوند. به این ترتیب، دادههای عددی (کمی) یا اطلاعات کیفی، به صورت تصاویر، خطوط، میله یا قطاعهایی از دایره، تبدیل شده و اطلاعات مربوطه را منتقل میکنند.
ارائه یک روش موثر برای مصورسازی داده کاربران و محققین حوزه تحلیل داده را در شناخت و کشف روابط بین پدیدهها و دادههای حاصل از اندازهگیری آنها، یاری میرساند. به این ترتیب مجموعه دادههای پیچیده، به شکلی ساده و موثر، نمایش داده میشوند و امر استخراج قواعد یا تحلیل آنها آسان میگردد. البته اغلب برای مقایسه یا خلاصهکردن دادهها از جدول نیز استفاده میشود ولی زمانی که تعداد گروهها برای مقایسه زیاد باشند، جدولها نیز کارایی خود را از دست میدهند.
از دیدگاه بسیاری از صاحبنظران، مصورسازی داده یک هنر و در عین حال یک علم است و به عقیده بعضی، تکنیکهای مصورسازی داده در شاخه آمار توصیفی (Descriptive Statistics) قرار میگیرد.
مصورسازی داده چیست؟
مصورسازی داده به روش و تکنیکهای گفته میشود که به منظور برقراری ارتباط داده یا اطلاعات با بیننده با سرعت و دقت، مورد استفاده قرار میگیرد. تبدیل مقادیر عددی به صورت اشیاء بصری (به عنوان مثال، نقاط، خطوط یا میلهها) مصورسازی داده نامیده میشود. در مصورسازی داده هدف این است که اطلاعات را به روشنی و با میزان اثرگذاری چشمگیر، به کاربران ارائه کنیم.
مصورسازی داده اولین گام در مراحل تجزیه و تحلیل دادهها در «علم داده» (Data Science) محسوب میشود. «ویتالی فریدمن» (Vitaly Friedman)، مصورسازی داده و ویژگیها آن اینطور توصیف میکند:
«هدف اصلی مصورسازی داده یا تجسم آنها، برقراری ارتباط واضح و مؤثر از طریق ابزارهای گرافیکی است. این بدان معنا نیست که لزوما مصورسازی داده باعث ایجاد یک تصویر زیبا شود بلکه درک اطلاعات به شیوه ساده و راحت منظور این روش توصیفی محسوب میشود. به طور مؤثر ، هم فرم زیبا شناختی و هم عملکرد باید دست به دست هم دهند و با برقراری ارتباط با جنبههای اصلی آن به روشی بصری، اطلاعات نهفته در دادههای نسبتاً پراکنده و پیچیده را ارائه دهند. مصورسازی داده که بدون هدف تولید شده و فقط جاذبههای بصری داشته باشند، منظور نظر مصورسازی داده نخواهد بود.»
در واقع، «فرناندا ویگاس» (Fernanda Viegas) و «مارتین واتنبرگ» (Martin M. Wattenberg) اظهار میدارند که مصورسازی داده در حالت ایدهآل نه تنها باید به طور واضح با مخاطب و کاربر ارتباط برقرار كند، بلكه باید توجه و حساسیت بیننده را هم بر بیانگیزند.
مصورسازی داده در ارتباط نزدیک با «گرافیک اطلاعات» (Information Graphics)، «تجسم اطلاعات» (Information Visualization)، «تجسم علمی» (Scientific Visualization)، «تجزیه و تحلیل دادههای اکتشافی» (Exploratory Data Analysis) و «نمودارهای آماری» (Statistical Graphics) است.
در قرن حاضر، با توجه به حجم بسیار زیاد اطلاعات و لزوم به شناخت رفتار آنها در زمان کوتاه، مصورسازی داده به یک حوزه فعال تحقیق، تدریس و توسعه تبدیل شده است، بطوری که این تکنیک، تجسم علمی و اطلاعاتی را متحد کرده است.
در تصویر ۱، نمونهای از شیوه موفق نمایش اطلاعات در مصورسازی داده را مشاهده میکنید. استفاده از رنگ، راهنمای نمودار و همچنین یادداشتگذاری در لابلای نمودار، توانسته روند تغییرات در طول سالها را به خوبی نشان دهد.
ویژگیهای نمایش تصویری موثر
پروفسور «ادوارد توفت» (Edward Tufte) توضیح میدهد که کاربرانی که از روشهای نمایش اطلاعات استفاده میکنند، وظایف تحلیلی خاصی مانند انجام مقایسه را رهبری میکنند. طراحی گرافیکی اطلاعات باید از وظیفه این گروه که همان تحلیل دادهها است، پشتیبانی کند. البته «ویلیام کلیولند» (William Cleveland) و «رابرت مک گیل» (Robert McGill) نشان دادند که عناصر گرافیکی مختلف، کم و بیش این کار را انجام میدهند.
البته باید این موضوع را هم در نظر گرفت که میزان کارایی هر یک از عوامل یا عناصر گرافیکی با یکدیگر متفاوت است. به عنوان مثال برای دادههای چند متغیره، نمودارهای نقطه (Dot Plot) و نمودارهای میلهای (bar Chart) از نمودارهای دایرهای (Pie Chart) عملکرد بهتری دارند.
«ادوارد توفت» در کتابی با عنوان «نمایش تصویری اطلاعات کمی» (In his 1983 book The Visual Display of Quantitative Information)، که در سال 1983 منتشر شد، اصولی را برای نمایشگرهای گرافیکی مؤثر در عبارت زیر تعریف می کند:
«تعالی در گرافیک آماری، شامل ایدههای پیچیدهای است که با وضوح، دقت و کارآیی ارتباط برقرار می کند.»
از نظر او ویژگیهای زیر برای مصورسازی داده و ابزارهای آن باید در نظر گرفته شود.
- نمایانگر دادهها باشد.
- برای بیننده میزان تمرکز و درک را به حداکثر ممکن برساند و ذهن او را مشغول تکنولوژی رنگ، چارجوبهای طراحی گزارش تصویری نکند.
- شامل عناصر مزاحم در درک اطلاعات نباشد.
- بیشترین حجم اطلاعات را در کمترین فضا نشان دهد.
- جمعبندی حجم زیادی از اطلاعات را به همراه داشته باشد.
- به بیننده، امکان مقایسه و تشخیص اختلافات را بدهد.
- دادهها را در چند سطح (از جزئیات به کلیات) در یک نمای کلی و ساختار مناسب، نشان دهد.
- هدفدار و معقول باشد. شامل شرح، جدولبندی و جلوه های بصری مناسب باشد.
- به طور کامل با آمار و توصیف شاخصهای عددی، همگام باشد.
با این ویژگیها، گرافیک در مصورسازی داده باید ماهیت اصلی اطلاعات را به ما نشان دهد. حتی میتوان گفت که مصورسازی داده میتواند دقیقتر و شفافتر از آمار، رفتار دادهها را برایمان بیان کند.
به تصویر شماره ۲ دقت کنید. این نمودار توسط «مینارد» (Minard) برای میزان تلفات ارتش ناپلئون در دوره ۱۸۱۲ تا ۱۸۱۳ و مربوط به جنگ جهانی اول، هنگامی که ارتش او به روسیه حمله کرد، را نشان میدهد. در این نمودار پنج متغیر همزمان نشان داده شدهاند.
- تعداد هنگهای ارتش
- متغیر دو بعدی مکان قرارگیری آنها، شامل طول و عرض جغرافیایی (X,Y)
- زمان
- جهت حرکت
- درجه حرارت
پهنای خط، اندازه ارتش در نقاط جغرافیایی مختلف برحسب زمان را نشان میدهد. از طرفی خطوط پایینی نمودار، ارتباط میزان دما با تغییر اندازه ارتش را مشخص میکند. این نمایشگر چند متغیره بر روی یک سطح دو بعدی داستانی را روایت میکند که هنگام شناسایی دادهها توسط راهنما و توضیحات همراه نمودار، میتواند فوراً قابل درک باشد. «توفت» این نموداری را به این شکل توصیف میکند: "این نمودار را میتوان بهترین گرافیک آماری دانست که تاکنون ترسیم شده است."
عدم استفاده از اصول ذکر شده در بالا، ممکن است کاربران را از واقعیت گمراه کند و باعث تحریف پیامی شود که دادهها به همراه دارند. این امر مدیران و رهبران جامعه را به سمت و سوی نتایج نادرست سوق میدهد. چنین مصورسازی داده را گاهی «نمودارهای بیثمر» (Chartjunk) مینامند. معمولا این گونه نمایش اطلاعات به همراه گرافیک عالی و رنگهای اغوا کننده بوده، بطوری که هدف اصلی را کنار زده و بیننده را محو تماشای تکنیکهای ترسیمی مینمایند.
تفکیک راهنمای نمودارها از خود نمودار و ایجاد جلوههای تصویر بیثمر فقط باعث گمراهی و صرف زمان بیشتر برای درک حجم کم اطلاعات خواهد شد. مشخص است که باید اطلاعات نمایش داده شده نسبت به فضای مصرفی برای نمایش بیشینه شده و از ارائه توضیحات و اطلاعات غیرضروری حذر داشت.
مصورسازی داده با نمایش اطلاعات عددی
«استفان فیو» (Stephen Few) به هشت رویکرد یا نوع اطلاعات عددی اشاره میکند که ممکن است کاربران را با مصورسازی داده مواجه کند. این موضوع نشانگر اهمیت ارتباط و تبادل اطلاعات بین بیینده و تصویری است که مصورسازی داده ایجاد کرده است.
- سری زمانی: اصطلاحا سری زمانی (Time Series) برای مجموعه اطلاعاتی به کار میرود که وابسته به زمان بوده و بر اساس پدیدههایی متغیر برحسب زمان ایجاد میشوند. برای مثال میتوان میزان یا نرخ بیکاری در طول یک دوره ۱۰ ساله در یک کشور خاص اشاره کرد. نمایش چنین اطلاعاتی توسط نمودار خطی (Line Chart) بسیار موثر است. با این کار، روند (Trend) تغییرات چنین پدیدهای در طول زمان مشخص میشود.
- رتبهبندی: میتوان مقادیر عددی را برحسب ترتیب صعودی (-Ascending) یا نزولی (Descending) مرتب کرد. برچسبی که به این مقادیر مرتب شده، به صورت شماره سریال، داده میشود، رتبه (Rank) گفته میشود. البته دستهها یا گروههایی که از طبقهبندی دادههای کیفی (ترتیبی) ساخته میشوند نیز دارای رتبه خواهند بود. برای مثال برحسب شعبههای مختلف یک فروشگاه زنجیرهای (متغیر طبقهای) میتوان رتبه فروش را محاسبه کرد و در یک نمودار ستونی (Column Chart) یا نمودار میلهای (Bar Chart) نمایش داد.
- جزء نسبت به کل: مقادیر نسبت یا نسبی از حاصل تقسیم یک جزء به کل (Part-to-Whole) ساخته میشوند. به این ترتیب دادههای دو بعدی را میتوان به صورت نسبت در آورده و در یک نمودار دایرهای (Pie Chart) نمایش داد. برای مثال نمایش سهم از بازار در بین چند فروشگاه زنجیرهای بواسطه چنین نمودارهایی، به خوبی امکان مقایسه را به بیننده میدهد.
- نمایش اختلافها: گاهی لازم است که یک مقدار کمی را در بین چند گروه با یکدیگر مقایسه کنیم. بخصوص زمانی که هدف مقایسه گروهها با یک استاندارد یا گروه مرجع مطرح باشد. برای مثال نمودار میلهای (Bar Chart) برای مقایسه و نمایش اختلافات بودجه محقق شده و برنامهریزی شده در حوزههای مختلف صنعت، خدمات و بانکداری، بسیار کارآمد عمل میکند.
- توزیع فراوانی: یک نمودار فراوانی (Frequency Chart) که اغلب به هیستوگرام (Histogram) معروف است، مقادیر مختلف عددی را به صورت دسته یا گروههایی که شامل فاصلههای عددی مشخص و طبقهبندی کرده و تعداد اعضای گروهها یا فراوانی آنها را شمارش میکند. شکل این نمودار به صورت مستطیلهایی با ضخامت فاصلههای عددی و ارتفاع برحسب فراوانی ترسیم میشود. معمولا این نمودارهای براساس «جدول فراوانی» (Frequency Table) ایجاد میشوند. به این ترتیب گروهها از لحاظ اعضایشان قابل مقایسه میشوند. همچنین «نمودار جعبهای» (Boxplot) که توسط آمار شناس بزرگ «جان توکی» (John Tukey) ابداع شده، روشی دیگری برای نمایش توزیع فراوانی دادهها است. این نمودار، شاخصهای دیگری مانند میانه و چارکها را هم نشان میدهد. نمایش نقاط پرت (Outlier) از کاربردهای مهم این نمودار محسوب میشود. او اعتقاد دارد یک نمودار باید آن چیزی که شما با نگاه کردن به دادهها متوجه نمیشوید را در دیدتان قرار داده و شما را متعجب سازد.
- همبستگی: یکی از روشهای نمایش وابستگی بین دو متغیر، رسم نمودارهای پراکندگی (Scatter/Dot Plot) است. معمولا در چنین نموداری، همبستگی (Correlation) بین دو متغیر به خوبی دیده میشود. مشخص است که در صورت همبستگی شدید بین دو متغیر، با دانستن مقدار یکی از آنها، دیگری را میتوان پیشبینی کرد. معمولا متغیر مستقل در محور افقی (X) و متغیر وابسته در محور عمودی (Y) مشخص میشود. توابع ریاضی (Functions) یا رابطه رگرسیونی (Regression Model) در چنین نمودارهایی به خوبی، ظاهر خواهند شد.
- مقایسههای متغیرهای اسمی: گاهی مقایسه بین دستههای مختلف که بوسیله دادههایی با مقیاس اسمی (Nominal Measure) ایجاد شدهاند، هدف محقق است. از آنجایی که این گونه مقادیر دارای ترتیبی نیستند، نمیتوان برای آنها نمودارهای یک شکلی در نظر گرفت. ولی اغلب براساس بیشترین فراوانی میتوان گروهها را مرتب و در یک نمودار ستونی یا میلهای نمایش داد. برای مثال «نمودار پارتو» (Pareto Chart) یکی از این گونه روشها در مصورسازی داده محسوب میشود.
- نمودارهای جغرافیایی یا نقشهای: امروزه نمایش گزارشات مرتبط با حوزههای جغرافیایی مختلف در نمودارهایی که شامل نقشه یک ناحیه است، تکمیل میشوند. به این ترتیب علاوه بر نمایش شاخصهایی مورد نظر، نواحی و مختصات طول و عرض جغرافیایی نیز به همراه نمودار دیده میشود. نمودار نقشه آماری (Cartogram) یک نمونه از این گونه نمودارها است.
تحلیلگرانی که مجموعهای از دادهها را بررسی میکنند، ممکن است بیش از یک نمودار را به منظور مصورسازی داده به کار گیرند. به این ترتیب انتخاب بهترین شیوه یا روش برای نمایش دادهها، یک هنر محسوب شده که البته تکنیکهای فنی نیز در آن نقش خواهد داشت. به همین علت مصورسازی داده را یک هنر و علم قلمداد کردهاند.
درک تصویری و مصورسازی داده
ذهن انسان میتواند تفاوت در طول خط، شکل، جهتگیری و رنگ (شدت رنگ) را به راحتی تشخیص دهد، بدون آنکه تلاش قابل توجهی برای پردازش آنها صورت گیرد. این ویژگیها به "خصوصیات پیش از توجه" (Pre-attentive Attributes) معروف هستند. به عنوان مثال، برای شناسایی تعداد دفعات تکرار رقم "5" در یک سری اعداد، به زمان و تلاش یا «پردازش توجه» زیادی نیاز است، اما اگر این رقم در اندازه، جهت یا رنگ با بقیه اعداد متفاوت باشد، تشخیص آن با سرعت توسط ذهن صورت خواهد گرفت.
مصورسازی داده به شرطی موثر و مورد توجه است که از خاصیت و ویژگیهای «قبل از توجه» بیشترین بهره را برده باشد. برای مثال، از آنجا که انسان ها راحتتر میتوانند اختلاف در طول خط را نسبت به اختلاف در سطح، پردازش کنند، ممکن است استفاده از نمودار میلهای (که از طول خط برای نشان دادن مقادیر استفاده می کند) مؤثرتر از نمودار دایرهای (که برای نشان دادن مقایسه از سطح استفاده می کنند) در بیان دادهها عمل کرده و با سرعت بیشتری اطلاعات را منتقل کند.
ادارک، شناخت و تجسم در انسان
میتوان گفت که تقریباً همه روشهای تجسمی برای نمایش دادهها به مصرف انسانی میرسند (مگر آنکه حیوانات و حتی رباتها را هم وادار به دیدن و استنباط از روی نمودار بکنیم). به همین علت آگاهی از نحوه ادراک و شناخت انسان، هنگام طراحی مصورسازی داده ضروری است.
شناخت نسبت به فرآیندهای یادگیری در انسان، مانند «ادراک» (Perception)، «توجه» (Attention)، «یادگیری» (Learning)، «حافظه» (Memory)، «اندیشه» (Thought)، «شکلگیری مفهوم» (Concept Formation)، «خواندن» (Reading) و «حل مسئله» (Problem Solving)، کلیدهای اصلی برای انتقال اطلاعات به شکلهای مختلف مانند متنی، تصویری یا صوتی، هستند. پردازش بینایی انسان در تشخیص تغییرات و انجام مقایسه بین مقادیر، اندازه، شکل نسبت به بقیه حسها، بسیار کارآمد است.
هنگامی که متغیرهای عددی به صورت نمادین به خصوصیات بصری تبدیل میشوند، انسان میتواند حجم زیادی از دادهها را در زمان کوتاه پردازش کند. به همین علت کارآمدی ابزار مصورسازی داده به شکلی قابل قبول مورد توجه است.
تخمین زده میشود که حدود ۶۰ درصد از نورونهای مغز میتوانند در پردازش بینایی نقش داشته باشند. تجسم خلاق، رویکرد متفاوتی را برای نشان دادن ارتباطات و روابط بین مقادیر به صورت بلقوه به انسان میدهد که بدون استفاده از ابزارهای بصری امکان ایجاد آن وجود ندارد. به همین دلیل تجسم میتواند به ابزاری برای اکتشاف شهودی و تحلیل داده تبدیل شود.
تاریخچه مصورسازی داده
هیچ تاریخچهای از شیوه یا روشهای مصورسازی داده وجود ندارد زیرا کل پیشرفت تفکر بصری و بازنمایی بصری دادهها به صورت تدریجی و با رشد و بلوغ قدرتهای ذهنی بشر، ایجاد شده است. خطوط تصویری، نقاشیهای درون غارها، همگی روشهایی برای انتقال اطلاعات از فردی به فرد دیگر یا نسلی به نسلی دیگر محسوب میشوند.
برخلاف تصور عمومی، مصورسازی داده یک پیشرفت مدرن و امروزی نیست. تصاویر مربوط به اجرام سماوی و ستارهها روی دیوارهای غارها (مانند اطلاعات موجود در غار لاساکس در جنوب فرانسه) بیانگر قدمت مصورسازی داده است. آثار باستانی قابل لمس همچون لوحهای گلی و سفالی بین النهرین (5500 سال قبل از میلاد)، میلههای باستانی اینکاها (2600 قبل از میلاد مسیحی) و نمودارهای چوب در جزایر مارشال نیز میتوانند به عنوان تجسم و تصویر سازی از اطلاعات کمی در نظر گرفته شوند.
اولین تجسم دادههای مستند شده را میتوان در قرن ۱۱۶۰ قبل از میلاد مشاهده کرد. «نقشه تورین پاپیروس» (Turin Papyrus Map) که به طور دقیق، توزیع منابع زیرمینی را نشان میدهد، یکی از این گونه مستندات است. این نقشهها را میتوان به عنوان جد علم نقشهبرداری در نظر گرفت. نقشه تورین پاپیروس نوعی تجسم داده است که اطلاعات خاص را از طریق یک تصویر جغرافیایی طراحی شده، با یک موضوع خاص در یک منطقه جغرافیایی مشخص، مرتبط میکند.
نخستین اشکال مستندسازی تجسم نقشهها، موضوعی متشکل از فرهنگها و ایدئولوژیها و سلسله مراتب اجتماعی است. به عنوان مثال، جداول سنگی خطی B از یونان باستان (Linear B Table)، تجسم اطلاعات مربوط به معاملات دوره عصر برنز در حوزه جغرافیایی مدیترانه را ارائه میدهد. همچنین ایده به کارگیری از مختصات توسط نقشه برداران مصری باستان در شهرسازی مورد استفاده قرار گرفت. موقعیتها و مختصات خاکی و آسمانی، توسط چیزی شبیه به عرض و طول جغرافیایی حداقل تا سالها قبل از میلاد مسیح، مطرح بود. تشکیل نقشه یک زمین کروی با عرض و طول جغرافیایی که توسط «کلودوس بطلمیوس» (Claudius Ptolemy) در اسکندریه ابداع شده بود تا قرن ۱۴ میلادی به عنوان معیارهای اصلی و مرجع به کار میرفت.
اما با اختراع کاغذ همه چیز متحول و با سرعت بیشتری رشد کرد. کاغذ، امکان توسعه بیشتر تجسم و تصویر سازی را در طول تاریخ فراهم کرد. اشکال و نمودارها از قرن دهم یا احتمالاً یازدهم برای نمایش تصویری حرکت سیارهها در پیوست کتابهای درسی در مدارس صومعه مورد استفاده قرار میگرفت.
ظاهراً چنین ترسیمهایی، برای نشان دادن نقشهای از مدارهای سیارهای به عنوان تابعی از زمان به کار میرفتهاند. برای مثال در علم هیئت و اجرام سماوی، ناحیه منطقةالبروج را در یک صفحه با یک خط افقی تقسیم شده به سی قسمت به عنوان محور زمان یا طولی نمایش میدادند. محور عمودی نیز در این نقشهها، پهنای منطقةالبروج را تعیین میکند. به نظر میرسد مقیاس افقی برای هر سیاره به صورت جداگانه انتخاب شده. متن همراه این گونه نقشهها فقط به مقادیر اشاره دارد و منحنیها ظاهراً به زمان ارتباطی ندارند. نمونهای از این نقشه را در تصویر ۵، مشاهده میکنید.
تا قرن شانزدهم میلادی، تکنیکها و ابزارهای دقیق برای مشاهده و اندازهگیری مقادیر اجسام و موقعیتهای جغرافیایی و سماوی به خوبی توسعه یافته بودند. این ابزارها با کمک علم مثلثات و و سایر روشهای محاسباتی، قادر به تعیین دقیق مکانهای نقشهبرداری شده بودند.
فیلسوف و ریاضیدان فرانسوی «رنه دکارت» (René Descartes) و «پیر دِ فرما» (Pierre de Fermat)، هندسه تحلیلی و سیستم مختصات دو بعدی را توسعه دادند که به طور کامل بر روشهای علمی و عملی نمایش و محاسبه مقادیر تأثیر گذاشت. کار «فرما» و «بلیز پاسکال» (Blaise Pascal) در مورد آمار و نظریه احتمال، زمینه ساز مفهوم داده (Data) و ابزارهای به کارگیری آن شد.
این تحولات به «ویلیام پلیفر» (William Playfair) کمک کرد که روشهای گرافیکی آماری را برای نمایش ارتباط دادههای کمی ایجاد کند. در تصویر ۸، نمونهای از نمودار سری زمانی ترسیم شده توسط او دیده میشود.
«جان توکی» و «ادوارد توفت»، مرزهای مصورسازی داده را به جلو بردند. «توکی» با رویکرد جدید و با نگرش آماری خود، در تجزیه و تحلیل دادههای اکتشافی گامهای موثری برداشت. همچنین «توفت» با کتاب «نمایش تصویری اطلاعات کمی»، راه و روشهایی برای تصحیح تکنیکهای مصورسازی دادهها، برای کسانی که با آمار آشنایی نداشتند، معرفی کرد.
با پیشرفت تکنولوژی، تکنیکهای موثر و جدیدتری نیز در مصورسازی دادهها بوجود آمد. به این ترتیب استفاده از رایانهها به جای استفاده از روشهای ترسیم دستی، برنامههای کاربردی بسیاری را وارد بازار کار کرده بطوری که سرعت و دقت و همچنین تنوع نمودارها و روشهای مصورسازی وارد مرزهای جدیدی گردید.
برنامههای کاربردی مانند SAS ، SOFA ، R ، Minitab ، Cornerstone و موارد دیگر، امکان تجسم و مصورسازی داده ها در زمینههای مختلف بخصوص آمار را فراهم کردهاند. سایر برنامههای مصورسازی داده بیشتر متمرکز بر زبانهای برنامهنویسی مانند D3 ، Python و JavaScript هستند. بسیاری از رشتههای دانشگاهی و حتی مدارس نیز دورههایی برای آموزش مصورسازی داده تدارک دیدهاند.
با شروع سمپوزیوم «کشف داده» در سال 2013 ، کالج طراحی ArtCenter ، Caltech و JPL در Pasadena یک برنامه سالانه در زمینه تجسم داده ها را به صورت تعاملی، اجرا کردند. این برنامهها سعی دارند به پرسشهایی در زمینه مصورسازی داده پاسخ دهند. بعضی از سوالاتی که هدف اجرای چنین برنامهای است، در ادامه به صورت فهرستوارد ذکر شدهاند.
- چگونه تجسم تعاملی دادهها، میتواند به دانشمندان و مهندسین کمک کند تا رفتار دادههای خود را به طور مؤثرتر کشف کنند؟
- چگونه محاسبات و تفکر طراحی میتواند به نتیجه بخش بودن نتایج تحقیقات کمک کند؟
- برای کسب دانش در این زمینه چه روشهایی مؤثر است؟
این برنامه آموزش و کارگاهای مربوطه، با کدگذاری اطلاعات رابطهای با خصوصیات دیداری و تعاملی مناسب، برای به دست آوردن بینش جدید به دادهها ، رویکردهای بین رشتهای جدیدی را برای حل مشکلات علمی پیچیده، طراحی کرده است.
واژهشناسی
تجسم دادهها شامل اصطلاحات خاصی است كه برخی از آنها از علوم آماری گرفته شده است. به عنوان مثال، مقیاسهای اندازهگیری که در آمار تعریف میشوند در اینجا هم به کار برده خواهند شد. این مقیاسها و واژههای مرتبط به منظور هماهنگی با اصطلاحات آماری به کار میروند. در ادامه اصطلاحات اصلی که مربوط به نوع مقادیر و نحوه نمایش آنها است، ارائه میشود:
- طبقهای (Categorical): برچسبهای متنی که ماهیت اطلاعاتی دارند، مانند اسم، جنس یا رده شغلی، از نوع مقادیر طبقهای هستند. به کمک این گونه مقادیر، میتوانیم جامعه را دستهبندی یا گروهبندی کنیم. این دادهها معمولا به صورت غیر عددی بوده و به کمک کدگذاری، به اعداد تبدیل میشوند. باید توجه داشت که این اعداد قابلیت انجام محاسبات ریاضی نداشته و نمیتوان آنها را مرتب کرد.
- مقداری (Quantitative): مقدارهای عددی حاصل از اندازهگیری یا شمارش، در گروه دادههای مقداری قرار میگیرند. برای مثال دستمزدها، میزان جمعیت و فشار خون بیماران از نوع دادههای مقداری هستند.
- جدول (Table): جدول حاوی دادههای کمی و عددی است که بر اساس نظم خاصی در ردیفها و ستونهای قرار گرفتهاند. ردیفها یا ستونها به کمک برچسبهایی طبقهها را مشخص میکنند و محل تقاطع سطرها با ستونها شاخصهای عددی مانند فراوانی یا میانگین را برای گروهها، نمایش میدهند. در درجه اول از جدول برای جستجوی مقادیر خاص استفاده میشود. جدول ممکن است دارای برچسبهای ستونی دستهای باشد که نام متغیرهای کمی (مثل سن و وزن) بوده و سطرها نیز بیانگر متغیر کیفی مثلا نام افراد باشد. مقادیر درون خانههای جدول نیز سن و وزن هر یک از افراد را نشان میدهد.
- نمودار (Graph): از نمودارها معمولا برای نمایش روابط بین دادهها و مقادیر متغیرهای طبقهای استفاده میشود. این شیوههای نمایشی با تکیه بر ویژگیهای بصری انسان مثلا تشخیص خطوط، ارتفاع میلهها یا فاصله نقاط از یکدیگر ایجاد میشوند. مقادیر عددی در ناحیهای مشخص میشوند که توسط یک یا چند محور محصور شدهاند. این محورها مقیاسهای (کمی و طبقهای) را برای برچسب زدن و اختصاص مقادیر به اشیاء بصری فراهم میکنند. به این نمودار گاهی نگاره نیز گفته میشود.
نمونهای از نمودارهای مورد استفاده در مصورسازی داده
در ادامه شکل ظاهری بعضی از نمودارهایی که بخصوص در مصورسازی داده به کار میروند، اشاره شده است. واضح است که هر یک از آنها، برای بیان ویژگی خاصی به کار میروند.
- نمودار میلهای: مقایسه تعداد نامههای الکترونیکی ارسال شده (محور عمودی - داده کمی) برحسب روزهای هفته (محور افقی - داده طبقهای)
- نمودار فراوانی (هیستوگرام - Histogram): این نمودار، فراوانی گروههای مختلف را نمایش میدهد. برای مثال نمودار فراوانی قیمت خانهها، شامل فراوانی (محور عمودی- شمارشی) و محور افقی دسته یا گروههای قیمتی (کیفی- ترتیبی) است.
نمودار پراکندگی (Scatter Plot): نمایش ارتباط بین دو متغیر کمی (عددی) در این نمودار صورت میگیرد. هر دو محور افقی و عمودی عددی بوده و مدل رابطه (همبستگی) بین دو متغیر نمایش داده میشود.
نمودار پراکندگی سه بُعدی (3D Scatter Plot): هر سه محور به صورت عددی بوده و برای نمایش توابع دو متغیره مناسب است. مثلا توسط این گونه نمودارها ترسیم میشود.
نمودار شبکهای (Network): در این گونه نمودارها، ارتباط بین نقطهها مد نظر بوده و برای نمایش گرافها و نمایش راس و اضلاع یک گراف یا جنگل، که از مفاهیم ریاضیات گسسته هستند، به کار میرود. با رشد شبکههای اجتماعی، استفاده از این گونه نمودارها گسترش یافته و به این ترتیب نحوه ارتباط بین افراد و اجتماعات انسانی و شبکهها، به خوبی نمایش داده میشود.
نمودار جریان (Streamgraph): در این نمودار روند تغییرات برای چندین متغیر (هم واحد) روی یک نمودار دو بُعدی ترسیم میشود. به همین دلیل استفاده از این نوع نمودار امکان مقایسه بین مقادیر در طول زمان را میسر خواهد ساخت.
نمودار نقشه درختی (Treemap): این نمودارها برای نمایش دو ویژگی همزمان در بین چندین گروه مناسب است. البته تفاوت آن با نمودار دایرهای در تعداد زیاد گروهها است که این نمودار را بخصوص در نمایش نحوه عملکرد شرکتها در بورس مورد پسند کاربران کرده است.
نمودار گانت (Gantt Chart): از نمودار گانت برای نمایش انجام فعالیتها برحسب زمان صورت میگیرد. ارتباط بین فعالیتها نیز در چنین نموداری ظاهر شده و اطلاعات زیادی در رابطه با تاریخ شروع، خاتمه و پیشنیازهای یک فعالیت در آن دیده میشود.
نقشه گرمایی (Heat Map): برای نمایش همزمان چند متغیر و رابطه بین گروهها، این نمودار به خوبی عمل میکند. استفاده از این نمودار درست به مانند یک جدول توافقی است که میتواند بین دو یا چند گروه، یک یا چند شاخص محاسباتی را مقایسه کند.
گراف نواری (Strip Graphic): این نمودار دارای یک محور افقی است و مقادیر براساس اندیسی که روی محور افقی دارند، مرتب شدهاند. رنگها نیز بیانگر شدت یا ضعف (کوچکی یا بزرگی) یک ویژگی عددی هستند.
نمودار مارپیچی (Spiral Graph): نمایش تغییرات یک پدیده در طول زمان در این نمودار توسط دایرههای که مرکز آن مبدا یا مجموعه مرجع را نشان میدهد، توسط نمودار مارپیچی صورت میگیرد.
مقایسه ویژگیهای نمودارهای مختلف در مصورسازی داده
در جدول زیر ویژگیهای نمودارهای مطرح در مصورسازی داده، مانند کاربرد، متغیرهای مورد استفاده و مثالهای واقعی با یکدیگر مقایسه شده است.
نام نمودار | متغیرها و ابعاد به کار رفته در نمودار | ویژگی | مثال کاربردی |
نمودار میلهای / ستونی (Bart /Column Chart) | اندازه / شمارش
متغیر گروهی یا طبقهای رنگ برای تمایز بین دستههای متفاوت به عنوان متغیر دوم گروه بندی | مقایسه بین شاخصهایی مانند میانگین یک اندازه یا شمارش اعضای یک دسته | مقایسه فروش به تفکیک شعب یک فروشگاه زنجیرهای با در نظر گرفتن شیفت صبح و شب |
نمودار فراوانی/ هیستوگرام (Histogram) | تعداد / متغیر شمارشی
دسته یا گروهها رنگ برای تمایز گروهها | مقایسه بین تعداد یا فراوانی بین گروه یا دستهها | مقایسه بین تعداد دختران و پسران دانشآموز در ردههای سنی مختلف |
نمودار نقطهای / پراکندگی (Scatter /Dot Plot) | محور x
محور y نماد یا نشانهگذاری نقاط اندازه (به صورت بزرگی یا قطر هر نقطه) رنگ (برای نمایش دستهها) | به منظور نمایش رابطه بین دو متغیر عددی x (مستقل) با y (وابسته) با در نظر گرفتن متغیر سوم (اندازه) به عنوان متغیر عددی مستقل در دسته یا گروههایی که توسط نماد یا رنگ مشخص شدهاند. | نمایش رابطه طول قد و وزن افراد برحسب جنسبت (رنگ) و همچنین نژاد (نماد) با توجه به متوسط کالری دریافتی (اندازه) |
نمودار نقطهای سه بُعدی (3D Scatter Plot) | محور x
محور y محور z رنگ (برای نمایش دستهها) | به منظور نمایش رابطه بین دو متغیر عددی مستقل (x , y) با در نظر گرفتن متغیر سوم وابسته (z) و در دسته یا گروههایی که توسط رنگ مشخص شدهاند. | رسم توابع ریاضی دو یا چند متغیره در فضای سه بُعدی |
نمودار شبکه (Network Plot) | گره یا راسها (موقعیت)
رنگ گرهها (گروه یا دسته) بزرگی یا کوچکی اندازه گرهها اضلاع یا خطوط ارتباطی مقدار عددی برای ضخامت خطوط ارتباطی دوری و نزدیکی گرهها | ارتباط بین متغیرهای گروهی براساس شده رابطه یا بزرگری جمعیتی در هر گروه | نمایش شبکههای اجتماعی و ارتباط کاربران با یکدیگر یا نمایش تعداد اعضای گروههای پرطرفدار یا محبوب در شبکههای اجتماعی.
ایجاد خوشههای همگن و هم شکل تشخیص نقاط دورافتاده یا پرت که به هیچ دسته یا گروهی تعلق ندارند. نمایش گروه یا افرادی که نقش ارتباطی دارند. تعیین افراد یا گروههای تاثیرگذار در شبکههای اجتماعی مناسب برای شرکتها و نهادهای خدماتی برای تاثیر بیشتر روی جامعه هدف
|
نمودار جریان (Streamgraph) | پهنای نوارها (متغیر عددی)
رنگ (دستهها) محور افقی (زمان یا جریان) | پیگیری تغییرات یک پدیده براساس چندین متغیر در بین چندین گروه | میزان مرگ و میر (ارتفاع) براساس عوامل مختلف سوانح رانندگی و مقایسه ماهها (ضخامت) مشابه در سالهای مختلف |
نمودار نقشه درختی (Treemap Chart) | اندازه (متغیر کمی)
رنگ (متغیر طبقهای) | مقایسه بین چندین گروه براساس یک متغیر کمی | نمایش میزان حجم، ارزش، تعداد سهام فروخته شده در بازار بورس |
نمودار گانت (Gantt Chart) | زمان (محور افقی)
رنگ (دسته یا فعالیتها) | تحلیل روند فعالیتها (تقدم و تاخیر) به همراه طول دوره فعالیت | نمودار روند پیشرفت کار پیمانکاران و تحلیل عملیات توسط کارفرما |
نقشه گرمایی (Heat Map) | سطر (دستهها)
ستون (دستهها) خوشهها (گروهای هم شکل) رنگها (فاصله بین اعضای خوشه) | تشخیص دستههای همسان و نمایش همسانی براساس رنگها | نمودار مقایسه روشهای خوشه یا دستهبندی |
گراف نواری (Strip Graph) | محور افقی (دستهها)
رنگها (شدت متغیر عددی) | مقایسه بین مقادیر مختلف و اختلاف آنها از مرکز نمودار به عنوان مقدار مرجع | نمایش تغییرات دما نسبت به یک تاریخ خاص (مرجع)
میزان رشد ویروس کرونا (Corona Virus) در یک دوره زمانی |
نمودار مارپیچی (Spiral Graph) | شعاع دایرهها (متغیر وابسته)
زاویه چرخش (متغیر تناوب - ماه) رنگ (سالهای مختلف) | نمایش روند تغییرات یک متغیر وابسته به زمان به تفکیک و تقسیم ماه یا دورههای تناوب مشخص در سالهای گوناگون | نمایش میزان گرمایش زمین برحسب ماه و سالهای مختلف
رنگها نشانگر سالها و قطاعها نیز ماهها را نشان میدهند. قطر هر یک از دایره نیز میزان گرما را به عنوان یک متغیر وابسته به زمان نشان میدهد. (رجوع کنید به تصویر ۱۹) |
خلاصه و جمعبندی
در این نوشتار با شیوههای مختلف مصورسازی داده آشنا شده و همچنین تاریخچه و ویژگیهای آن را یادآوری کردیم. ابزارهای آماری و بهرهگیری از ترسیمهای آماری نیز در مصورسازی داده نقش مهمی دارند بطوری که شاید بتوان مصورسازی داده را برگرفته از آماری توصیفی دانست. معرفی نمودارهای مهم و عملکرد آنها در مصورسازی داده نیز در این نوشتار نیز از مواردی بود که به آن پرداختیم.
بسیار متن مفید و البته با بیان شیوا و سلیس بود.
ممنونم