داده کاوی 1864 بازدید

در دنیایی که به سرعت در حال تغییر و تحول است، درک وقایع باید بلادرنگ صورت گیرد، در غیر این صورت ممکن است زیان‌های جبران ناپذیری بوجود آید. ذهن و تفکر انسانی در درک و شناخت اجسام و اشکال قوی‌تر از اعداد و ارقام عمل می‌کند. البته این موضوع به این علت است که انتزاع اعداد برای بیان پدیده‌ها، پردازش بیشتری در ذهن انسان احتیاج دارد. برای مثال درک بلندی و کوتاهی قد دو نفر با چشم بسیار بهتر و سریع‌تر درک می‌شود تا دیدن رقم مربوط به ارتفاع قد آن‌‌ها. حتی ممکن است با توجه به موقعیت‌های جغرافیایی متفاوت و در کشورهای مختلف، مقیاس‌های اندازه‌گیری طول با یکدیگر متفاوت بوده و امکان مقایسه صحیح داده‌های حاصل از اندازه‌گیری قد آن‌ها نیز به راحتی میسر نباشد. برای مثال ارتفاع قد یک نفر برابر با ۵ فوت و قد نفر دوم ۱۶۷ سانتی‌متر باشد. واضح است که برای مقایسه قد این دو نفر فقط براساس ارقام دچار مشکل خواهیم شد. در این نوشتار با تکنیک و شیوه‌های مصورسازی داده آشنا شده و روش‌هایی برای توصیف اعداد و ارقام با سریع‌ترین و البته دقیق‌ترین میزان انتقال اطلاعات، ارائه خواهیم کرد. در این بین نیم‌نگاهی هم به انواع نمودارهای آماری و اطلاعاتی داشته و خصوصیات هر یک را مرور می‌نماییم.

از آنجایی که در اغلب موارد از نمودارها برای مصورسازی داده استفاده می‌شود، مطالعه نوشتارهای دیگر مجله فرادرس با عنوان‌های نمایش و رسم نمودار برای داده‌ها — معرفی و کاربردها و رسم نمودار در SPSS — راهنمای کاربردی پیشنهاد می‌شود. همچنین خواندن مطالب نمودار جعبه ای (Boxplot) و رسم آن در پایتون – به زبان ساده و رسم نمودار در پایتون با Matplotlib — راهنمای کاربردی نیز خالی از لطف نیست.

مصورسازی داده

نمایش تصویری اطلاعات را «مصورسازی داده» (Data Visualization) می‌نامند. در این شیوه، اطلاعات و داده‌ها، به واسطه تصاویر و شکل‌ها، قابل نمایش شده و بیننده قادر به درک سریع‌تر و بهتر اطلاعات نهفته در داده‌ها خواهد شد.

ارتباط تصویری، نگاشتی سیستمی، بین تصاویر و مقادیر متغیرها (کمی یا کیفی) است که در مصورسازی داده به بهترین نحو صورت می‌گیرد. ویژگی‌های متنوع در نمودارها (Graphs)، آن‌ها را به ابزاری مهم برای مصورسازی داده تبدیل کرده است. وجود رنگ، اندازه‌های مختلف برای هر دنباله از داده‌ها و همچنین نمایش روند تغییرات، از مواردی است که نمودارها را برای ارتباط تصویری بهتر، نسبت به جداول و گزارشات متنی، متمایز می‌کند.

نمودارهای آماری، اینفوگرافیک، شکل‌ها و نمادها (Icons) ابزارهایی مهمی در مصورسازی داده محسوب می‌شوند. به این ترتیب، داده‌های عددی (کمی) یا اطلاعات کیفی، به صورت تصاویر، خطوط، میله یا قطاع‌هایی از دایره، تبدیل شده و اطلاعات مربوطه را منتقل می‌کنند.

ارائه یک روش موثر برای مصورسازی داده کاربران و محققین حوزه تحلیل داده را در شناخت و کشف روابط بین پدیده‌ها و داده‌های حاصل از اندازه‌گیری آن‌ها، یاری می‌رساند. به این ترتیب مجموعه داده‌های پیچیده، به شکلی ساده و موثر، نمایش داده می‌شوند و امر استخراج قواعد یا تحلیل آن‌ها آسان می‌گردد. البته اغلب برای مقایسه یا خلاصه‌کردن داده‌ها از جدول نیز استفاده می‌شود ولی زمانی که تعداد گروه‌ها برای مقایسه زیاد باشند، جدول‌ها نیز کارایی خود را از دست می‌دهند.

از دیدگاه بسیاری از صاحب‌نظران، مصورسازی داده یک هنر و در عین حال یک علم است و به عقیده بعضی، تکنیک‌های مصورسازی داده در شاخه آمار توصیفی (Descriptive Statistics) قرار می‌گیرد.

مصورسازی داده چیست؟

مصورسازی داده به روش‌ و تکنیک‌های گفته می‌شود که به منظور برقراری ارتباط داده یا اطلاعات با بیننده با سرعت و دقت، مورد استفاده قرار می‌گیرد. تبدیل مقادیر عددی به صورت اشیاء بصری (به عنوان مثال، نقاط، خطوط یا میله‌ها) مصورسازی داده نامیده می‌شود. در مصورسازی داده هدف این است که اطلاعات را به روشنی و با میزان اثرگذاری چشم‌گیر، به کاربران ارائه کنیم.

مصورسازی داده اولین گام در مراحل تجزیه و تحلیل داده‌ها در «علم داده» (Data Science) محسوب می‌شود. «ویتالی فریدمن» (Vitaly Friedman)، مصورسازی داده و ویژگی‌ها آن اینطور توصیف می‌کند:

«هدف اصلی مصورسازی داده یا تجسم آن‌ها، برقراری ارتباط واضح و مؤثر از طریق ابزارهای گرافیکی است. این بدان معنا نیست که لزوما مصورسازی داده باعث ایجاد یک تصویر زیبا شود بلکه درک اطلاعات به شیوه ساده و راحت منظور این روش توصیفی محسوب می‌شود. به طور مؤثر ، هم فرم زیبا شناختی و هم عملکرد باید دست به دست هم دهند و با برقراری ارتباط با جنبه‌های اصلی آن به روشی بصری، اطلاعات نهفته در داده‌های نسبتاً پراکنده و پیچیده را ارائه دهند. مصورسازی داده که بدون هدف تولید شده و فقط جاذبه‌های بصری داشته باشند، منظور نظر مصورسازی داده نخواهد بود.»

در واقع، «فرناندا ویگاس» (Fernanda Viegas) و «مارتین واتنبرگ» (Martin M. Wattenberg) اظهار می‌دارند که مصورسازی داده در حالت ایده‌آل نه تنها باید به طور واضح با مخاطب و کاربر ارتباط برقرار کند، بلکه باید توجه و حساسیت بیننده را هم بر بیانگیزند.

مصورسازی داده در ارتباط نزدیک با «گرافیک اطلاعات» (Information Graphics)، «تجسم اطلاعات» (Information Visualization)، «تجسم علمی» (Scientific Visualization)، «تجزیه و تحلیل داده‌های اکتشافی» (Exploratory Data Analysis) و «نمودارهای آماری» (Statistical Graphics) است.

در قرن حاضر، با توجه به حجم بسیار زیاد اطلاعات و لزوم به شناخت رفتار آن‌ها در زمان کوتاه، مصورسازی داده به یک حوزه فعال تحقیق، تدریس و توسعه تبدیل شده است، بطوری که این تکنیک، تجسم علمی و اطلاعاتی را متحد کرده است.

در تصویر ۱، نمونه‌ای از شیوه موفق نمایش اطلاعات در مصورسازی داده را مشاهده می‌کنید. استفاده از رنگ، راهنمای نمودار و همچنین یادداشت‌گذاری در لابلای نمودار، توانسته روند تغییرات در طول سال‌ها را به خوبی نشان دهد.

great VD
تصویر ۱: نمایش اطلاعات کتابخانه و موضوعاتی که اعضای یک باشگاه بازی رایانه‌ای بیشتر به آن توجه دارند، برحسب سال

ویژگی‌های نمایش تصویری موثر

پروفسور «ادوارد توفت» (Edward Tufte) توضیح می‌دهد که کاربرانی که از روش‌های نمایش اطلاعات استفاده می‌کنند، وظایف تحلیلی خاصی مانند انجام مقایسه را رهبری می‌کنند. طراحی گرافیکی اطلاعات باید از وظیفه این گروه که همان تحلیل داده‌ها است، پشتیبانی کند. البته «ویلیام کلیولند» (William Cleveland) و «رابرت مک گیل» (Robert McGill) نشان دادند که عناصر گرافیکی مختلف، کم و بیش این کار را انجام می‌دهند.

البته باید این موضوع را هم در نظر گرفت که میزان کارایی هر یک از عوامل یا عناصر گرافیکی با یکدیگر متفاوت است. به عنوان مثال برای داده‌های چند متغیره، نمودارهای نقطه (Dot Plot) و نمودارهای میله‌ای (bar Chart) از نمودارهای دایره‌ای (Pie Chart) عملکرد بهتری دارند.

«ادوارد توفت» در کتابی با عنوان «نمایش تصویری اطلاعات کمی» (In his 1983 book The Visual Display of Quantitative Information)، که در سال 1983 منتشر شد، اصولی را برای نمایشگرهای گرافیکی مؤثر در عبارت زیر تعریف می کند:

«تعالی در گرافیک آماری، شامل ایده‌های پیچیده‌ای است که با وضوح، دقت و کارآیی ارتباط برقرار می کند.»

از نظر او ویژگی‌های زیر برای مصورسازی داده و ابزارهای آن باید در نظر گرفته شود.

  • نمایانگر داده‌ها باشد.
  • برای بیننده میزان تمرکز و درک را به حداکثر ممکن برساند و ذهن او را مشغول تکنولوژی رنگ، چارجوب‌های طراحی گزارش تصویری نکند.
  • شامل عناصر مزاحم در درک اطلاعات نباشد.
  • بیشترین حجم اطلاعات را در کم‌ترین فضا نشان دهد.
  • جمع‌بندی حجم زیادی از اطلاعات را به همراه داشته باشد.
  • به بیننده، امکان مقایسه و تشخیص اختلافات را بدهد.
  • داده‌ها را در چند سطح (از جزئیات به کلیات) در یک نمای کلی و ساختار مناسب، نشان دهد.
  • هدف‌دار و معقول باشد. شامل شرح، جدول‌بندی و جلوه های بصری مناسب باشد.
  • به طور کامل با آمار و توصیف شاخص‌های عددی، همگام باشد.

با این ویژگی‌ها، گرافیک در مصورسازی داده باید ماهیت اصلی اطلاعات را به ما نشان دهد. حتی می‌توان گفت که مصورسازی داده می‌تواند دقیق‌تر و شفاف‌تر از آمار، رفتار داده‌ها را برایمان بیان کند.

به تصویر شماره ۲ دقت کنید. این نمودار توسط «مینارد» (Minard) برای میزان تلفات ارتش ناپلئون در دوره ۱۸۱۲ تا ۱۸۱۳ و مربوط به جنگ جهانی اول، هنگامی که ارتش او به روسیه حمله کرد، را نشان می‌دهد. در این نمودار پنج متغیر هم‌زمان نشان داده شده‌اند.

  1. تعداد هنگ‌های ارتش
  2. متغیر دو بعدی مکان قرارگیری آن‌ها، شامل طول و عرض جغرافیایی (X,Y)
  3. زمان
  4. جهت حرکت
  5. درجه حرارت

پهنای خط، اندازه ارتش در نقاط جغرافیایی مختلف برحسب زمان را نشان می‌دهد. از طرفی خطوط پایینی نمودار، ارتباط میزان دما با تغییر اندازه ارتش را مشخص می‌کند. این نمایشگر چند متغیره بر روی یک سطح دو بعدی داستانی را روایت می‌کند که هنگام شناسایی داده‌ها توسط راهنما و توضیحات همراه نمودار، می‌تواند فوراً قابل درک باشد. «توفت» این نموداری را به این شکل توصیف می‌کند: “این نمودار را می‌توان بهترین گرافیک آماری دانست که تاکنون ترسیم شده است.”

Minard Report
تصویر ۲: نمایش اطلاعاتی از حمله ناپلون به روسیه در جنگ جهانی اول

عدم استفاده از اصول ذکر شده در بالا، ممکن است کاربران را از واقعیت گمراه کند و باعث تحریف پیامی شود که داده‌ها به همراه دارند. این امر مدیران و رهبران جامعه را به سمت و سوی نتایج نادرست سوق می‌دهد. چنین مصورسازی داده را گاهی «نمودارهای بی‌ثمر» (Chartjunk) می‌نامند. معمولا این گونه نمایش اطلاعات به همراه گرافیک عالی و رنگ‌های اغوا کننده بوده، بطوری که هدف اصلی را کنار زده و بیننده را محو تماشای تکنیک‌های ترسیمی می‌نمایند.

تفکیک راهنمای نمودارها از خود نمودار و ایجاد جلوه‌های تصویر بی‌ثمر فقط باعث گمراهی و صرف زمان بیشتر برای درک حجم کم اطلاعات خواهد شد. مشخص است که باید اطلاعات نمایش داده شده نسبت به فضای مصرفی برای نمایش بیشینه شده و از ارائه توضیحات و اطلاعات غیرضروری حذر داشت.

مصورسازی داده با نمایش اطلاعات عددی

«استفان فیو» (Stephen Few) به هشت رویکرد یا نوع اطلاعات عددی اشاره می‌کند که ممکن است کاربران را با مصورسازی داده مواجه کند. این موضوع نشانگر اهمیت ارتباط و تبادل اطلاعات بین بیینده و تصویری است که مصورسازی داده ایجاد کرده است.

  1. سری زمانی: اصطلاحا سری زمانی (Time Series) برای مجموعه اطلاعاتی به کار می‌رود که وابسته به زمان بوده و بر اساس پدیده‌هایی متغیر برحسب زمان ایجاد می‌شوند. برای مثال می‌توان میزان یا نرخ بیکاری در طول یک دوره ۱۰ ساله در یک کشور خاص اشاره کرد. نمایش چنین اطلاعاتی توسط نمودار خطی (Line Chart) بسیار موثر است. با این کار، روند (Trend) تغییرات چنین پدیده‌ای در طول زمان مشخص می‌شود.
  2. رتبه‌بندی: می‌توان مقادیر عددی را برحسب ترتیب صعودی (-Ascending) یا نزولی (Descending) مرتب کرد. برچسبی که به این مقادیر مرتب شده، به صورت شماره سریال، داده می‌شود، رتبه (Rank) گفته می‌شود. البته دسته‌ها یا گروه‌هایی که از طبقه‌بندی داده‌های کیفی (ترتیبی) ساخته می‌شوند نیز دارای رتبه خواهند بود. برای مثال برحسب شعبه‌های مختلف یک فروشگاه زنجیره‌ای (متغیر طبقه‌ای) می‌توان رتبه فروش را محاسبه کرد و در یک نمودار ستونی (Column Chart) یا نمودار میله‌ای (Bar Chart) نمایش داد.
  3. جزء نسبت به کل: مقادیر نسبت یا نسبی از حاصل تقسیم یک جزء به کل (Part-to-Whole) ساخته می‌شوند. به این ترتیب داده‌های دو بعدی را می‌توان به صورت نسبت در آورده و در یک نمودار دایره‌ای (Pie Chart) نمایش داد. برای مثال نمایش سهم از بازار در بین چند فروشگاه زنجیره‌ای بواسطه چنین نمودارهایی، به خوبی امکان مقایسه را به بیننده می‌دهد.
  4. نمایش اختلاف‌ها: گاهی لازم است که یک مقدار کمی را در بین چند گروه با یکدیگر مقایسه کنیم. بخصوص زمانی که هدف مقایسه گروه‌ها با یک استاندارد یا گروه مرجع مطرح باشد. برای مثال نمودار میله‌ای (Bar Chart) برای مقایسه و نمایش اختلافات بودجه محقق شده و برنامه‌ریزی شده در حوزه‌های مختلف صنعت، خدمات و بانک‌داری، بسیار کارآمد عمل می‌کند.
  5. توزیع فراوانی: یک نمودار فراوانی (Frequency Chart) که اغلب به هیستوگرام (Histogram) معروف است، مقادیر مختلف عددی را به صورت دسته‌ یا گروه‌هایی که شامل فاصله‌های عددی مشخص و طبقه‌بندی کرده و تعداد اعضای گروه‌ها یا فراوانی آن‌ها را شمارش می‌کند. شکل این نمودار به صورت مستطیل‌هایی با ضخامت فاصله‌های عددی و ارتفاع برحسب فراوانی ترسیم می‌شود. معمولا این نمودارهای براساس «جدول فراوانی» (Frequency Table) ایجاد می‌شوند. به این ترتیب گروه‌ها از لحاظ اعضایشان قابل مقایسه می‌شوند. همچنین «نمودار جعبه‌ای» (Boxplot) که توسط آمار شناس بزرگ «جان توکی» (John Tukey) ابداع شده، روشی دیگری برای نمایش توزیع فراوانی داده‌ها است. این نمودار، شاخص‌های دیگری مانند میانه و چارک‌ها را هم نشان می‌دهد. نمایش نقاط پرت (Outlier) از کاربردهای مهم این نمودار محسوب می‌شود. او اعتقاد دارد یک نمودار باید آن چیزی که شما با نگاه کردن به داده‌ها متوجه نمی‌شوید را در دیدتان قرار داده و شما را متعجب سازد.
  6. همبستگی: یکی از روش‌های نمایش وابستگی بین دو  متغیر، رسم نمودارهای پراکندگی (Scatter/Dot Plot) است. معمولا در چنین نموداری، همبستگی (Correlation) بین دو  متغیر به خوبی دیده می‌شود. مشخص است که در صورت همبستگی شدید بین دو متغیر، با دانستن مقدار یکی از آن‌ها، دیگری را می‌توان پیش‌بینی کرد. معمولا متغیر مستقل در محور افقی (X) و متغیر وابسته در محور عمودی (Y) مشخص می‌شود. توابع ریاضی (Functions) یا رابطه رگرسیونی (Regression Model) در چنین نمودارهایی به خوبی، ظاهر خواهند شد.
  7. مقایسه‌های متغیرهای اسمی: گاهی مقایسه بین دسته‌های مختلف که بوسیله داده‌هایی با مقیاس اسمی (Nominal Measure) ایجاد شده‌اند، هدف محقق است. از آنجایی که این گونه مقادیر دارای ترتیبی نیستند، نمی‌توان برای آن‌ها نمودارهای یک شکلی در نظر گرفت. ولی اغلب براساس بیشترین فراوانی می‌توان گروه‌ها را مرتب و در یک نمودار ستونی یا میله‌ای نمایش داد. برای مثال «نمودار پارتو» (Pareto Chart) یکی از این گونه روش‌ها در مصورسازی داده محسوب می‌شود.
  8. نمودارهای جغرافیایی یا نقشه‌ای: امروزه نمایش گزارشات مرتبط با حوزه‌های جغرافیایی مختلف در نمودارهایی که شامل نقشه یک ناحیه است، تکمیل می‌شوند. به این ترتیب علاوه بر نمایش شاخص‌هایی مورد نظر، نواحی و مختصات طول و عرض جغرافیایی نیز به همراه نمودار دیده می‌شود. نمودار نقشه آماری (Cartogram) یک نمونه از این گونه نمودارها است.
cartogram
تصویر ۳- نمونه یک نقشه آماری (Cartogram)

تحلیلگرانی که مجموعه‌ای از داده‌ها را بررسی می‌کنند، ممکن است بیش از یک نمودار را به منظور مصورسازی داده به کار گیرند. به این ترتیب انتخاب بهترین شیوه یا روش برای نمایش داده‌ها، یک هنر محسوب شده که البته تکنیک‌های فنی نیز در آن نقش خواهد داشت. به همین علت مصورسازی داده را یک هنر و علم قلمداد کرده‌اند.

درک تصویری و مصورسازی داده

ذهن انسان می‌تواند تفاوت در طول خط، شکل، جهت‌گیری و رنگ (شدت رنگ) را به راحتی تشخیص دهد، بدون آنکه تلاش قابل توجهی برای پردازش آن‌ها صورت گیرد. این ویژگی‌ها به “خصوصیات پیش از توجه” (Pre-attentive Attributes) معروف هستند. به عنوان مثال، برای شناسایی تعداد دفعات تکرار رقم “5” در یک سری اعداد، به زمان و تلاش یا «پردازش توجه» زیادی نیاز است، اما اگر این رقم در اندازه، جهت یا رنگ با بقیه اعداد متفاوت باشد، تشخیص آن با سرعت توسط ذهن صورت خواهد گرفت.

5 in pool of numbers

مصورسازی داده به شرطی موثر و مورد توجه است که از خاصیت و ویژگی‌های «قبل از توجه» بیشترین بهره را برده باشد. برای مثال‌، از آنجا که انسان ها راحت‌تر می‌توانند اختلاف در طول خط را نسبت به اختلاف در سطح، پردازش کنند، ممکن است استفاده از نمودار میله‌ای (که از طول خط برای نشان دادن مقادیر استفاده می کند) مؤثرتر از نمودار دایره‌ای (که برای نشان دادن مقایسه از سطح استفاده می کنند) در بیان داده‌ها عمل کرده و با سرعت بیشتری اطلاعات را منتقل کند.

ادارک، شناخت و تجسم در انسان

می‌توان گفت که تقریباً همه روش‌های تجسمی برای نمایش داده‌ها به مصرف انسانی می‌رسند (مگر آنکه حیوانات و حتی ربات‌ها را هم وادار به دیدن و استنباط از روی نمودار بکنیم). به همین علت آگاهی از نحوه ادراک و شناخت انسان، هنگام طراحی مصورسازی داده ضروری است.

شناخت نسبت به فرآیندهای یادگیری در انسان، مانند «ادراک» (Perception)، «توجه» (Attention)، «یادگیری» (Learning)، «حافظه» (Memory)، «اندیشه» (Thought)، «شکل‌گیری مفهوم» (Concept Formation)، «خواندن» (Reading) و «حل مسئله» (Problem Solving)، کلیدهای اصلی برای انتقال اطلاعات به شکل‌های مختلف مانند متنی، تصویری یا صوتی، هستند. پردازش بینایی انسان در تشخیص تغییرات و انجام مقایسه بین مقادیر، اندازه، شکل نسبت به بقیه حس‌ها، بسیار کارآمد است.

هنگامی که متغیرهای عددی به صورت نمادین به خصوصیات بصری تبدیل می‌شوند، انسان می‌تواند حجم زیادی از داده‌ها را در زمان کوتاه پردازش کند. به همین علت کارآمدی ابزار مصورسازی داده به شکلی قابل قبول مورد توجه است.

تخمین زده می‌شود که حدود ۶۰ درصد از نورون‌های مغز می‌توانند در پردازش بینایی نقش داشته باشند. تجسم خلاق، رویکرد متفاوتی را برای نشان دادن ارتباطات و روابط بین مقادیر به صورت بلقوه به انسان می‌دهد که بدون استفاده از ابزارهای بصری امکان ایجاد آن وجود ندارد. به همین دلیل تجسم می‌تواند به ابزاری برای اکتشاف شهودی و تحلیل‌ داده تبدیل شود.

تاریخچه مصورسازی داده

هیچ تاریخچه‌ای از شیوه یا روش‌های مصورسازی داده وجود ندارد زیرا کل پیشرفت تفکر بصری و بازنمایی بصری داده‌ها به صورت تدریجی و با رشد و بلوغ قدرت‌های ذهنی بشر، ایجاد شده است. خطوط تصویری، نقاشی‌های درون غارها، همگی روش‌هایی برای انتقال اطلاعات از فردی به فرد دیگر یا نسلی به نسلی دیگر محسوب می‌شوند.

برخلاف تصور عمومی، مصورسازی داده یک پیشرفت مدرن و امروزی نیست. تصاویر مربوط به اجرام سماوی و ستاره‌ها روی دیوارهای غارها (مانند اطلاعات موجود در غار لاساکس در جنوب فرانسه) بیانگر قدمت مصورسازی داده است. آثار باستانی قابل لمس همچون لوح‌های گلی و سفالی بین النهرین (5500 سال قبل از میلاد)، میله‌های باستانی اینکاها (2600 قبل از میلاد مسیحی) و نمودارهای چوب در جزایر مارشال نیز می‌توانند به عنوان تجسم و تصویر سازی از اطلاعات کمی در نظر گرفته شوند.

اولین تجسم داده‌های مستند شده را می‌توان در قرن ۱۱۶۰ قبل از میلاد مشاهده کرد. «نقشه تورین پاپیروس» (Turin Papyrus Map) که به طور دقیق، توزیع منابع زیرمینی را نشان می‌دهد، یکی از این گونه مستندات است. این نقشه‌ها را می‌توان به عنوان جد علم نقشه‌برداری در نظر گرفت. نقشه تورین پاپیروس نوعی تجسم داده است که اطلاعات خاص را از طریق یک تصویر جغرافیایی طراحی شده، با یک موضوع خاص در یک منطقه جغرافیایی مشخص، مرتبط می‌کند.

TurinPapyrus1
تصویر ۴: نقشه تورین روی پاپیروس، نمایش منابع و بهره‌گیری از آن‌ها توسط مصریان

نخستین اشکال مستندسازی تجسم نقشه‌ها، موضوعی متشکل از فرهنگ‌ها و ایدئولوژی‌ها و سلسله مراتب اجتماعی است. به عنوان مثال، جداول سنگی خطی B از یونان باستان (Linear B Table)، تجسم اطلاعات مربوط به معاملات دوره عصر برنز در حوزه جغرافیایی مدیترانه را ارائه می‌دهد. همچنین ایده به کارگیری از مختصات توسط نقشه برداران مصری باستان در شهرسازی مورد استفاده قرار گرفت. موقعیت‌ها و مختصات خاکی و آسمانی، توسط چیزی شبیه به عرض و طول جغرافیایی حداقل تا سال‌ها قبل از میلاد مسیح، مطرح بود. تشکیل نقشه یک زمین کروی با عرض و طول جغرافیایی که توسط «کلودوس بطلمیوس» (Claudius Ptolemy) در اسکندریه ابداع شده بود تا قرن ۱۴ میلادی به عنوان معیارهای اصلی و مرجع به کار می‌رفت.

اما با اختراع کاغذ همه چیز متحول و با سرعت بیشتری رشد کرد. کاغذ، امکان توسعه بیشتر تجسم و تصویر سازی را در طول تاریخ فراهم کرد. اشکال و نمودارها از قرن دهم یا احتمالاً یازدهم برای نمایش تصویری حرکت سیاره‌ها در پیوست کتاب‌های درسی در مدارس صومعه مورد استفاده قرار می‌گرفت.

ظاهراً چنین ترسیم‌هایی، برای نشان دادن نقشه‌ای از مدارهای سیاره‌ای به عنوان تابعی از زمان به کار می‌رفته‌اند. برای مثال در علم هیئت و اجرام سماوی، ناحیه منطقهالبروج را در یک صفحه با یک خط افقی تقسیم شده به سی قسمت به عنوان محور زمان یا طولی نمایش می‌دادند. محور عمودی نیز در این نقشه‌ها، پهنای منطقهالبروج را تعیین می‌کند. به نظر می‌رسد مقیاس افقی برای هر سیاره به صورت جداگانه انتخاب شده. متن همراه این گونه نقشه‌ها فقط به مقادیر اشاره دارد و منحنی‌ها ظاهراً به زمان ارتباطی ندارند. نمونه‌ای از این نقشه را در تصویر ۵، مشاهده می‌کنید.

Planetary_Movements
تصویر ۵: نمایش حرکت سیارات و اجرام سماوی

تا قرن شانزدهم میلادی، تکنیک‌ها و ابزارهای دقیق برای مشاهده و اندازه‌گیری مقادیر اجسام و موقعیت‌های جغرافیایی و سماوی به خوبی توسعه یافته بودند. این ابزارها با کمک علم مثلثات و و سایر روش‌های محاسباتی، قادر به تعیین دقیق مکان‌های نقشه‌برداری شده بودند.

فیلسوف و ریاضیدان فرانسوی «رنه دکارت» (René Descartes) و «پیر دِ فرما» (Pierre de Fermat)، هندسه تحلیلی و سیستم مختصات دو بعدی را توسعه دادند که به طور کامل بر روش‌های علمی و عملی نمایش و محاسبه مقادیر تأثیر گذاشت. کار «فرما» و «بلیز پاسکال» (Blaise Pascal) در مورد آمار و نظریه احتمال، زمینه ساز مفهوم داده (Data) و ابزارهای به کارگیری آن شد.

Descartes
تصویر ۶: رنه دکارت فیلسوف و دانشمند فرانسوی
تصویر۷: فرما، دانشمند و ریاضی‌دان فرانسوی

این تحولات به «ویلیام پلیفر»‌ (William Playfair) کمک کرد که روش‌های گرافیکی آماری را برای نمایش ارتباط داده‌های کمی ایجاد کند. در تصویر ۸، نمونه‌ای از نمودار سری زمانی ترسیم شده توسط او دیده می‌شود.

Playfair_TimeSeries plot
تصویر ۸: نمایش داده‌های سری زمانی مربوط به واردات و صادرات سال‌های ۱۷۰۰ تا ۱۷۸۰، ترسیم شده توسط پلیفیر

«جان توکی» و «ادوارد توفت»، مرزهای مصورسازی داده را به جلو بردند. «توکی» با رویکرد جدید و با نگرش آماری خود، در تجزیه و تحلیل داده‌های اکتشافی گام‌های موثری برداشت. همچنین «توفت» با کتاب «نمایش تصویری اطلاعات کمی»، راه و روش‌هایی برای تصحیح تکنیک‌های مصورسازی داده‌ها، برای کسانی که با آمار آشنایی نداشتند، معرفی کرد.

John Tukey
تصویر ۹: جان توکی (John Tukey)، ریاضیدان و آمارشناس آمریکایی

با پیشرفت تکنولوژی، تکنیک‌های موثر و جدیدتری نیز در مصورسازی داده‌ها بوجود آمد. به این ترتیب استفاده از رایانه‌ها به جای استفاده از روش‌های ترسیم دستی، برنامه‌های کاربردی بسیاری را وارد بازار کار کرده بطوری که سرعت و دقت و همچنین تنوع نمودارها و روش‌های مصورسازی وارد مرزهای جدیدی گردید.

برنامه‌های کاربردی مانند SAS ، SOFA ، R ، Minitab ، Cornerstone و موارد دیگر، امکان تجسم و مصورسازی داده ها در زمینه‌های مختلف بخصوص آمار را فراهم کرده‌اند. سایر برنامه‌های مصورسازی داده بیشتر متمرکز بر زبان‌های برنامه‌نویسی مانند D3 ، Python و JavaScript هستند. بسیاری از رشته‌های دانشگاهی و حتی مدارس نیز دوره‌هایی برای آموزش مصورسازی داده تدارک دیده‌اند.

با شروع سمپوزیوم «کشف داده» در سال 2013 ، کالج طراحی ArtCenter ، Caltech و JPL در Pasadena یک برنامه سالانه در زمینه تجسم داده ها را به صورت تعاملی، اجرا کردند. این برنامه‌ها سعی دارند به پرسش‌هایی در زمینه مصورسازی داده پاسخ دهند. بعضی از سوالاتی که هدف اجرای چنین برنامه‌ای است، در ادامه به صورت فهرست‌وارد ذکر شده‌اند.

  • چگونه تجسم تعاملی داده‌ها، می‌تواند به دانشمندان و مهندسین کمک کند تا رفتار داده‌های خود را به طور مؤثرتر کشف کنند؟
  • چگونه محاسبات و تفکر طراحی می‌تواند به نتیجه بخش بودن نتایج تحقیقات کمک کند؟
  • برای کسب دانش در این زمینه چه روش‌هایی مؤثر است؟

این برنامه آموزش و کارگا‌های مربوطه، با کدگذاری اطلاعات رابطه‌ای با خصوصیات دیداری و تعاملی مناسب، برای به دست آوردن بینش جدید به داده‌ها ، رویکردهای بین رشته‌ای جدیدی را برای حل مشکلات علمی پیچیده، طراحی کرده است.

واژه‌شناسی

تجسم داده‌ها شامل اصطلاحات خاصی است که برخی از آنها از علوم آماری گرفته شده است. به عنوان مثال، مقیاس‌های اندازه‌گیری که در آمار تعریف می‌شوند در اینجا هم به کار برده خواهند شد. این مقیاس‌ها و واژه‌های مرتبط به منظور هماهنگی با اصطلاحات آماری به کار می‌روند. در ادامه اصطلاحات اصلی که مربوط به نوع مقادیر و نحوه نمایش آن‌ها است، ارائه می‌شود:

  • طبقه‌ای (Categorical): برچسب‌های متنی که ماهیت اطلاعاتی دارند، مانند اسم، جنس یا رده شغلی، از نوع مقادیر طبقه‌ای هستند. به کمک این گونه مقادیر، می‌توانیم جامعه را دسته‌بندی یا گروه‌بندی کنیم. این داده‌ها معمولا به صورت غیر عددی بوده و به کمک کدگذاری، به اعداد تبدیل می‌شوند. باید توجه داشت که این اعداد قابلیت انجام محاسبات ریاضی نداشته و نمی‌توان آن‌ها را مرتب کرد.
  • مقداری (Quantitative): مقدارهای عددی حاصل از اندازه‌گیری یا شمارش، در گروه داده‌های مقداری قرار می‌گیرند. برای مثال دستمزدها، میزان جمعیت و فشار خون بیماران از نوع داده‌های مقداری هستند.
  • جدول (Table): جدول حاوی داده‌های کمی و عددی است که بر اساس نظم خاصی در ردیف‌ها و ستون‌های قرار گرفته‌اند. ردیف‌ها یا ستون‌ها به کمک برچسب‌هایی طبقه‌ها را مشخص می‌کنند و محل تقاطع سطرها با ستون‌ها شاخص‌های عددی مانند فراوانی یا میانگین را برای گروه‌ها، نمایش می‌دهند. در درجه اول از جدول برای جستجوی مقادیر خاص استفاده می‌شود. جدول ممکن است دارای برچسب‌های ستونی دسته‌ای باشد که نام متغیرهای کمی (مثل سن و وزن) بوده و سطرها نیز بیانگر متغیر کیفی مثلا نام افراد باشد. مقادیر درون خانه‌های جدول نیز سن و وزن هر یک از افراد را نشان می‌دهد.
  • نمودار (Graph): از نمودارها معمولا برای نمایش روابط بین داده‌ها و مقادیر متغیرهای طبقه‌ای استفاده می‌شود. این شیوه‌های نمایشی با تکیه بر ویژگی‌های بصری انسان مثلا تشخیص خطوط، ارتفاع میله‌ها یا فاصله نقاط از یکدیگر ایجاد می‌شوند. مقادیر عددی در ناحیه‌ای مشخص می‌شوند که توسط یک یا چند محور محصور شده‌اند. این محورها مقیاس‌های (کمی و طبقه‌ای) را برای برچسب زدن و اختصاص مقادیر به اشیاء بصری فراهم می‌کنند. به این نمودار گاهی نگاره نیز گفته می‌شود.

نمونه‌ای از نمودارهای مورد استفاده در مصورسازی داده

در ادامه شکل ظاهری بعضی از نمودارهایی که بخصوص در مصورسازی داده به کار می‌روند، اشاره شده است. واضح است که هر یک از آن‌ها، برای بیان ویژگی خاصی به کار می‌روند.

  • نمودار میله‌ای: مقایسه تعداد نامه‌های الکترونیکی ارسال شده (محور عمودی – داده کمی) برحسب روز‌های هفته (محور افقی – داده طبقه‌ای)
Tips-day-barchart.pdf
تصویر ۱۰: یک نمونه از نمودار میله‌ای یا ستونی
  • نمودار فراوانی (هیستوگرام – Histogram): این نمودار، فراوانی گروه‌های مختلف را نمایش می‌دهد. برای مثال نمودار فراوانی قیمت خانه‌ها، شامل فراوانی (محور عمودی- شمارشی) و محور افقی دسته‌ یا گروه‌های قیمتی (کیفی- ترتیبی) است.
Housingprice
تصویر ۱۱: یک نمونه از نمودار فراوانی یا هیستوگرام (Histogram)

نمودار پراکندگی (Scatter Plot): نمایش ارتباط بین دو متغیر کمی (عددی) در این نمودار صورت می‌گیرد. هر دو محور افقی و عمودی عددی بوده و مدل رابطه (همبستگی) بین دو متغیر نمایش داده می‌شود.

Scatterplot5.pdf
تصویر ۱۱: یک نمونه از نمودار نقطه‌ای برای نمایش رابطه بین دو متغیر عددی

نمودار پراکندگی سه بُعدی (3D Scatter Plot): هر سه محور به صورت عددی بوده و برای نمایش توابع دو متغیره مناسب است. مثلا $$ z = f(x , y ) $$ توسط این گونه نمودارها ترسیم می‌شود.

Scatter_plot
تصویر ۱۲: نمونه‌ای از نمودار نقطه‌ای سه بعدی و رنگی

نمودار شبکه‌ای (Network): در این گونه نمودارها، ارتباط بین نقطه‌ها مد نظر بوده و برای نمایش گراف‌ها و نمایش راس و اضلاع یک گراف یا جنگل، که از مفاهیم ریاضیات گسسته هستند، به کار می‌رود. با رشد شبکه‌های اجتماعی، استفاده از این گونه نمودارها گسترش یافته و به این ترتیب نحوه ارتباط بین افراد و اجتماعات انسانی و شبکه‌ها، به خوبی نمایش داده می‌شود.

Social_Network_Analysis_Visualization
تصویر ۱۳: نمایش یک نمودار شبکه‌ای و ارتباط بین نقاط یک جنگل

 

نمودار جریان (Streamgraph): در این نمودار روند تغییرات برای چندین متغیر (هم واحد) روی یک نمودار دو بُعدی ترسیم می‌شود. به همین دلیل استفاده از این نوع نمودار امکان مقایسه بین مقادیر در طول زمان را میسر خواهد ساخت.

streamgraph
تصویر ۱۴: نمودار جریان برای نمایش روند تغییرات چند متغیره

نمودار نقشه درختی (Treemap): این نمودارها برای نمایش دو ویژگی هم‌زمان در بین چندین گروه مناسب است. البته تفاوت آن با نمودار دایره‌ای در تعداد زیاد گروه‌ها است که این نمودار را بخصوص در نمایش نحوه عملکرد شرکت‌ها در بورس مورد پسند کاربران کرده است.

treemap
تصویر ۱۵: نمودار نقشه درختی برای نمایش جمعیت و مساحت کشورهای مختلف جهان

نمودار گانت (Gantt Chart): از نمودار گانت برای نمایش انجام فعالیت‌ها برحسب زمان صورت می‌گیرد. ارتباط بین فعالیت‌ها نیز در چنین نموداری ظاهر شده و اطلاعات زیادی در رابطه با تاریخ شروع، خاتمه و پیش‌نیازهای یک فعالیت در آن دیده می‌شود.

GanttChart
تصویر ۱۶: نمودار گانت برای نمایش رابطه بین فعالیت‌ها برحسب زمان

نقشه گرمایی (Heat Map): برای نمایش همزمان چند متغیر و رابطه بین گروه‌ها، این نمودار به خوبی عمل می‌کند. استفاده از این نمودار درست به مانند یک جدول توافقی است که می‌تواند بین دو یا چند گروه، یک یا چند شاخص محاسباتی را مقایسه کند.

Heatmap
تصویر ۱۷: نمودار نقشه گرمایی برای نمایش ارتباط بین دو یا چند متغیره گروهی و شاخص‌های محاسباتی بین گروه‌ها

گراف نواری (Strip Graphic): این نمودار دارای یک محور افقی است و مقادیر براساس اندیسی که روی محور افقی دارند، مرتب شده‌اند. رنگ‌ها نیز بیانگر شدت یا ضعف (کوچکی یا بزرگی) یک ویژگی عددی هستند.

stripe graphic
تصویر ۱۸: نمایش یک نمودار نواری برای مقایسه دمای یخ‌های قطبی نسبت به میانگین دوره

نمودار مارپیچی (Spiral Graph): نمایش تغییرات یک پدیده در طول زمان در این نمودار توسط دایره‌های که مرکز آن مبدا یا مجموعه مرجع را نشان می‌دهد، توسط نمودار مارپیچی صورت می‌گیرد.

SpiralEdHawkins
تصویر ۱۹: نمودار متحرک مارپیچی برای نمایش تغییرات گرمایی کره زمین در سال‌های ۱۸۵۰ تا ۲۰۱۸

مقایسه ویژگی‌های نمودارهای مختلف در مصورسازی داده

در جدول زیر ویژگی‌های نمودارهای مطرح در مصورسازی داده، مانند کاربرد، متغیرهای مورد استفاده و مثال‌های واقعی با یکدیگر مقایسه شده‌ است.

نام نمودار متغیرها و ابعاد به کار رفته در نمودار  ویژگی مثال کاربردی
نمودار میله‌ای / ستونی (Bart /Column Chart) اندازه / شمارش

متغیر گروهی یا طبقه‌ای

رنگ برای تمایز بین دسته‌های متفاوت به عنوان متغیر دوم گروه بندی

مقایسه بین شاخص‌هایی مانند میانگین یک اندازه یا شمارش اعضای یک دسته مقایسه فروش به تفکیک شعب یک فروشگاه زنجیره‌ای با در نظر گرفتن شیفت صبح و شب
نمودار فراوانی/ هیستوگرام (Histogram) تعداد / متغیر شمارشی

دسته‌ یا گروه‌ها

رنگ برای تمایز گروه‌ها

مقایسه بین تعداد یا فراوانی بین گروه یا دسته‌ها مقایسه بین تعداد دختران و پسران دانش‌آموز در رده‌های سنی مختلف
نمودار نقطه‌ای / پراکندگی (Scatter /Dot Plot) محور x

محور y

نماد یا نشانه‌گذاری نقاط

اندازه (به صورت بزرگی یا قطر هر نقطه)

رنگ (برای نمایش دسته‌ها)

به منظور نمایش رابطه بین دو متغیر عددی x (مستقل) با y (وابسته) با در نظر گرفتن متغیر سوم (اندازه) به عنوان متغیر عددی مستقل در دسته یا گروه‌هایی که توسط نماد یا رنگ مشخص شده‌اند. نمایش رابطه طول قد و وزن افراد برحسب جنسبت (رنگ) و همچنین نژاد (نماد) با توجه به متوسط کالری دریافتی (اندازه)
نمودار نقطه‌ای سه بُعدی (3D Scatter Plot) محور x

محور y

محور z

رنگ (برای نمایش دسته‌ها)

به منظور نمایش رابطه بین دو متغیر عددی مستقل (x , y) با در نظر گرفتن متغیر سوم وابسته (z) و در دسته یا گروه‌هایی که توسط رنگ مشخص شده‌اند. رسم توابع ریاضی دو یا چند متغیره در فضای سه بُعدی
نمودار شبکه (Network Plot) گره یا راس‌ها (موقعیت)

رنگ گره‌ها (گروه یا دسته)

بزرگی یا کوچکی اندازه گره‌ها

اضلاع یا خطوط ارتباطی

مقدار عددی برای ضخامت خطوط ارتباطی

دوری و نزدیکی گره‌ها

ارتباط بین متغیرهای گروهی براساس شده رابطه یا بزرگری جمعیتی در هر گروه نمایش شبکه‌های اجتماعی و ارتباط کاربران با یکدیگر یا نمایش تعداد اعضای گروه‌های پرطرفدار یا محبوب در شبکه‌های اجتماعی.

ایجاد خوشه‌های همگن و هم شکل

تشخیص نقاط دورافتاده یا پرت که به هیچ دسته یا گروهی تعلق ندارند.

نمایش گروه یا افرادی که نقش ارتباطی دارند.

تعیین افراد یا گروه‌های تاثیرگذار در شبکه‌های اجتماعی مناسب برای شرکت‌ها و نهادهای خدماتی برای تاثیر بیشتر روی جامعه هدف

 

نمودار جریان (Streamgraph) پهنای نوارها (متغیر عددی)

رنگ (دسته‌ها)

محور افقی (زمان یا جریان)

پیگیری تغییرات یک پدیده براساس چندین متغیر در بین چندین گروه میزان مرگ و میر (ارتفاع) براساس عوامل مختلف سوانح رانندگی و مقایسه ماه‌ها (ضخامت) مشابه در سال‌های مختلف
نمودار نقشه درختی (Treemap Chart) اندازه (متغیر کمی)

رنگ (متغیر طبقه‌ای)

مقایسه بین چندین گروه براساس یک متغیر کمی نمایش میزان حجم، ارزش، تعداد سهام فروخته شده در بازار بورس
نمودار گانت (Gantt Chart) زمان (محور افقی)

رنگ (دسته یا فعالیت‌ها)

تحلیل روند فعالیت‌ها (تقدم و تاخیر) به همراه طول دوره فعالیت نمودار روند پیشرفت کار پیمانکاران و تحلیل عملیات توسط کارفرما
نقشه گرمایی (Heat Map) سطر (دسته‌ها)

ستون (دسته‌ها)

خوشه‌ها (گرو‌های هم‌ شکل)

رنگ‌ها (فاصله بین اعضای خوشه)

تشخیص دسته‌های همسان و نمایش همسانی براساس رنگ‌ها نمودار مقایسه روش‌های خوشه یا دسته‌بندی
گراف نواری (Strip Graph) محور افقی (دسته‌ها)

رنگ‌ها (شدت متغیر عددی)

مقایسه بین مقادیر مختلف و اختلاف آن‌ها از مرکز نمودار به عنوان مقدار مرجع نمایش تغییرات دما نسبت به یک تاریخ خاص (مرجع)

میزان رشد ویروس کرونا (Corona Virus) در یک دوره زمانی

نمودار مارپیچی (Spiral Graph) شعاع دایره‌ها (متغیر وابسته)

زاویه چرخش (متغیر تناوب – ماه)

رنگ (سال‌های مختلف)

نمایش روند تغییرات یک متغیر وابسته به زمان به تفکیک و تقسیم ماه یا دوره‌های تناوب مشخص در سال‌های گوناگون نمایش میزان گرمایش زمین برحسب ماه و سال‌های مختلف

رنگ‌ها نشانگر سال‌ها و قطاع‌ها نیز ماه‌ها را نشان می‌دهند.

قطر هر یک از دایره نیز میزان گرما را به عنوان یک متغیر وابسته به زمان نشان می‌دهد. (رجوع کنید به تصویر ۱۹)

خلاصه و جمع‌بندی

در این نوشتار با شیوه‌های مختلف مصورسازی داده آشنا شده و همچنین تاریخچه و ویژگی‌های آن را یادآوری کردیم. ابزارهای آماری و بهره‌گیری از ترسیم‌های آماری نیز در مصورسازی داده‌ نقش مهمی دارند بطوری که شاید بتوان مصورسازی داده را برگرفته از آماری توصیفی دانست. معرفی نمودارهای مهم و عملکرد آن‌ها در مصورسازی داده‌ نیز در این نوشتار نیز از مواردی بود که به آن پرداختیم.

اگر این مطلب برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای 8 نفر
آیا این مطلب برای شما مفید بود؟
شما قبلا رای داده‌اید!
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

یک نظر ثبت شده در “مصورسازی داده — مفاهیم و کاربردها

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *