کاربرد اصل پارتو در علم داده — به زبان ساده
در این مطلب، راهکارهایی بیان شده که با بهرهگیری از آنها، «دانشمندان داده» (Data Scientists) میتوانند از قدرت «اصل پارتو» (Pareto Principle) برای انجام فعالیتهای خود بهرهمند شوند. در ادامه، ابتدا به بیان مفاهیم و تعاریف و سپس، کاربرد اصل پارتو در علم داده پرداخته خواهد شد.
اصل پارتو چیست؟
بیش از یک قرن پیش، «ویلفردو پارتو» (Vilfredo Pareto)، مهندس، جامعهشناس، اقتصاددان و فیلسوف، نتایج تحقیقات خود پیرامون توزیع ثروت در جامعه را منتشر کرد. نتایج این پژوهش حاکی از آن بود که ٪۸۰ از ثروت، در اختیار ٪۲۰ از افراد جامعه است. این نتیجه، اقتصاددانها، جامعهشناسها و دانشمندان علوم سیاسی را شگفتزده کرد.
در طول قرن گذشته، پیشگامان متعددی در زمینههای گوناگون شاهد این توزیع غیر متناسب در چندین زمینه از جمله کسب و کار بودند. این نظریه که تعداد بسیار کمی از ورودیها/علتها (برای مثال ٪۲۰) به طور مستقیم روی بخش قابل توجهی از خروجیها/معلولها (برای مثال ٪۸۰) تاثیر میگذارد، تحت عنوان «اصل پارتو» (Pareto Principle) شناخته شده است؛ که به آن، قانون ۲۰-۸۰ نیز میگویند.
اصل پارتو بسیار ساده و در عین حال، ابزار مدیریتی بسیار قدرتمندی است. مدیران کارآفرین از دیرباز برای برنامهریزیهای استراتژیک و تصمیمسازیهای خود از اصل پارتو استفاده میکردند. مشاهداتی مانند اینکه ٪۲۰ از فروشگاهها ٪۸۰ درآمد را ایجاد میکنند، ٪۲۰ از نرمافزارها منجر به ٪۸۰ مشکلات سیستم میشوند، ٪۲۰ از ویژگیهای محصول منجر به ٪۸۰ از فروشها میشوند، از جمله موضوعات محبوب در زمینه کسب و کار هستند و تصمیمسازان سازمانها در تلاش برای پیدا کردن این ٪۸۰ در دنیای خودشان هستند.
بدین شکل، آنها قادر به برنامهریزی و اولویتبندی فعالیتهای خودشان هستند. در حقیقت، امروزه علم داده نقش اساسی در غربالگری حجم انبوهی از دادههای پیچیده برای کمک به شناسایی ویژگیهای پارتو در دادهها دارد. در حالی که دانشمندان داده به پیشبینی پارتوهای جدید برای کسب و کارها کمک میکنند، میتوانند از مزایای بررسی دادهها و گشتن به دنبال اصل پارتو در دادهها نیز بهرهمند شود. در این مطلب، راهکارهایی که با بهرهگیری از آنها، دانشمند داده میتواند از قدرت اصل پارتو برای فعالیتهای خود استفاده کند، بیان شده است.
اولویتبندی پروژهها
مدیران/رهبران پروژههای علم داده، به ناچار نیاز به کمک برای توسعه استراتژیهای تحلیلی در سازمان خود دارند. در حالی که رهبران تجاری گوناگون میتوانند نیازهای خود را به اشتراک بگذارند، دانشمندان داده نیاز دارند تا همه این نیازهای سازمانی (یا واحدهای کسب و کار) را تبیین کرده و آنها را در نقشه راه تحلیلی اولویتبندی کنند. یک رویکرد ساده، تعیین مقدار ارزش حل هر یک از نیازهای تحلیل و سپس، مرتبسازی آنها به ترتیب نزولی بر اساس ارزش است.
دانشمندان داده معمولا متوجه میشوند که چند مساله/بررسی موردی اول در این لیست، به شدت ارزشمند هستند (اصل پارتو)، و باید در اولویتی پیش از سایر موارد قرار بگیرند. در حقیقت، یک رویکرد خوب آن است که پیچیدگی حل/پیادهسازی هر مساله/بررسی موردی کمیسازی شود و بر اساس موازنه ارزش و پیچیدگی، کلیه موارد اولویتبندی شوند (برای مثال با ترسیم آنها روی نموداری که ارزش روی محور y و پیچیدگی روی محور x قرار دارد).
تعیین دامنه مساله
مسائل کسب و کار گرایش به مبهم و ساختارنیافته بودن دارند و شغل دانشمندان داده شناسایی دامنه صحیح مساله است. تعیین دامنه معمولا نیازمند تمرکز روی مهمترین جنبه مساله و کاهش اولویت جنبههایی که دارای اولویت کمتری هستند است.
برای شروع، بررسی توزیع خروجیها/معلولها با توجه به ورودیها/علتها، به دانشمند داده کمک میکند که در صورتی که پارتوهای سطح بالا در فضای مساله موجود باشند، از وجود آنها آگاه شود. متعاقبا، میتوان به بررسی ورودیها/علتها یا خروجیها/معلولهای خاصی نیز پرداخت. برای مثال، اگر ٪۲۰ از فروشگاهها، ۸۰٪ فروش را داشته باشند، میتوان سایر فروشگاههای باقیمانده را در یک خوشه قرار داد و تحلیلها را به جای انفرادی، به صورت خوشهای انجام داد.
تعیین دامنه مساله، شامل ارزیابی ریسک نیز میشود؛ ارزیابی عمیقتر اغلب به دانشمند داده میگوید که آیتمهای در صدر، منجر به ریسکهای به طور قابل توجهی بالاتری میشوند. این در حالی است که آیتمهای پایین لیست شانس بسیار دور از انتظاری برای وقوع دارند (اصل پارتو). دانشمند داده میتواند به جای پرداختن به همه ریسکها، زمان و تلاش خود را برای چند ریسک کلیدی، اولویتبندی کند.
برنامهریزی دادهها
مسائل کسب و کار پیچیده، نیاز به دادههایی فراتر از آنچه دارند که به صورت آماده در «دادهگاهها» (Data mart) موجود هستند. دانشمندان داده، نیاز به درخواست دسترسی، خرید، واکشی، تجزیه، پردازش و یکپارچهسازی دادهها از منابع داخلی/خارجی دارند. این موارد دارای اشکال، اندازهها، پیچیدگیها، هزینهها و موارد دیگر متفاوتی هستند.
منتظر ماندن برای برنامه کل دادهها برای به وقوع پیوستن، میتواند منجر به تاخیرهایی در پروژه شود که از دست دانشمند داده خارج است. یک راهکار ساده برای حل چنین مسالهای میتواند دستهبندی نیازهای دادهها بر مبنای ارزش آنها برای پایان راهکار باشد؛ برای مثال، «قطعا باید انجام شود»، «خوب است انجام شود» و «انجام آن دلخواه (اصل پارتو) است»، سه حالت ممکن برای حل یک مساله هستند. این کار به دانشمند داده کمک میکند روی مواردی که قطعا باید انجام شوند متمرکز شود و به وسیله موارد دلخواه درگیر و یا دچار تاخیر نشود. علاوه بر ارزش، در نظر گرفتن جنبههای هزینه، زمان و تلاشهای لازم برای «اکتساب داده» (Data Acquisition) به دانشمند داده در اولویتبندی بهتر اقدامات برنامهریزی دادهها کمک میکند.
تحلیل
عاقلانه است که گفته شود کارکنان ٪۸۰ از کار خود را تنها با ۲۰٪ از ابزارهایی که در اختیار دارند انجام میدهند. این امر برای دانشمندان داده نیز صحیح است. دانشمندان داده گرایش به استفاده از چندین روش تحلیل و مدل مشخص برای بخش عمدهای از کارهای خود دارند (اصل پارتو)، در حالی که روشهای دیگر را کمتر به کار میبرند. به عنوان مثالهایی برای فعالیتهای متداولی که در طول تحلیل دادهها انجام میشود، میتوان به توزیع دادهها، «تشخیص ناهنجاری» (Anomaly Detection)، جایگذاری «مقادیر ناموجود» (Missing Value)، «ماترس همبستگی» (Correlation Matrices) و دیگر موارد اشاره کرد.
به طور مشابه، برخی از فعالیتهای متداولی که در طول فاز مدلسازی انجام میشوند شامل «اعتبارسنجی متقابل» (Cross-Validation)، نمودارهای کنونی و پیشبینی شده، «ماتریس درهمریختگی» (Confusion Matrix) و تجزیه و تحلیل برای تنظیم فراپارامترها میشود. ساخت قابلیتهای کوچکی برای خودکارسازی (مانند کتابخانهها، قطعه کدها، رابطهای کاربری قابل اجرا) برای استفاده/دسترسی داشتن/پیادهسازی این تحلیلها، میتواند منجر به کارایی قابل توجهی در فرایند تحلیلها شود.
مدلسازی
در طول فاز مدلسازی، رسیدن به یک مدل که به شیوه قابل قبولی کار کند، خیلی به طول نمیانجامد. بیشترین صحت حاصل شده، اکنون به دست آمده است (اصل پارتو). کلیت پروژه پیرامون تنظیم صحیح مدل و تلاش برای کسب صحت به صورت افزایشی است.
گاهی اوقات، کسب صحت افزایشی برای ایجاد راهکاری قابل اعتماد برای کسب و کارها، لازم است. در دیگر شرایط، تنظیم دقیق مدل نیاز به افزودن ارزش زیاد به گزاره/بینش نهایی دارد. به عنوان یک دانشمند داده، فرد نیاز به شناخت این موقعیتها به منظور انجام مدلسازی به شیوه صحیحتر دارد.
ارتباطات تجاری
امروزه، اکوسیستم علم داده شدیدا چند رشتهای شده است. تیمها شامل تحلیلگران کسب و کار، دانشمندان یادگیری ماشین، مهندسان کلان داده، توسعهدهندگان نرمافزار و ذینفعان کسب و کارهای گوناگون میشوند. ارتباطات، یک عامل کلیدی برای موفقیت چنین تیمهایی است. فرد، به عنوان دانشمند دادهای که سخت تلاش میکند، ممکن است وسوسه شود که همه کارها شامل چالشها، تحلیلها، مدلها، بینشها و دیگر موارد را مکاتبه کند.
اما در جهان کنونی که مملو از اطلاعات است، اتخاذ چنین رویکردی مفید نخواهد بود. دانشمند داده نیاز به تشخیص موارد «بسیار مفید اما در تعداد کم» (اصل پارتو) و استفاده از این درک برای ساده کردن میزان اطلاعاتی که مکاتبه میشوند دارد. به طور مشابه، آنچه دانشمند داده بیان و نیازهایی که برجسته میکند، بر اساس مخاطب هدف (ذینفعان تجاری و دانشمندان داده) سفارشیسازی شدهاند.
خلاصه
اصل پارتو، قانونی قدرتمند و مفید برای دانشمندان داده است. با بهرهگیری از راهکاری صحیح، این روش به دانشمندان داده در حذف فعالیتهای غیر ضروری و بهینهسازی سایر فعالیتها کمک قابل توجهی میکند.
اگر نوشته بالا برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای دادهکاوی و یادگیری ماشین
- آموزش مقدماتی تحلیل دادهها با نرمافزار آماری Minitab
- مجموعه آموزشهای آمار و احتمالات
- قانون پارتو (Pareto Law) — تعریف و کاربردهای آن
- متغیر تصادفی و توزیع پارتو (Pareto Distribution) — مفاهیم و خصوصیات
- دادهکاوی (Data Mining) — از صفر تا صد
^^