کاربرد اصل پارتو در علم داده — به زبان ساده

۵۱۴ بازدید
آخرین به‌روزرسانی: ۱۱ تیر ۱۴۰۲
زمان مطالعه: ۵ دقیقه
دانلود PDF مقاله
کاربرد اصل پارتو در علم داده — به زبان ساده

در این مطلب، راهکارهایی بیان شده که با بهره‌گیری از آن‌ها، «دانشمندان داده» (Data Scientists) می‌توانند از قدرت «اصل پارتو» (Pareto Principle) برای انجام فعالیت‌های خود بهره‌مند شوند. در ادامه، ابتدا به بیان مفاهیم و تعاریف و سپس، کاربرد اصل پارتو در علم داده پرداخته خواهد شد.

997696

اصل پارتو چیست؟

بیش از یک قرن پیش، «ویلفردو پارتو» (Vilfredo Pareto)، مهندس، جامعه‌شناس، اقتصاددان و فیلسوف، نتایج تحقیقات خود پیرامون توزیع ثروت در جامعه را منتشر کرد. نتایج این پژوهش حاکی از آن بود که ٪۸۰ از ثروت، در اختیار ٪۲۰ از افراد جامعه است. این نتیجه، اقتصاددان‌ها، جامعه‌شناس‌ها و دانشمندان علوم سیاسی را شگفت‌زده کرد.

در طول قرن گذشته، پیشگامان متعددی در زمینه‌های گوناگون شاهد این توزیع غیر متناسب در چندین زمینه از جمله کسب و کار بودند. این نظریه که تعداد بسیار کمی از ورودی‌ها/علت‌ها (برای مثال ٪۲۰) به طور مستقیم روی بخش قابل توجهی از خروجی‌ها/معلول‌ها (برای مثال ٪۸۰) تاثیر می‌گذارد، تحت عنوان «اصل پارتو» (Pareto Principle) شناخته شده است؛ که به آن، قانون ۲۰-۸۰ نیز می‌گویند.

کاربرد اصل پارتو

اصل پارتو بسیار ساده و در عین حال، ابزار مدیریتی بسیار قدرتمندی است. مدیران کارآفرین از دیرباز برای برنامه‌ریزی‌های استراتژیک و تصمیم‌سازی‌های خود از اصل پارتو استفاده می‌کردند. مشاهداتی مانند اینکه ٪۲۰ از فروشگاه‌ها ٪۸۰ درآمد را ایجاد می‌کنند، ٪۲۰ از نرم‌افزارها منجر به ٪۸۰ مشکلات سیستم می‌شوند، ٪۲۰ از ویژگی‌های محصول منجر به ٪۸۰ از فروش‌ها می‌شوند، از جمله موضوعات محبوب در زمینه کسب و کار هستند و تصمیم‌سازان سازمان‌ها در تلاش برای پیدا کردن این ٪۸۰ در دنیای خودشان هستند.

بدین شکل، آن‌ها قادر به برنامه‌ریزی و اولویت‌بندی فعالیت‌های خودشان هستند. در حقیقت، امروزه علم داده نقش اساسی در غربال‌گری حجم انبوهی از داده‌های پیچیده برای کمک به شناسایی ویژگی‌های پارتو در داده‌ها دارد. در حالی که دانشمندان داده به پیش‌بینی پارتوهای جدید برای کسب و کارها کمک می‌کنند، می‌توانند از مزایای بررسی داده‌ها و گشتن به دنبال اصل پارتو در داده‌ها نیز بهره‌مند شود. در این مطلب، راهکارهایی که با بهره‌گیری از آن‌ها، دانشمند داده می‌تواند از قدرت اصل پارتو برای فعالیت‌های خود استفاده کند، بیان شده است.

اولویت‌بندی پروژه‌ها

مدیران/رهبران پروژه‌های علم داده، به ناچار نیاز به کمک برای توسعه استراتژی‌های تحلیلی در سازمان خود دارند. در حالی که رهبران تجاری گوناگون می‌توانند نیازهای خود را به اشتراک بگذارند، دانشمندان داده نیاز دارند تا همه این نیازهای سازمانی (یا واحدهای کسب و کار) را تبیین کرده و آن‌ها را در نقشه راه تحلیلی اولویت‌بندی کنند. یک رویکرد ساده، تعیین مقدار ارزش حل هر یک از نیازهای تحلیل و سپس، مرتب‌سازی آن‌ها به ترتیب نزولی بر اساس ارزش است.

کاربرد اصل پارتو

دانشمندان داده معمولا متوجه می‌شوند که چند مساله/بررسی موردی اول در این لیست، به شدت ارزشمند هستند (اصل پارتو)، و باید در اولویتی پیش از سایر موارد قرار بگیرند. در حقیقت، یک رویکرد خوب آن است که پیچیدگی حل/پیاده‌سازی هر مساله/بررسی موردی کمی‌سازی شود و بر اساس موازنه ارزش و پیچیدگی، کلیه موارد اولویت‌بندی شوند (برای مثال با ترسیم آن‌ها روی نموداری که ارزش روی محور y و پیچیدگی روی محور x قرار دارد).

تعیین دامنه مساله

مسائل کسب و کار گرایش به مبهم و ساختارنیافته بودن دارند و شغل دانشمندان داده شناسایی دامنه صحیح مساله است. تعیین دامنه معمولا نیازمند تمرکز روی مهم‌ترین جنبه مساله و کاهش اولویت جنبه‌هایی که دارای اولویت کمتری هستند است.

برای شروع، بررسی توزیع خروجی‌ها/معلول‌ها با توجه به ورودی‌ها/علت‌ها، به دانشمند داده کمک می‌کند که در صورتی که پارتوهای سطح بالا در فضای مساله موجود باشند، از وجود آن‌ها آگاه شود. متعاقبا، می‌توان به بررسی ورودی‌ها/علت‌ها یا خروجی‌ها/معلول‌های خاصی نیز پرداخت. برای مثال، اگر ٪۲۰ از فروشگاه‌ها، ۸۰٪ فروش را داشته باشند، می‌توان سایر فروشگاه‌های باقی‌مانده را در یک خوشه قرار داد و تحلیل‌ها را به جای انفرادی، به صورت خوشه‌ای انجام داد.

تعیین دامنه مساله، شامل ارزیابی ریسک نیز می‌شود؛ ارزیابی عمیق‌تر اغلب به دانشمند داده می‌گوید که آیتم‌های در صدر، منجر به ریسک‌های به طور قابل توجهی بالاتری می‌شوند. این در حالی است که آیتم‌های پایین لیست شانس بسیار دور از انتظاری برای وقوع دارند (اصل پارتو). دانشمند داده می‌تواند به جای پرداختن به همه ریسک‌ها، زمان و تلاش خود را برای چند ریسک کلیدی، اولویت‌بندی کند.

برنامه‌ریزی داده‌ها

مسائل کسب و کار پیچیده، نیاز به داده‌هایی فراتر از آنچه دارند که به صورت آماده در «داده‌گاه‌ها» (Data mart) موجود هستند. دانشمندان داده، نیاز به درخواست دسترسی، خرید، واکشی، تجزیه، پردازش و یکپارچه‌سازی داده‌ها از منابع داخلی/خارجی دارند. این موارد دارای اشکال، اندازه‌ها، پیچیدگی‌ها، هزینه‌ها و موارد دیگر متفاوتی هستند.

منتظر ماندن برای برنامه کل داده‌ها برای به وقوع پیوستن، می‌تواند منجر به تاخیرهایی در پروژه شود که از دست دانشمند داده خارج است. یک راهکار ساده برای حل چنین مساله‌ای می‌تواند دسته‌بندی نیازهای داده‌ها بر مبنای ارزش آن‌ها برای پایان راهکار باشد؛ برای مثال، «قطعا باید انجام شود»، «خوب است انجام شود» و «انجام آن دلخواه (اصل پارتو) است»، سه حالت ممکن برای حل یک مساله هستند. این کار به دانشمند داده کمک می‌کند روی مواردی که قطعا باید انجام شوند متمرکز شود و به وسیله موارد دلخواه درگیر و یا دچار تاخیر نشود. علاوه بر ارزش، در نظر گرفتن جنبه‌های هزینه، زمان و تلاش‌های لازم برای «اکتساب داده» (Data Acquisition) به دانشمند داده در اولویت‌بندی بهتر اقدامات برنامه‌ریزی داده‌ها کمک می‌کند.

تحلیل

عاقلانه است که گفته شود کارکنان ٪۸۰ از کار خود را تنها با ۲۰٪ از ابزارهایی که در اختیار دارند انجام می‌دهند. این امر برای دانشمندان داده نیز صحیح است. دانشمندان داده گرایش به استفاده از چندین روش تحلیل و مدل مشخص برای بخش عمده‌ای از کارهای خود دارند (اصل پارتو)، در حالی که روش‌های دیگر را کمتر به کار می‌برند. به عنوان مثال‌هایی برای فعالیت‌های متداولی که در طول تحلیل داده‌ها انجام می‌شود، می‌توان به توزیع داده‌ها، «تشخیص ناهنجاری» (Anomaly Detection)، جایگذاری «مقادیر ناموجود» (Missing Value)، «ماترس همبستگی» (Correlation Matrices) و دیگر موارد اشاره کرد.

به طور مشابه، برخی از فعالیت‌های متداولی که در طول فاز مدل‌سازی انجام می‌شوند شامل «اعتبارسنجی متقابل» (Cross-Validation)، نمودارهای کنونی و پیش‌بینی شده، «ماتریس درهم‌ریختگی» (Confusion Matrix) و تجزیه و تحلیل برای تنظیم فراپارامترها می‌شود. ساخت قابلیت‌های کوچکی برای خودکارسازی (مانند کتابخانه‌ها، قطعه کدها، رابط‌های کاربری قابل اجرا) برای استفاده/دسترسی داشتن/پیاده‌سازی این تحلیل‌ها، می‌تواند منجر به کارایی قابل توجهی در فرایند تحلیل‌ها شود.

مدل‌سازی

در طول فاز مدل‌سازی، رسیدن به یک مدل که به شیوه قابل قبولی کار کند، خیلی به طول نمی‌انجامد. بیشترین صحت حاصل شده، اکنون به دست آمده است (اصل پارتو). کلیت پروژه پیرامون تنظیم صحیح مدل و تلاش برای کسب صحت به صورت افزایشی است.

گاهی اوقات، کسب صحت افزایشی برای ایجاد راهکاری قابل اعتماد برای کسب و کارها، لازم است. در دیگر شرایط، تنظیم دقیق مدل نیاز به افزودن ارزش زیاد به گزاره/بینش نهایی دارد. به عنوان یک دانشمند داده، فرد نیاز به شناخت این موقعیت‌ها به منظور انجام مدل‌سازی به شیوه صحیح‌تر دارد.

کاربرد اصل پارتو

ارتباطات تجاری

امروزه، اکوسیستم علم داده شدیدا چند رشته‌ای شده است. تیم‌ها شامل تحلیلگران کسب و کار، دانشمندان یادگیری ماشین، مهندسان کلان داده، توسعه‌دهندگان نرم‌افزار و ذینفعان کسب و کارهای گوناگون می‌شوند. ارتباطات، یک عامل کلیدی برای موفقیت چنین تیم‌هایی است. فرد، به عنوان دانشمند داده‌ای که سخت تلاش می‌کند، ممکن است وسوسه شود که همه کارها شامل چالش‌ها، تحلیل‌ها، مدل‌ها، بینش‌ها و دیگر موارد را مکاتبه کند.

اما در جهان کنونی که مملو از اطلاعات است، اتخاذ چنین رویکردی مفید نخواهد بود. دانشمند داده نیاز به تشخیص موارد «بسیار مفید اما در تعداد کم» (اصل پارتو) و استفاده از این درک برای ساده کردن میزان اطلاعاتی که مکاتبه می‌شوند دارد. به طور مشابه، آنچه دانشمند داده بیان و نیازهایی که برجسته می‌کند، بر اساس مخاطب هدف (ذینفعان تجاری و دانشمندان داده) سفارشی‌سازی شده‌اند.

خلاصه

اصل پارتو، قانونی قدرتمند و مفید برای دانشمندان داده است. با بهره‌گیری از راهکاری صحیح، این روش به دانشمندان داده در حذف فعالیت‌های غیر ضروری و بهینه‌سازی سایر فعالیت‌ها کمک قابل توجهی می‌کند.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۳ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
kdnuggets
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *