فرآیند استاندارد صنعت متقابل برای داده کاوی (CRISP–DM) – به زبان ساده


انجام یک پروژه دادهکاوی (Data Mining)، از یک سو نیاز به نقشه راهی دارد که گامهای فعالیت را برای فرد یا افراد حاضر در پروژه تبیین کند و از سوی دیگر برای حصول اطمینان از کیفیت انجام پروژه - چه به صورت فردی و چه به طور گروهی - نیاز به اجرای یک روش کار استاندارد است. این کار نه تنها برای پروژههای سنتی تحلیل داده، بلکه برای پیشرفتهترین انواع آن شامل تحلیل متن، عکس، پردازش تصویر و پروژههای هوش مصنوعی مورد نیاز محسوب میشود. مدل «فرآیند استاندارد صنعت متقابل برای دادهکاوی» (CRoss Industry Standard Process for Data Mining | CRISP - DM) از جمله این روشهای استاندارد است که در این مطلب به آن پرداخته خواهد شد. نکته شایان توجه در این رابطه آن است که این روش نه صرفا برای پروژههای صنعتی، بلکه برای انجام کارهای پژوهشی و انجام پایاننامهها نیز مفید خواهد بود. پس از آشنایی با این مدل به سادگی میتوان فهمید CRISP - DM نقشه راهی برای کلیه افرادی است که تمایل به انجام پروژه دادهکاوی در هر ابعاد و با هر هدفی دارند.
تاریخچه
در اوایل سال ۱۹۹۰ که دادهکاوی از یک زمینه نورسته به سوی بلوغ در حال تکامل بود، زمان زیادی صرف آمادهسازی دادهها جهت انجام تحلیل با بهرهگیری از ابزارها و قدرت کامپیوتری محدود آن دوره میشد. گاهی یک یا دو «دانشمند داده» (Data Scientist) روی یک پروژه مشغول به کار بودند و حقیقتا میشد از آنها با عنوان مدلسازهای پیشبین یاد کرد، زیرا ساخت مدلهای دادهکاوی در آن زمان واقعا در نوع خود هنر به شمار میآمد (البته هنوز نیز اینچنین است، با این تفاوت که ابزارها قدرتمندتر و مسائل نیز پیچیدهتر شدهاند).
با وقوع پیشرفتهای دهه ۹۰ میلادی، یک کشش طبیعی به سمت استانداردسازی تجربیاتی که زمان زیادی برای کسب آنها در پروژههای دادهکاوی صرف شده بود ایجاد شد. تلاشها و تجربیاتی که هر بار توسط فرد یا گروهی تکرار میشدند این پرسش را بر میانگیختند که آیا در پروژههای گوناگون دادهکاوی رویکرد مشترک و واحدی برای حل مساله قابل استفاده است؟ و در نهایت پاسخ این پرسش «بلی» بود.
دو مورد از شرکتهای تامینکننده ابزارهای تحلیل داده در آن دوران، یعنی SPSS و Teradata با سه شرکت Daimler، NCR و OHRA به عنوان مشتریان پیشگام (Early Adopter) خود، در سال ۱۹۹۹۶ یک گروه موضوعی ویژه (SIG) تشکیل دادند (احتمالا یکی از ابتداییترین تلاشهای مشارکتی انجام شده در وب جهان گستر در آن برهه بوده است) و در طول کمتر از یکسال موفق به وضع قوانینی شدند که امروزه به آن CRISP-DM یا فرآیند استاندارد صنعت متقابل برای دادهکاوی گفته میشود.
CRISP-DM در واقع اولین راهکار برای استانداردسازی فرآیند انجام پروژههای دادهکاوی نبود. موسسه SAS مدتهای مدیدی پیش از آنکه بتوان آن را به خاطر آورد راهکار نسخه خودش با عنوان SEMMA (سرنام واژگان Sample، Explore، Modify، Model، Assess) را برای این موضوع داشت، اما تنها با گذشت یک الی دو سال پس از انتشار CRISP - DM بسیاری از فعالان حوزه دادهکاوی و علم داده رویکرد خود را بر مبنای آن بنا نهادند.
CRISP-DM چیست؟
فرآیند یا روش CRISP-DM دارای شش گام اساسی است که در ادامه تشریح شدهاند.

۱. درک کسبوکار
تمرکز این گام بر درک اهداف و الزامات پروژه از چشمانداز کسبوکار، و سپس تبدیل این دانش به تعریف مسائل دادهکاوی و طرح اولیه است.
۲. درک داده
این گام با گردآوری اولیه دادهها آغاز میشود. سپس، با فعالیتهایی به منظور آشنا شدن با دادهها برای تبیین مشکلات کیفی آنها جهت حصول بینش اولیه از دادهها یا شناسایی مجموعههای جالب برای شکل دادن فرضیههایی برای کشف اطلاعات پنهان تداوم مییابد.
۳. آمادهسازی داده
گام آمادهسازی دادهها در برگیرنده کلیه فعالیتهایی است که برای ساخت مجموعه داده نهایی از مجموعه دادههای خام اولیه مورد نیاز محسوب میشود.
۴. مدلسازی
در این گام روشهای مدلسازی انتخاب شده و روی مجموعه داده اعمال میشوند. از آنجا که برخی از روشها مانند «شبکههای عصبی» (Neural Networks) الزامات خاصی بسته به نوع دادهها دارند، در این گام ممکن است بازگشتی به گام آمادهسازی دادهها انجام شود.
۵. ارزیابی
هنگامی که یک یا تعداد بیشتری مدل ساخته شد که به نظر میرسید بسته به «تابع زیان» (loss function) انتخاب شده دارای کیفیت بالایی هستند، باید تک تک آنها مورد ارزیابی قرار بگیرند تا از این امر که مدلهای موجود برای «دادههای دیده نشده» قابل عمومیسازی هستند و همه الزامات کلیدی به خوبی در نظر گرفته شدهاند اطمینان حاصل شود. نتیجه پایانی انتخاب مدل(های) قهرمان (بهتر مدل یا مدلها از میان کلیه مدلهای موجود) است.
۶. استقرار و توسعه
به طور کلی این گام بدان معنا است که یک ارائه از کد مدل در یک سیستم عملیاتی برای امتیازدهی یا دستهبندی دادههای دیده نشده جدیدی که ایجاد میشوند انجام و مکانیزمی برای استفاده از آن اطلاعات جدید در راهکار مورد استفاده برای مساله اصلی کسبوکار ساخته شود. نکته حائز اهمیت آن است که ارائه کد باید شامل همه گامهای آمادهسازی دادهها نیز که منجر به ساخت مدل نهایی شدهاند نیز باشد، بنابراین کد حاصل با دادههای جدید به شیوهای که در طول ساخت و توسعه مدل مواجهه میشد برخورد میکند. ممکن است
به نظر برسد که چیز خاصی در استاندارد CRISP - DM وجود ندارد و البته حقیقت بزرگ نیز همین است! از چشمانداز علم داده کنونی امکان دارد این راهکار هر عقل سلیمی را متوجه خود کند. نکته این مساله نیز همینجا است. فرآیند متداولی که بسیار منطقی به شمار میآید و در عین حال در خود فرآیند «کشف دانش از داده» (Knowledge Discovery From Data) نیز وجود دارد.
آیا واقعا به یک فرآیند استاندارد نیاز است؟
این مساله را میتوان از دو جهت فردی و تیمی مورد بررسی قرار داد. در بسیاری از موارد، دانشجویان و پژوهشگران اقدام به انجام پایاننامهها و پروژههای تحقیقاتی پیرامون دادهکاوی میکنند. اما در اغلب موارد نمیدانند که از سوال و مساله موجود خود چگونه به نتیجه نهایی برسند و انجام کار پژوهش را از کجا آغاز کنند. گاه حتی در ترتیب گامهای لازم برای انجام نیز برای افراد سردرگمی پیش میآید. CRISP - DM یک راهنمای مسیر گامبهگام از نقطه صفر تا صد پروژههای دادهکاوی است که به فرد میگوید برای حل یک مساله دادهکاوی از چه نقطهای و با انجام چه فعالیتهایی آغاز کرده و به چه صورت این مسیر را بپیماید.
از منظر تیمی، یک ابزار کلیدی در دست فردی که مدیریت یک تیم دادهکاوی را عهدهدار باشد آن است که حصول اطمینان از کیفیت و کارایی مدل و خروجی آن و استقرار مناسب در سازمان از یک راهکار استاندارد استفاده کند. همچنین، استفاده از نقشه راهی استاندارد برای انجام فرآیند دادهکاوی به سرعت بخشیدن به روال پروژه و ایجاد امکان اجرای همزمان برخی گامها (برخی گامها الزاما باید به صورت ترتیبی انجام شوند چون خروجی یکی ورودی دیگری است) کمک میکند.
هر پروژه علم دادهای دارای برخی ریسکها است و برخی از خطرات موجود در این مسیر میتوانند منجر به کسب نتایج غیر بهینه و یا حتی به طور کل غلط بشوند. بنابراین پیش از ورود به هر پروژه دادهکاوی نیاز به اندیشیدن پیرامون نقشه راه کار است. بسیاری از پلتفرمهای پیشرفته تحلیلی امروزی کاربران را از طریق مجموعهای از مراحل CRISP-DM از لحظه گردآوری و دریافت دادهها تا ارائه خروجی هدایت میکنند (حتی اگر از آنها با این عنوان نام نبرند).
برای استفاده از CRISP - DM همین دانش کافی است؟
قطعا خیر. توصیف ارائه شده در بالا تنها خلاصهای از مدل CRISP - DM محسوب میشود. با جستوجوی عبارت «CRISP-DM» در گوگل میتوان به سادگی مشاهده کرد که راهنماهای آکادمیک و صنعتی بسیاری برای آن نوشته شدهاند که دانهبندیهای قابل توجهی را برای هر فاز از این مدل ارائه کردهاند.
از سوی دیگر، میتوان برخی جزئیات مدل را متناسب با نوع پروژه تغییر داد و به عبارت دیگر مدل را برای پروژه سفارشیسازی کرد. برای مثال، در پروژههای تحلیل داده امروزی تاکید بیشتر روی موارد زیر است:
- ترکیب دادهها از منابع داده متنوع و حصول اطمینان از این امر که این فرآیند به طور کامل قابل تکرار است.
- انتخاب سطح مناسبی از صحت برای مسائل کسبوکار جهت کسب اطمینان از اینکه دانشمندان داده درگیر پروژه آنچه واقعا مورد نیاز است را انجام میدهند و بیش از اندازه زمان روی آمادهسازی مدل یا افزایش صحت نمیگذارند.
- کسب اطمینان از اینکه گستره کاملی از الگوریتمهای دادهکاوی تست شدهاند و صرفا به در دسترسترین گزینه اتکا نشده و یا از روشی استفاده نشده که در اغلب پروژههای آن تیم مورد بهرهبرداری قرار میگیرد. اغلب پلتفرمهای تحلیلی کنونی میتوانند طیف وسیعی از الگوریتمها را روی دادههای مشابهی به طور همزمان اجرا کنند و به طور خودکار الگوریتم قهرمان را نمایش دهند. شایان توجه است که با سادهتر شدن پلتفرمها و ایجاد امکان تولید مدلهای پیچیده توسط دانشمندان داده، عناصر مهم تصمیم مانند چگونگی مواجهه با «دادههای ناموجود» (missing data) یا ساخت ویژگیهای ترکیبی ممکن است از بین بروند.
کلیه قابلیت های بیان شده به مدد فرآیند استاندارد صنعت متقابل برای دادهکاوی یا همان CRISP - DM چه برای پروژههای تحلیل داده سنتی و چه موارد پیشرفته و امروزی قابل حل است.البته، تلاشهایی برای ساخت CRISP - DM 2.0 در اواسط سال ۲۰۰۰ انجام شد تا نسخه به روزتری از این مدل در اختیار کاربران قرار بگیرد، اما متاسفانه سایت این پروژه دیگر فعال نیست. شاید دلیل این امر آن باشد که دیگر چیزی برای بهبود پیدا کردن وجود ندارد! اگرچه همانطور که پیش از این بیان شد، افراد و یا تیمهای دادهکاوی میتوانند متناسب با مساله مدل خود را سفارشیسازی و جزئیاتی را به آن افزوده و یا از آن کم کنند.
آیا میتوان از CRISP - DM برای پروژههای مدلسازی غیر سنتی بهره برد؟
علم داده فراتر از مدلسازی پیشبین گام برداشته و به سمت «سیستمهای توصیهگر» (Recommender Systems)، پردازش زبان طبیعی، پردازش تصویر، پردازش متن، یادگیری عمیق، هوش مصنوعی، عقیدهکاوی و تحلیل احساسات و دیگر پروژههای غیرخطیتر رفته است.
در حقیقت، همه این پروژهها با درک کسبوکار آغاز میشوند و سپس فرآیند آنها با گردآوری داده، آمادهسازی آنها و دادهکاوی تداوم مییابد. همچنین، کلیه این پروژهها نیاز به ارزیابی تواناییهایشان در مسائل جهان واقعی دارند. بنابراین، پاسخ سوال مطرح شده مثبت است، CRISP - DM راهنمای مسیری قدرتمند حتی برای پیشرفتهترین فعالیتهای علم داده امروزی فراهم میکند.
اگر مطلب بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشود:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای هوش محاسباتی
- مجموعه آموزشهای شبکههای عصبی مصنوعی
- گنجینه آموزشهای برنامه نویسی پایتون (Python)
- آموزش برنامهنویسی R و نرمافزار R Studio
- مجموعه آموزشهای برنامه نویسی متلب (MATLAB)
^^