داده کاوی 257 بازدید

انجام یک پروژه داده‌کاوی (Data Mining)، از یک سو نیاز به نقشه راهی دارد که گام‌های فعالیت را برای فرد یا افراد حاضر در پروژه تبیین کند و از سوی دیگر برای حصول اطمینان از کیفیت انجام پروژه – چه به صورت فردی و چه به طور گروهی – نیاز به اجرای یک روش کار استاندارد است. این کار نه تنها برای پروژه‌های سنتی تحلیل داده، بلکه برای پیشرفته‌ترین انواع آن شامل تحلیل متن، عکس، پردازش تصویر و پروژه‌های هوش مصنوعی مورد نیاز محسوب می‌شود. مدل «فرآیند استاندارد صنعت متقابل برای داده‌کاوی» (CRoss Industry Standard Process for Data Mining |  CRISP – DM) از جمله این روش‌های استاندارد است که در این مطلب به آن پرداخته خواهد شد. نکته شایان توجه در این رابطه آن است که این روش نه صرفا برای پروژه‌های صنعتی، بلکه برای انجام کارهای پژوهشی و انجام پایان‌نامه‌ها نیز مفید خواهد بود. پس از آشنایی با این مدل به سادگی می‌توان فهمید CRISP – DM نقشه راهی برای کلیه افرادی است که تمایل به انجام پروژه داده‌کاوی در هر ابعاد و با هر هدفی دارند.

تاریخچه

در اوایل سال 1۹۹۰ که داده‌کاوی از یک زمینه نورسته به سوی بلوغ در حال تکامل بود، زمان زیادی صرف آماده‌سازی داده‌ها جهت انجام تحلیل با بهره‌گیری از ابزارها و قدرت کامپیوتری محدود آن دوره می‌شد. گاهی یک یا دو «دانشمند داده» (Data Scientist) روی یک پروژه مشغول به کار بودند و حقیقتا می‌شد از آن‌ها با عنوان مدل‌سازهای پیش‌بین یاد کرد، زیرا ساخت مدل‌های داده‌کاوی در آن زمان واقعا در نوع خود هنر به شمار می‌آمد (البته هنوز نیز اینچنین است، با این تفاوت که ابزارها قدرتمندتر و مسائل نیز پیچیده‌تر شده‌اند).

با وقوع پیشرفت‌های دهه ۹۰ میلادی، یک کشش طبیعی به سمت استانداردسازی تجربیاتی که زمان زیادی برای کسب آن‌ها در پروژه‌های داده‌کاوی صرف شده بود ایجاد شد. تلاش‌ها و تجربیاتی که هر بار توسط فرد یا گروهی تکرار می‌شدند این پرسش را بر می‌انگیختند که آیا در پروژه‌های گوناگون داده‌کاوی رویکرد مشترک و واحدی برای حل مساله قابل استفاده است؟ و در نهایت پاسخ این پرسش «بلی» بود.

داده‌کاوی

دو مورد از شرکت‌های تامین‌کننده ابزارهای تحلیل داده در آن دوران، یعنی  SPSS و Teradata با سه شرکت Daimler، NCR و OHRA به عنوان مشتریان پیشگام (Early Adopter) خود، در سال 1۹۹۹۶ یک گروه موضوعی ویژه (SIG) تشکیل دادند (احتمالا یکی از ابتدایی‌ترین تلاش‌های مشارکتی انجام شده در وب جهان گستر در آن برهه بوده است) و در طول کمتر از یکسال موفق به وضع قوانینی شدند که امروزه به آن CRISP-DM یا فرآیند استاندارد صنعت متقابل برای داده‌کاوی گفته می‌شود.

CRISP-DM در واقع اولین راهکار برای استانداردسازی فرآیند انجام پروژه‌های داده‌کاوی نبود. موسسه SAS مدت‌های مدیدی پیش از آنکه بتوان آن را به خاطر آورد راهکار نسخه خودش با عنوان SEMMA (سرنام واژگان Sample، Explore، Modify، Model، Assess) را برای این موضوع داشت، اما تنها با گذشت یک الی دو سال پس از انتشار CRISP – DM بسیاری از فعالان حوزه داده‌کاوی و علم داده رویکرد خود را بر مبنای آن بنا نهادند.

CRISP-DM چیست؟

فرآیند یا روش CRISP-DM دارای شش گام اساسی است که در ادامه تشریح شده‌اند.

مدل CRISP - DM
مدل فرآیند استاندارد صنعت متقابل برای داده‌کاوی

1. درک کسب‌و‌کار

تمرکز این گام بر درک اهداف و الزامات پروژه از چشم‌انداز کسب‌و‌کار، و سپس تبدیل این دانش به تعریف مسائل داده‌کاوی و طرح اولیه است.

2. درک داده

این گام با گردآوری اولیه داده‌ها آغاز می‌شود. سپس، با فعالیت‌هایی به منظور آشنا شدن با داده‌ها برای تبیین مشکلات کیفی آن‌ها جهت حصول بینش اولیه از داده‌ها یا شناسایی مجموعه‌های جالب برای شکل دادن فرضیه‌هایی برای کشف اطلاعات پنهان تداوم می‌یابد.

3. آماده‌سازی داده

گام آماده‌سازی داده‌ها در برگیرنده کلیه فعالیت‌هایی است که برای ساخت مجموعه داده نهایی از مجموعه داده‌های خام اولیه مورد نیاز محسوب می‌شود.

4. مدل‌سازی

در این گام روش‌های مدل‌سازی انتخاب شده و روی مجموعه داده اعمال می‌شوند. از آنجا که برخی از روش‌ها مانند «شبکه‌های عصبی» (Neural Networks) الزامات خاصی بسته به نوع داده‌ها دارند، در این گام ممکن است بازگشتی به گام آماده‌سازی داده‌ها انجام شود.

۵. ارزیابی

هنگامی که یک یا تعداد بیشتری مدل ساخته شد که به نظر می‌رسید بسته به «تابع زیان» (loss function) انتخاب شده دارای کیفیت بالایی هستند، باید تک تک آن‌ها مورد ارزیابی قرار بگیرند تا از این امر که مدل‌های موجود برای «داده‌های دیده نشده» قابل عمومی‌سازی هستند و همه الزامات کلیدی به خوبی در نظر گرفته شده‌اند اطمینان حاصل شود. نتیجه پایانی انتخاب مدل(های) قهرمان (بهتر مدل یا مدل‌ها از میان کلیه مدل‌های موجود) است.

۶. استقرار و توسعه

به طور کلی این گام بدان معنا است که یک ارائه از کد مدل در یک سیستم عملیاتی برای امتیازدهی یا دسته‌بندی داده‌های دیده نشده جدیدی که ایجاد می‌شوند انجام و مکانیزمی برای استفاده از آن اطلاعات جدید در راهکار مورد استفاده برای مساله اصلی کسب‌و‌کار ساخته شود. نکته حائز اهمیت آن است که ارائه کد باید شامل همه گام‌های آماده‌سازی داده‌ها نیز که منجر به ساخت مدل نهایی شده‌اند نیز باشد، بنابراین کد حاصل با داده‌های جدید به شیوه‌ای که در طول ساخت و توسعه مدل مواجهه می‌شد برخورد می‌کند. ممکن است

به نظر برسد که چیز خاصی در استاندارد CRISP – DM وجود ندارد و البته حقیقت بزرگ نیز همین است! از چشم‌انداز علم داده کنونی امکان دارد این راهکار هر عقل سلیمی را متوجه خود کند. نکته این مساله نیز همینجا است. فرآیند متداولی که بسیار منطقی به شمار می‌آید و در عین حال در خود فرآیند «کشف دانش از داده» (Knowledge Discovery From Data) نیز وجود دارد.

آیا واقعا به یک فرآیند استاندارد نیاز است؟

این مساله را می‌توان از دو جهت فردی و تیمی مورد بررسی قرار داد. در بسیاری از موارد، دانشجویان و پژوهشگران اقدام به انجام پایان‌نامه‌ها و پروژه‌های تحقیقاتی پیرامون داده‌کاوی می‌کنند. اما در اغلب موارد نمی‌دانند که از سوال و مساله موجود خود چگونه به نتیجه نهایی برسند و انجام کار پژوهش را از کجا آغاز کنند. گاه حتی در ترتیب گام‌های لازم برای انجام نیز برای افراد سردرگمی پیش می‌آید. CRISP – DM یک راهنمای مسیر گام‌به‌گام از نقطه صفر تا صد پروژه‌های داده‌کاوی است که به فرد می‌گوید برای حل یک مساله داده‌کاوی از چه نقطه‌ای و با انجام چه فعالیت‌هایی آغاز کرده و به چه صورت این مسیر را بپیماید.

از منظر تیمی، یک ابزار کلیدی در دست فردی که مدیریت یک تیم داده‌کاوی را عهده‌دار باشد آن است که حصول اطمینان از کیفیت و کارایی مدل و خروجی آن و استقرار مناسب در سازمان از یک راهکار استاندارد استفاده کند. همچنین، استفاده از نقشه راهی استاندارد برای انجام فرآیند داده‌کاوی به سرعت بخشیدن به روال پروژه و ایجاد امکان اجرای هم‌زمان برخی گام‌ها (برخی گام‌ها الزاما باید به صورت ترتیبی انجام شوند چون خروجی یکی ورودی دیگری است) کمک می‌کند.

فرآیند استاندارد داده‌کاوی

هر  پروژه علم داده‌ای دارای برخی ریسک‌ها است و برخی از خطرات موجود در این مسیر می‌توانند منجر به کسب نتایج غیر بهینه و یا حتی به طور کل غلط بشوند. بنابراین پیش از ورود به هر پروژه داده‌کاوی نیاز به اندیشیدن پیرامون نقشه راه کار است. بسیاری از پلتفرم‌های پیشرفته تحلیلی امروزی کاربران را از طریق مجموعه‌ای از مراحل CRISP-DM از لحظه گردآوری و دریافت داده‌ها تا ارائه خروجی هدایت می‌کنند (حتی اگر از آن‌ها با این عنوان نام نبرند).

برای استفاده از CRISP – DM همین دانش کافی است؟

قطعا خیر. توصیف ارائه شده در بالا تنها خلاصه‌ای از مدل CRISP – DM محسوب می‌شود. با جست‌و‌جوی عبارت «CRISP-DM» در گوگل می‌توان به سادگی مشاهده کرد که راهنماهای آکادمیک و صنعتی بسیاری برای آن نوشته شده‌اند که دانه‌بندی‌های قابل توجهی را برای هر فاز از این مدل ارائه کرده‌اند. از سوی دیگر، می‌توان برخی جزئیات مدل را متناسب با نوع پروژه تغییر داد و به عبارت دیگر مدل را برای پروژه سفارشی‌سازی کرد. برای مثال، در پروژه‌های تحلیل داده امروزی تاکید بیشتر روی موارد زیر است:

  • ترکیب داده‌ها از منابع داده متنوع و حصول اطمینان از این امر که این فرآیند به طور کامل قابل تکرار است.
  • انتخاب سطح مناسبی از صحت برای مسائل کسب‌و‌کار جهت کسب اطمینان از اینکه دانشمندان داده درگیر پروژه آنچه واقعا مورد نیاز است را انجام می‌دهند و بیش از اندازه زمان روی آماده‌سازی مدل یا افزایش صحت نمی‌گذارند.
  • کسب اطمینان از اینکه گستره کاملی از الگوریتم‌های داده‌کاوی تست شده‌اند و صرفا به در دسترس‌ترین گزینه اتکا نشده و یا از روشی استفاده نشده که در اغلب پروژه‌های آن تیم مورد بهره‌برداری قرار می‌گیرد. اغلب پلتفرم‌های تحلیلی کنونی می‌توانند طیف وسیعی از الگوریتم‌ها را روی داده‌های مشابهی به طور هم‌زمان اجرا کنند و به طور خودکار الگوریتم قهرمان را نمایش دهند. شایان توجه است که با ساده‌تر شدن پلتفرم‌ها و ایجاد امکان تولید مدل‌های پیچیده توسط دانشمندان داده، عناصر مهم تصمیم مانند چگونگی مواجهه با «داده‌های ناموجود» (missing data) یا ساخت ویژگی‌های ترکیبی ممکن است از بین بروند.

کلیه قابلیت های بیان شده به مدد فرآیند استاندارد صنعت متقابل برای داده‌کاوی یا همان CRISP – DM چه برای پروژه‌های تحلیل داده سنتی و چه موارد پیشرفته و امروزی قابل حل است.البته، تلاش‌هایی برای ساخت CRISP – DM 2.0 در اواسط سال 2۰۰۰ انجام شد تا نسخه به روزتری از این مدل در اختیار کاربران قرار بگیرد، اما متاسفانه سایت این پروژه دیگر فعال نیست. شاید دلیل این امر آن باشد که دیگر چیزی برای بهبود پیدا کردن وجود ندارد! اگرچه همانطور که پیش از این بیان شد، افراد و یا تیم‌های داده‌کاوی می‌توانند متناسب با مساله مدل خود را سفارشی‌سازی و جزئیاتی را به آن افزوده و یا از آن کم کنند.

آیا می‌توان از CRISP – DM برای پروژه‌های مدل‌سازی غیر سنتی بهره برد؟

علم داده فراتر از مدل‌سازی پیش‌بین گام برداشته و به سمت «سیستم‌های توصیه‌گر» (Recommender Systems)، پردازش زبان طبیعی، پردازش تصویر، پردازش متن، یادگیری عمیق، هوش مصنوعی، عقیده‌کاوی و تحلیل احساسات و دیگر پروژه‌های غیرخطی‌تر رفته است. در حقیقت، همه این پروژه‌ها با درک کسب‌و‌کار آغاز می‌شوند و سپس فرآیند آن‌ها با گردآوری داده، آماده‌سازی آن‌ها و داده‌کاوی تداوم می‌یابد. همچنین، کلیه این پروژه‌ها نیاز به ارزیابی توانایی‌هایشان در مسائل جهان واقعی دارند. بنابراین، پاسخ سوال مطرح شده مثبت است، CRISP – DM راهنمای مسیری قدرتمند حتی برای پیشرفته‌ترین فعالیت‌های علم داده امروزی فراهم می‌کند.

اگر مطلب بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

^^

بر اساس رای 1 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *