داده کاوی فازی چیست؟ – به زبان ساده
نظریه «مجموعههای فازی» (Fuzzy Sets) نقش مهمی در «دادهکاوی» داشته و منجر به ظهور مبحث «داده کاوی فازی» شده است. دادهکاوی فازی یک افزونه از دادهکاوی محسوب که با مدلسازی مجموعههای فازی انجام میشود و مدیریت اطلاعات قابل تفسیر و ذهنی را در فرآیندهای ورودی و خروجی دادهکاوی امکانپذیر میسازد. پژوهشهای متعددی در حوزه دادهکاوی فازی انجام شده که نقش مبحث فازی در آنها در زمینههای گوناگون شامل افزایش تفسیرپذیری، بهبود استحکام فرآیند و مدیریت اطلاعات مبهم بهویژه اطلاعات ذهنی و عاطفی بوده است.
اشکال گوناگون فازی بودن در داده کاوی فازی
اطلاعات ذهنی و عاطفی پس از ارائه مبحث فازی طرح شدند و امکان کاوش اطلاعات پیچیدهای که در محیط کلاسیک ارزشهای صفر و یک کار با آنها دشوار است را با در نظر گرفتن عواطف فراهم میکنند. در ادامه، فازی بودن در دادهها و دانش ورودی، مدل و دانش خروجی طی فرآیند دادهکاوی مورد بررسی قرار گرفته. لازم به ذکر است در دادهکاوی فازی برخلاف دادهکاوی کلاسیک، هیچ محکی برای مقایسه الگوریتمها وجود ندارد.
بنابراین، الگوریتمها معمولا به وسیله محکهای کلاسیک و گاهی پس از فرآیند فازیسازی مصنوعی دادههای عددی، سنجیده میشوند. متاسفانه، چنین محکهایی تنها برای مقایسه صحت مدلها مفید است نه تفسیرپذیری آنها، لذا نیاز به ارائه رویکردهایی که بتوانند ببین صحت و تفسیرپذیری در مدلسازی فازی توازن ایجاد کنند احساس میشود.
دادهها و دانش ورودی: ورودی گام یادگیری ماشین ترکیبی از دادهها و دانش پایهای است. دادهها معمولا به عنوان یک مجموعه آموزش که الگوریتم یادگیری از آن ارتباطات یا همبستگیها را استخراج و مدل را استنتاج میکند، فراهم میشوند. دانش از اطلاعات پسزمینهای که به الگوریتم یادگیری برای مدیریت مجموعه آموزش یا سرعت بخشیدن به آن کمک میکند، ساخته میشود. فازی بودن در دادهکاوی در دو سطح دادههای فازی و دانش فازی به وقوع میپیوندد.
هنگامی که دادهها مجموعههای فازی یا سایر انواع مجموعههای غیرقطعی باشند، الگوریتم یادگیری باید مجموعه دادههای فازی را مدیریت کند. این منجر به ایجاد نیاز برای تغییر در مولفههای رسمی الگوریتم برای توانمندسازی آن در مدیریت مجموعههای فازی، یا ساخت الگوریتمهای جدید برمبنای نظریه مجموعههای فازی میشود. هنگامی که دانش فازی است، برای مثال جهت ارائه دادههای عددی، به جای ساختن مقادیر عددی در گام پیشپردازش نیاز به استفاده از دادهکاوی فازی است. دانش میتواند جهت ارائه اطلاعات افزوده در دادهها غیرقطعی باشد، در این حالت هر داده میتواند با یک احتمال یا هرگونه درجه عدم قطعیتی وزندهی شود.
مدل: مدل در پایان گام پنجم فرآیند دادهکاوی تولید میشود. بسیاری از الگوریتمهای یادگیری ماشین کلاسیک به الگوریتمهای فازی توسعه یافتهاند. پژوهشهای بسیاری در زمینه درختهای تصمیم فازی و دیگر الگوریتمهای مبتنی بر قوانین فازی انجام شده است. چالش اصلی در این موارد ارائه الگوریتمی است که بتواند علاوه بر مدیریت ورودی فازی، مشخصات اصلی الگوریتمهای کلاسیک را ارضا کند. برخی از الگوریتمهای کلاسیک برای مدیریت دادههای پیچیده مانند عقاید یا مجموعههای فازی شهودی توسعه یافتهاند.
دانش خروجی: خروجی فرآیند دادهکاوی ممکن است به دو شکل باشد. از یکسو، خود مدل میتواند خروجی فرآیند دادهکاوی باشد که در این شرایط، هدف مشخصهسازی دادهها به وسیله مدل دادهها است. در صورت فازی بودن دانش خروجی نیاز به استفاده از مدلها و قوانین فازی است. برای مثال، الگوریتم یادگیرنده میتواند مجموعهای از قواعد، دستهها یا «درخت تصمیم» (Decision Tree) را تولید کند. از سوی دیگر، خروجی نتیجه استفاده از مدل با دیگر دادهها (دادههای آزمون) است.
برای مثالی از نتایج، میتوان به یک کلاس (از مدل برای دستهبندی داده آزمون استفاده میشود)، یک عضویت (مدل برای ایجاد عضویت در خوشهها یا دستهها استفاده میشود)، یک عقیده یا اشکال پیچیدهتر (برای مثال در استدلال مورد محور) اشاره کرد. در دادهکاوی فازی هنگامی که مدل فازی مبتنی بر قوانین است میتوان از آن به صورت قواعد «چنانکه هست» برای ارائه اطلاعاتی درباره روابط بین متغیرهایی که دادهها را توصیف میکنند، استنتاج تصمیم یا درجه عضویت استفاده کرد.
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشود:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای شبکههای عصبی مصنوعی
- مجموعه آموزشهای هوش محاسباتی
- مجموعه آموزشهای برنامهنویسی پایتون (Python)
- آموزش برنامهنویسی R و نرمافزار R Studio
- مجموعه آموزشهای برنامه نویسی متلب (MATLAB)
^^