داده‌کاوی چیست؟ بخش اول: مبانی

۵۵۶ بازدید
آخرین به‌روزرسانی: ۲۵ اردیبهشت ۱۴۰۲
زمان مطالعه: ۷ دقیقه
داده‌کاوی چیست؟ بخش اول: مبانی

داده‌کاوی یک زمینه علمی دارای رشد سریع است که با عنوان کشف دانش از داده (Knowledge Discovery From Data | KDD) نیز شناخته می‌شود. در این مطلب به دلایل استفاده از داده‌کاوی و تعاریف آن (با توجه به فرآیند انجام داده‌کاوی) پرداخته می‌شود. هدف از این نوشتار، ارائه یک نمای کل‌نگر از داده‌کاوی به مخاطبان است.

چرا داده‌کاوی

نیاز، مادر کلیه ابداعات بشر است.

«پلاتو»

بشر در جهانی زندگی می‌کند که هر روز حجم انبوهی از داده‌ها در آن تولید می‌شوند. تحلیل چنین داده‌هایی یک نیاز مهم است. در ادامه به این مبحث پرداخته می‌شود که داده‌کاوی چگونه می‌تواند ابزارهای لازم برای کشف دانش از داده را فراهم کند. پس از مطالعه این مطلب به سادگی می‌توان پی برد که داده‌کاوی نتیجه تکامل طبیعی فناوری اطلاعات است.

پیش‌روی در عصر اطلاعات

«بشر در عصر اطلاعات زندگی می‌کند»، یک گفتار معروف است. اما حقیقت این است که بشر در عصر داده‌ها زندگی می‌کند. همه روزه چندین ترابایت یا پتابایت داده در شبکه‌های کامپیوتری، دستگاه‌های ذخیره‌سازی گوناگون، کسب‌و‌کارها، جامعه‌شناسی، علوم و مهندسی، بهداشت و درمان و دیگر جنبه‌های زندگی بشر جریان داشته و ذخیره‌سازی می‌شوند.

این رشد انفجاری حجم داده‌های موجود، نتیجه کامپیوتری شدن جوامع و توسعه سریع ابزارهای قدرتمند ذخیره‌سازی و گردآوری داده است. کسب‌و‌کارها در سراسر جهان مجموعه داده‌های عظیمی را تولید می‌کنند که شامل تراکنش‌های فروش، داده‌های بازاریابی، توضیحات محصول‌ها، آگهی‌های تبلیغاتی، سوابق و گزارش‌های شرکت‌ها و بازخوردهای مشتریان می‌شود.

برای مثال فروشگاه‌های بزرگی مانند وال‌مارت (Walmart) چند صد میلیون تراکنش را در هزاران شعبه خود در سراسر جهان مدیریت می‌کنند. فعالیت‌های علمی و مهندس نیز حجم زیادی از داده‌ها را به صورت مستمر با استفاده از حسگرهای دوربرد، اندازه‌گیری فرآیندها، تجربیات علمی، کارایی سیستم‌ها، مشاهدات مهندسی و نظارت‌های زیست محیطی فراهم می‌کنند. شبکه‌هایی که ستون فقرات ارتباطات جهانی هستند، ده‌ها پتابایت ترافیک داده را همه روزه حمل می‌کنند. در صنعت بهداشت و درمان، حجم عظیمی متشکل از داده‌ها از اسناد، داده‌های حاصل از نظارت بر بیماران و تصویربرداری‌های پزشکی تولید می‌شود.

میلیون‌ها جست‌و‌جوی وب که توسط موتورهای جست‌و‌جو پشتیبانی می‌شوند، ده‌ها پتابایت داده را به‌طور روزانه پردازش می‌کنند. جوامع و رسانه‌های اجتماعی به منابع داده بسیار مهمی مبدل شده‌اند که تصاویر پزشکی، ویدئوها، وبلاگ‌ها، ارتباطات وب و دیگر انواع شبکه‌های اجتماعی را شامل می‌شوند. لیست منابعی که حجم انبوهی داده تولید می‌کنند، بی‌پایان است.

تولید انبوه داده

این رشد انفجاری، دسترسی‌پذیری و بدنه غول‌آسای داده‌ها، جهان کنونی را حقیقتا به عصر داده‌ها مبدل می‌سازد. ابزارهای قدرتمند و تطبیق‌پذیر به شدت برای پرده‌برداری از اطلاعات ارزشمند نهفته در حجم انبوه داده‌ها و برای تبدیل چنین داده‌هایی به دانش سازمان یافته مورد نیاز هستند. این نیاز منجر به تولد داده‌کاوی شده که زمینه‌ای نو، پویا و نویدبخش است. داده‌کاوی امکانی فوق‌العاده برای سفر بشر از عصر داده کنونی به عصر اطلاعات در حال وقوع، را فراهم کرده و می‌کند.

مثال ۱: داده‌کاوی حجم انبوه داده‌ها را به دانش مبدل می‌سازد. یک موتور جست‌و‌جو (برای مثال گوگل)، صدها میلیون کوئری را به طور روزانه دریافت می‌کند. به هر کوئری می‌توان به چشم تراکنشی نگاه کرد که کاربر نیاز اطلاعاتی خود را در آن تشریح می‌کند. یک موتور جست‌و‌جو چه دانش کارآمد و بدیعی می‌تواند از چنین مجموعه عظیمی از کوئر‌های گردآوری شده از کاربر در طول زمان کسب کند؟ به‌طور شگفت‌آوری، برخی از الگوهای کشف شده در کوئری‌های جست‌و‌جوی کاربران می‌تواند از دانش ارزشمندی پرده‌برداری کند که صرفا با مطالعه داده‌های فردی قابل اکتساب نیست.

برای مثال، «گوگل فولو ترندز» (Google Flu Trends)، از عبارات جست‌و‌جوی خاصی جهت تعیین شاخص وقوع آنفولانزا استفاده می‌کند. این سیستم، رابطه نزدیکی بین تعداد افرادی که اطلاعات مربوط به بیماری آنفولانزا را جست‌و‌جو می‌کنند و تعداد افرادی که واقعا علائم بیماری را دارند یافته است. الگو هنگامی پدید می‌آید که همه کوئری‌های مربوط به آنفولانزا تجمیع شوند. با استفاده از داده‌های جست‌و‌جوی گوگل، گرایش‌های وقوع آنفولانزا را می‌توان تا دو هفته سریع‌تر از هر سیستم سنتی دیگری تشخیص داد. این مثال نشان می‌دهد که می‌توان مجموعه عظیمی از داده‌ها را به دانشی مبدل کرد که یک چالش جهانی را حل می‌کند.

گوگل فولو ترندز

داده‌کاوی، نتیجه تکامل فناوری اطلاعات

داده‌کاوی را می‌توان به عنوان نتیجه تکامل طبیعی فناوری اطلاعات دید. چنانکه در شکل زیر مشهود است، صنعت پایگاه داده و مدیریت داده طی توسعه برخی کارکردهای حیاتی فناوری‌اطلاعات تکامل یافته‌اند. گردآوری داده‌ها و ساخت پایگاه داده، مدیریت داده (شامل ذخیره‌سازی و بازیابی داده و پردازش تراکنش‌های پایگاه داده) و تحلیل پیشرفته داده (شامل انبار داده و داده‌کاوی) از این جمله هستند.

تکامل اولیه مکانیزم‌های گردآوری داده و ساخت پایگاه داده به‌عنوان پیش‌شرطی برای توسعه‌های آتی مکانیزم‌های موثر جهت ذخیره‌سازی و بازیابی داده‌ها، پردازش کوئری و تراکنش محسوب می‌شود. امروزه، سیستم‌های پایگاه داده متعددی امکان پردازش کوئری و تراکنش را به‌عنوان یک قابلیت معمول فراهم می‌کنند. تحلیل‌های پیشرفته داده طبیعتا گام بعدی محسوب می‌شود.

داده‌کاوی، نتیجه تکامل فناوری اطلاعات

از سال ۱۹۸۰، فناوری اطلاعات و پایگاه داده به‌طور سیستماتیکی از سیستم‌های پردازش فایل اولیه به سیستم‌های پایگاه داده پیچیده و قدرتمند تکامل یافت. پژوهش و توسعه سیستم‌های پایگاه داده با آغاز سال ۱۹۷۰ از سیستم‌های پایگاه داده شبکه‌ای و سلسله‌مراتبی اولیه به سیستم‌های پایگاه داده رابطه‌ای، ابزارهای مدل‌سازی داده و روش‌های اندیس‌گذاری و دستیابی پیشرفت آغاز شد (که در آن‌ها داده‌ها در ساختار جدول‌های رابطه‌ای ذخیره می‌شوند). علاوه بر این، در حال حاضر کاربران از طریق زبان کوئری، رابط‌های کاربری، بهینه‌سازی کوئری و مدیریت تراکنش دسترسی راحت و انعطاف‌پذیری به داده‌ها دادند.

راهکارهای کارا برای پردازش تراکنش برخط (Online Transaction Processing | OLTP) که در آن به یک کوئری به چشم یک تراکنش فقط خواندنی نگاه می‌شود، کمک قابل توجهی به تکامل و پذیرش گسترده فناوری رابطه‌ای به عنوان ابزار اصلی ذخیره‌سازی، بازیابی و مدیریت کارای حجم انبوهی از داده‌ها کرده است.

پس از ظهور سیستم‌های مدیریت پایگاه داده، فناوری پایگاه داده به‌منظور تحلیل پیشرفته داده پایگاه داده‌های تحت وب، به سمت توسعه سیستم‌های پایگاه داده پیشرفته، انبار داده و داده‌کاوی حرکت کرد. سیستم‌های پایگاه داده پیشرفته، نتیجه ارتقای پژوهش‌های پایگاه داده از اواسط ۱۹۸۰ میلادی و پس از آن هستند.

این سیستم‌ها مدل‌های داده جدید و قدرتمندی مانند مدل‌های رابطه‌ای گسترش یافته، شی محور، شی رابطه‌ای و مدل‌های استنتاجی را ترکیب کرده‌اند. «سیستم‌های پایگاه داده کاربرد محور» (Application-oriented database systems) که شامل پایگاه داده‌های فضایی، زمانی، چندرسانه‌ای، فعال، جریان‌ها و حسگرها، علمی و مهندسی، پایگاه‌های دانش و پایگاه‌های اطلاعات دفتری می‌شوند رونق قابل توجهی گرفته‌اند.

تحلیل‌های داده پیشرفته از سال ۱۹۸۰ به بعد رشد کردند. پیشرفت پایدار و خیره کننده فناوری‌های سخت‌افزار در سه دهه اخیر منجر به ظهور کامپیوترها، تجهیزات گردآوری داده و رسانه‌های ذخیره‌سازی قدرتمند و مقرون به صرفه شد. این فناوری، رشد قابل توجهی برای صنعت اطلاعات و پایگاه داده و همچنین تعداد زیادی مخزن اطلاعات و پایگاه داده برای مدیریت تراکنش، بازیابی اطلاعات و تحلیل داده فراهم کرده است. اکنون می‌توان داده‌ها را در بسیاری از پایگاه‌های داده و مخازن اطلاعات ذخیره کرد.

انبار داده

یک معماری مخزن داده نوظهور «انبار داده» (data warehouse) است. این مخزن از چندین منبع ناهمگن داده سازمان‌دهی شده تحت یک شمای واحد به منظور تسهیل مدیریت تصمیم‌گیری تشکیل شده است. فناوری‌های پایگاه‌داده شامل پاک‌سازی داده، یکپارچه‌سازی داده و پردازش تحلیل برخط (OLAP) - که شامل روش‌های تحلیل با کاربردهایی مانند خلاصه‌سازی، تحکیم، تجمیع و توانایی مشاهده اطلاعات از زوایای مختلف است - می‌شوند.

اگرچه ابزارهای OLAP تحلیل‌های چند بعدی و تصمیم‌گیری را پشتیبانی می‌کنند، اما به ابزارهای تحلیل داده مازادی برای تحلیل‌های عمیق مانند ابزارهای داده‌کاوی که قابلیت دسته‌بندی، خوشه‌بندی، تشخیص دورافتادگی و ناهنجاری را فراهم می‌کنند و مشخصه‌سازی تغییرات داده در گذر زمان نیاز است.

حجم انبوهی از داده‌ها در سیستم‌های پایگاه داده و انبار داده انباشته شده است. در طول سال ۱۹۹۰، وب جهان گستر و پایگاه داده‌های مبتنی بر وب (مانند پایگاه داده‌های XML) شروع به ظهور کردند. پایگاه‌های اطلاعات جهانی مبتنی بر وب مانند WWW و دیگر انواع پایگاه داده‌های ناهمگن متصل، ظهور پیدا کرده و نقش مهمی در صنعت اطلاعات بازی کردند. تحلیل‌های موثر و کارآمد انواع مختلف داده‌ها با یکپارچه‌سازی، بازیابی اطلاعات، داده‌کاوی و فناوری‌های تحلیل شبکه اطلاعاتی وظیفه‌ای چالش برانگیز است.

تحلیل حجم انبوه داده

به طور خلاصه، فراوانی داده‌ها که با نیاز به ابزارهای قدرتمند تحلیل داده همراه بود، موقعیت غنی از داده و فقیر اطلاعاتی را ایجاد کرد. رشد سریع حجم انبوه داده‌هایی که در مخازن داده بزرگ و متعدد ذخیره می‌شدند، فراتر از توانایی‌های انسانی نوع بشر برای درک آن‌ها بدون ابزارهای قدرتمند است. در نتیجه، داده‌های گردآوری شده در مخازن بزرگ به گورهای داده - و در واقع آرشیو‌هایی از داده‌ها که گاهی به آن‌ها سر زده می‌شود - مبدل شدند. بنابراین، تصمیمات مهم اغلب نه بر پایه داده‌های غنی از اطلاعات ذخیره شده در انبارهای داده، بلکه بر پایه بینش تصمیم‌سازان اتخاذ می‌شد، زیرا تصمیم‌گیرندگان ابزاری برای استخراج دانش ارزشمند موجود در حجم انبوه داده‌ها نداشتند.

تلاش‌هایی که برای توسعه سیستم‌های خبره و فناوری‌های مبتنی بر دانش انجام شده، به‌طور معمول بر کارشناسان دامنه یا کاربرانی تکیه دارد که دانش ورودی را به صورت دستی در پایگاه دانش وارد می‌کنند. این در حالیست که متاسفانه روال‌های ورود دانش دستی دارای سوگیری (Bias)، خطا، و در عین حال بسیار پر هزینه و زمان‌بر هستند. شکاف عظیم بین داده و اطلاعات منجر به فراخوانی جهانی جهت توسعه سیستماتیک ابزارهای داده‌کاوی شد که گورهای داده را به شمش‌هایی از طلا مبدل می‌ساختند.

داده‌کاوی چیست؟

تعجبی ندارد که بتوان برای داده‌کاوی به عنوان یک مبحث میان‌رشته‌ای تعاریف متعددی ارائه کرد. حتی عبارت داده‌کاوی واقعا همه مولفه‌های موجود در تصویر را نشان نمی‌دهد. به فرآیند کاوش طلا از سنگ، استخراج طلا گفته می‌شود نه سنگ‌کاوی! اما به فرآیند استخراج دانش از داده، داده‌کاوی گفته می‌شود.

به نظر می‌آید که عنوان مناسب‌تری برای این فرآیند مورد نیاز است. عبارت «کشف دانش از داده»، به شکل مناسبی به آنچه طی فرآیند داده‌کاوی اتفاق می‌افتد اشاره دارد، اما متاسفانه بیش از اندازه طولانی است. اصطلاح کوتاه‌تری که گاه به همین معنا استفاده می‌شود، دانش‌کاوی است که ممکن است مفهوم کاوش در حجم انبوه داده را به خوبی نرساند.

کشف دانش از داده

با این اوصاف، «کاوش» عبارت واضحی است که مفهوم فرآیند کشف مجموعه کوچکی از جزئیات دقیق از میان حجم انبوهی از مواد را می‌رساند. بنابراین، اسم بی‌مسمای داده‌کاوی که هم واژه «داده» و هم «کاوش» را در خود دارد، به انتخابی محبوب و متداول برای فعالان این حوزه مبدل شده است. علاوه بر این، اصطلاحات بسیاری دیگری با معنای مشابه داده‌کاوی، از جمله «دانش‌کاوی از داده» (knowledge mining from data)، «استخراج دانش» (knowledge extraction)، «تحلیل داده/الگو» (data/pattern analysis)، «باستان‌شناسی داده» (data archaeology) و «لایروبی داده» (data dredging) نیز وجود دارند.

اغلب افراد از داده‌کاوی به‌عنوان معادلی برای کشف دانش از داده یا KDD استفاده می‌کنند، در حالیکه سایرین به داده‌کاوی به عنوان یک گام اساسی در فرآیند کشف دانش از داده می‌نگرند. داده‌کاوی دارای یک فرآیند هفت مرحله‌ای است که در ادامه بیان شده.

    1. پاک‌سازی داده (حذف نویز و داده‌های ناسازگار)
    2. یکپارچه‌سازی داده (منابع داده چندگانه با یکدیگر ترکیب می‌شوند)
    3. انتخاب داده (داده‌های مربوط به تحلیل از پایگاه داده بازیابی می‌شوند)
    4. نگاشت داده (داده‌ها با انجام خلاصه‌سازی یا عملیات تجمیع به شکل مناسب برای کاوش تبدیل و تلفیق می‌شوند)
    5. داده‌کاوی (فرآیندی حیاتی که طی آن روش‌های هوشمند برای استخراج الگوهای داده‌ها اعمال می‌شوند)
  1. ارزیابی الگو (برای شناسایی الگوهای واقعا جذاب دانش محور با استفاده از سنجه‌های جذابیت)
  2. ارائه دانش (که در آن از روش‌های ارائه و بصری‌سازی دانش به منظور ارائه دانش کاوش شده به کاربر استفاده می‌شود)

فرآیند داده‌کاوی

چهار گام اول این فرآیند را پیش پردازش داده‌ها گویند که طی آن داده‌ها برای کاوش آماده‌سازی می‌شوند. گام داده‌کاوی در تعامل با کاربر یا پایگاه دانش انجام می‌شود و طی آن الگوهای جالب به کاربر نشان داده شده و امکان دارد به عنوان دانش جدید در پایگاه دانش ذخیره‌سازی شوند.

دیدگاه بیان شده، داده‌کاوی را به‌عنوان یک گام حیاتی از کل فرآیند کشف دانش از داده نشان می‌دهد، زیرا از الگوهای پنهان موجود در داده‌ها پرده‌برداری می‌کند. اگرچه در صنعت، رسانه و محیط‌های پژوهشی، اغلب از اصطلاح داده‌کاوی برای بیان کل عبارت کشف دانش از داده استفاده می‌شود. بنابراین، در نهایت و با این اوصاف، داده‌کاوی به عنوان فرآیند کشف الگوهای جالب و دانش از حجم انبوه داده تعریف می‌شود. منابع داده می‌توانند شامل پایگاه‌های داده، انبارهای داده، وب، دیگر مخازن داده یا جریان‌های داده پویا باشند.

اگر نوشته بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۰ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
کتاب «داده‌کاوی، مفاهیم و روش‌ها» از ژیاوی هان و همکاران
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *