دادهکاوی چیست؟ بخش اول: مبانی
دادهکاوی یک زمینه علمی دارای رشد سریع است که با عنوان کشف دانش از داده (Knowledge Discovery From Data | KDD) نیز شناخته میشود. در این مطلب به دلایل استفاده از دادهکاوی و تعاریف آن (با توجه به فرآیند انجام دادهکاوی) پرداخته میشود. هدف از این نوشتار، ارائه یک نمای کلنگر از دادهکاوی به مخاطبان است.
چرا دادهکاوی
نیاز، مادر کلیه ابداعات بشر است.
«پلاتو»
بشر در جهانی زندگی میکند که هر روز حجم انبوهی از دادهها در آن تولید میشوند. تحلیل چنین دادههایی یک نیاز مهم است. در ادامه به این مبحث پرداخته میشود که دادهکاوی چگونه میتواند ابزارهای لازم برای کشف دانش از داده را فراهم کند. پس از مطالعه این مطلب به سادگی میتوان پی برد که دادهکاوی نتیجه تکامل طبیعی فناوری اطلاعات است.
پیشروی در عصر اطلاعات
«بشر در عصر اطلاعات زندگی میکند»، یک گفتار معروف است. اما حقیقت این است که بشر در عصر دادهها زندگی میکند. همه روزه چندین ترابایت یا پتابایت داده در شبکههای کامپیوتری، دستگاههای ذخیرهسازی گوناگون، کسبوکارها، جامعهشناسی، علوم و مهندسی، بهداشت و درمان و دیگر جنبههای زندگی بشر جریان داشته و ذخیرهسازی میشوند.
این رشد انفجاری حجم دادههای موجود، نتیجه کامپیوتری شدن جوامع و توسعه سریع ابزارهای قدرتمند ذخیرهسازی و گردآوری داده است. کسبوکارها در سراسر جهان مجموعه دادههای عظیمی را تولید میکنند که شامل تراکنشهای فروش، دادههای بازاریابی، توضیحات محصولها، آگهیهای تبلیغاتی، سوابق و گزارشهای شرکتها و بازخوردهای مشتریان میشود.
برای مثال فروشگاههای بزرگی مانند والمارت (Walmart) چند صد میلیون تراکنش را در هزاران شعبه خود در سراسر جهان مدیریت میکنند. فعالیتهای علمی و مهندس نیز حجم زیادی از دادهها را به صورت مستمر با استفاده از حسگرهای دوربرد، اندازهگیری فرآیندها، تجربیات علمی، کارایی سیستمها، مشاهدات مهندسی و نظارتهای زیست محیطی فراهم میکنند. شبکههایی که ستون فقرات ارتباطات جهانی هستند، دهها پتابایت ترافیک داده را همه روزه حمل میکنند. در صنعت بهداشت و درمان، حجم عظیمی متشکل از دادهها از اسناد، دادههای حاصل از نظارت بر بیماران و تصویربرداریهای پزشکی تولید میشود.
میلیونها جستوجوی وب که توسط موتورهای جستوجو پشتیبانی میشوند، دهها پتابایت داده را بهطور روزانه پردازش میکنند. جوامع و رسانههای اجتماعی به منابع داده بسیار مهمی مبدل شدهاند که تصاویر پزشکی، ویدئوها، وبلاگها، ارتباطات وب و دیگر انواع شبکههای اجتماعی را شامل میشوند. لیست منابعی که حجم انبوهی داده تولید میکنند، بیپایان است.
این رشد انفجاری، دسترسیپذیری و بدنه غولآسای دادهها، جهان کنونی را حقیقتا به عصر دادهها مبدل میسازد. ابزارهای قدرتمند و تطبیقپذیر به شدت برای پردهبرداری از اطلاعات ارزشمند نهفته در حجم انبوه دادهها و برای تبدیل چنین دادههایی به دانش سازمان یافته مورد نیاز هستند. این نیاز منجر به تولد دادهکاوی شده که زمینهای نو، پویا و نویدبخش است. دادهکاوی امکانی فوقالعاده برای سفر بشر از عصر داده کنونی به عصر اطلاعات در حال وقوع، را فراهم کرده و میکند.
مثال ۱: دادهکاوی حجم انبوه دادهها را به دانش مبدل میسازد. یک موتور جستوجو (برای مثال گوگل)، صدها میلیون کوئری را به طور روزانه دریافت میکند. به هر کوئری میتوان به چشم تراکنشی نگاه کرد که کاربر نیاز اطلاعاتی خود را در آن تشریح میکند. یک موتور جستوجو چه دانش کارآمد و بدیعی میتواند از چنین مجموعه عظیمی از کوئرهای گردآوری شده از کاربر در طول زمان کسب کند؟ بهطور شگفتآوری، برخی از الگوهای کشف شده در کوئریهای جستوجوی کاربران میتواند از دانش ارزشمندی پردهبرداری کند که صرفا با مطالعه دادههای فردی قابل اکتساب نیست.
برای مثال، «گوگل فولو ترندز» (Google Flu Trends)، از عبارات جستوجوی خاصی جهت تعیین شاخص وقوع آنفولانزا استفاده میکند. این سیستم، رابطه نزدیکی بین تعداد افرادی که اطلاعات مربوط به بیماری آنفولانزا را جستوجو میکنند و تعداد افرادی که واقعا علائم بیماری را دارند یافته است. الگو هنگامی پدید میآید که همه کوئریهای مربوط به آنفولانزا تجمیع شوند. با استفاده از دادههای جستوجوی گوگل، گرایشهای وقوع آنفولانزا را میتوان تا دو هفته سریعتر از هر سیستم سنتی دیگری تشخیص داد. این مثال نشان میدهد که میتوان مجموعه عظیمی از دادهها را به دانشی مبدل کرد که یک چالش جهانی را حل میکند.
دادهکاوی، نتیجه تکامل فناوری اطلاعات
دادهکاوی را میتوان به عنوان نتیجه تکامل طبیعی فناوری اطلاعات دید. چنانکه در شکل زیر مشهود است، صنعت پایگاه داده و مدیریت داده طی توسعه برخی کارکردهای حیاتی فناوریاطلاعات تکامل یافتهاند. گردآوری دادهها و ساخت پایگاه داده، مدیریت داده (شامل ذخیرهسازی و بازیابی داده و پردازش تراکنشهای پایگاه داده) و تحلیل پیشرفته داده (شامل انبار داده و دادهکاوی) از این جمله هستند.
تکامل اولیه مکانیزمهای گردآوری داده و ساخت پایگاه داده بهعنوان پیششرطی برای توسعههای آتی مکانیزمهای موثر جهت ذخیرهسازی و بازیابی دادهها، پردازش کوئری و تراکنش محسوب میشود. امروزه، سیستمهای پایگاه داده متعددی امکان پردازش کوئری و تراکنش را بهعنوان یک قابلیت معمول فراهم میکنند. تحلیلهای پیشرفته داده طبیعتا گام بعدی محسوب میشود.
از سال ۱۹۸۰، فناوری اطلاعات و پایگاه داده بهطور سیستماتیکی از سیستمهای پردازش فایل اولیه به سیستمهای پایگاه داده پیچیده و قدرتمند تکامل یافت. پژوهش و توسعه سیستمهای پایگاه داده با آغاز سال ۱۹۷۰ از سیستمهای پایگاه داده شبکهای و سلسلهمراتبی اولیه به سیستمهای پایگاه داده رابطهای، ابزارهای مدلسازی داده و روشهای اندیسگذاری و دستیابی پیشرفت آغاز شد (که در آنها دادهها در ساختار جدولهای رابطهای ذخیره میشوند). علاوه بر این، در حال حاضر کاربران از طریق زبان کوئری، رابطهای کاربری، بهینهسازی کوئری و مدیریت تراکنش دسترسی راحت و انعطافپذیری به دادهها دادند.
راهکارهای کارا برای پردازش تراکنش برخط (Online Transaction Processing | OLTP) که در آن به یک کوئری به چشم یک تراکنش فقط خواندنی نگاه میشود، کمک قابل توجهی به تکامل و پذیرش گسترده فناوری رابطهای به عنوان ابزار اصلی ذخیرهسازی، بازیابی و مدیریت کارای حجم انبوهی از دادهها کرده است.
پس از ظهور سیستمهای مدیریت پایگاه داده، فناوری پایگاه داده بهمنظور تحلیل پیشرفته داده پایگاه دادههای تحت وب، به سمت توسعه سیستمهای پایگاه داده پیشرفته، انبار داده و دادهکاوی حرکت کرد. سیستمهای پایگاه داده پیشرفته، نتیجه ارتقای پژوهشهای پایگاه داده از اواسط ۱۹۸۰ میلادی و پس از آن هستند.
این سیستمها مدلهای داده جدید و قدرتمندی مانند مدلهای رابطهای گسترش یافته، شی محور، شی رابطهای و مدلهای استنتاجی را ترکیب کردهاند. «سیستمهای پایگاه داده کاربرد محور» (Application-oriented database systems) که شامل پایگاه دادههای فضایی، زمانی، چندرسانهای، فعال، جریانها و حسگرها، علمی و مهندسی، پایگاههای دانش و پایگاههای اطلاعات دفتری میشوند رونق قابل توجهی گرفتهاند.
تحلیلهای داده پیشرفته از سال ۱۹۸۰ به بعد رشد کردند. پیشرفت پایدار و خیره کننده فناوریهای سختافزار در سه دهه اخیر منجر به ظهور کامپیوترها، تجهیزات گردآوری داده و رسانههای ذخیرهسازی قدرتمند و مقرون به صرفه شد. این فناوری، رشد قابل توجهی برای صنعت اطلاعات و پایگاه داده و همچنین تعداد زیادی مخزن اطلاعات و پایگاه داده برای مدیریت تراکنش، بازیابی اطلاعات و تحلیل داده فراهم کرده است. اکنون میتوان دادهها را در بسیاری از پایگاههای داده و مخازن اطلاعات ذخیره کرد.
یک معماری مخزن داده نوظهور «انبار داده» (data warehouse) است. این مخزن از چندین منبع ناهمگن داده سازماندهی شده تحت یک شمای واحد به منظور تسهیل مدیریت تصمیمگیری تشکیل شده است. فناوریهای پایگاهداده شامل پاکسازی داده، یکپارچهسازی داده و پردازش تحلیل برخط (OLAP) - که شامل روشهای تحلیل با کاربردهایی مانند خلاصهسازی، تحکیم، تجمیع و توانایی مشاهده اطلاعات از زوایای مختلف است - میشوند.
اگرچه ابزارهای OLAP تحلیلهای چند بعدی و تصمیمگیری را پشتیبانی میکنند، اما به ابزارهای تحلیل داده مازادی برای تحلیلهای عمیق مانند ابزارهای دادهکاوی که قابلیت دستهبندی، خوشهبندی، تشخیص دورافتادگی و ناهنجاری را فراهم میکنند و مشخصهسازی تغییرات داده در گذر زمان نیاز است.
حجم انبوهی از دادهها در سیستمهای پایگاه داده و انبار داده انباشته شده است. در طول سال ۱۹۹۰، وب جهان گستر و پایگاه دادههای مبتنی بر وب (مانند پایگاه دادههای XML) شروع به ظهور کردند. پایگاههای اطلاعات جهانی مبتنی بر وب مانند WWW و دیگر انواع پایگاه دادههای ناهمگن متصل، ظهور پیدا کرده و نقش مهمی در صنعت اطلاعات بازی کردند. تحلیلهای موثر و کارآمد انواع مختلف دادهها با یکپارچهسازی، بازیابی اطلاعات، دادهکاوی و فناوریهای تحلیل شبکه اطلاعاتی وظیفهای چالش برانگیز است.
به طور خلاصه، فراوانی دادهها که با نیاز به ابزارهای قدرتمند تحلیل داده همراه بود، موقعیت غنی از داده و فقیر اطلاعاتی را ایجاد کرد. رشد سریع حجم انبوه دادههایی که در مخازن داده بزرگ و متعدد ذخیره میشدند، فراتر از تواناییهای انسانی نوع بشر برای درک آنها بدون ابزارهای قدرتمند است. در نتیجه، دادههای گردآوری شده در مخازن بزرگ به گورهای داده - و در واقع آرشیوهایی از دادهها که گاهی به آنها سر زده میشود - مبدل شدند. بنابراین، تصمیمات مهم اغلب نه بر پایه دادههای غنی از اطلاعات ذخیره شده در انبارهای داده، بلکه بر پایه بینش تصمیمسازان اتخاذ میشد، زیرا تصمیمگیرندگان ابزاری برای استخراج دانش ارزشمند موجود در حجم انبوه دادهها نداشتند.
تلاشهایی که برای توسعه سیستمهای خبره و فناوریهای مبتنی بر دانش انجام شده، بهطور معمول بر کارشناسان دامنه یا کاربرانی تکیه دارد که دانش ورودی را به صورت دستی در پایگاه دانش وارد میکنند. این در حالیست که متاسفانه روالهای ورود دانش دستی دارای سوگیری (Bias)، خطا، و در عین حال بسیار پر هزینه و زمانبر هستند. شکاف عظیم بین داده و اطلاعات منجر به فراخوانی جهانی جهت توسعه سیستماتیک ابزارهای دادهکاوی شد که گورهای داده را به شمشهایی از طلا مبدل میساختند.
دادهکاوی چیست؟
تعجبی ندارد که بتوان برای دادهکاوی به عنوان یک مبحث میانرشتهای تعاریف متعددی ارائه کرد. حتی عبارت دادهکاوی واقعا همه مولفههای موجود در تصویر را نشان نمیدهد. به فرآیند کاوش طلا از سنگ، استخراج طلا گفته میشود نه سنگکاوی! اما به فرآیند استخراج دانش از داده، دادهکاوی گفته میشود.
به نظر میآید که عنوان مناسبتری برای این فرآیند مورد نیاز است. عبارت «کشف دانش از داده»، به شکل مناسبی به آنچه طی فرآیند دادهکاوی اتفاق میافتد اشاره دارد، اما متاسفانه بیش از اندازه طولانی است. اصطلاح کوتاهتری که گاه به همین معنا استفاده میشود، دانشکاوی است که ممکن است مفهوم کاوش در حجم انبوه داده را به خوبی نرساند.
با این اوصاف، «کاوش» عبارت واضحی است که مفهوم فرآیند کشف مجموعه کوچکی از جزئیات دقیق از میان حجم انبوهی از مواد را میرساند. بنابراین، اسم بیمسمای دادهکاوی که هم واژه «داده» و هم «کاوش» را در خود دارد، به انتخابی محبوب و متداول برای فعالان این حوزه مبدل شده است. علاوه بر این، اصطلاحات بسیاری دیگری با معنای مشابه دادهکاوی، از جمله «دانشکاوی از داده» (knowledge mining from data)، «استخراج دانش» (knowledge extraction)، «تحلیل داده/الگو» (data/pattern analysis)، «باستانشناسی داده» (data archaeology) و «لایروبی داده» (data dredging) نیز وجود دارند.
اغلب افراد از دادهکاوی بهعنوان معادلی برای کشف دانش از داده یا KDD استفاده میکنند، در حالیکه سایرین به دادهکاوی به عنوان یک گام اساسی در فرآیند کشف دانش از داده مینگرند. دادهکاوی دارای یک فرآیند هفت مرحلهای است که در ادامه بیان شده.
-
- پاکسازی داده (حذف نویز و دادههای ناسازگار)
- یکپارچهسازی داده (منابع داده چندگانه با یکدیگر ترکیب میشوند)
- انتخاب داده (دادههای مربوط به تحلیل از پایگاه داده بازیابی میشوند)
- نگاشت داده (دادهها با انجام خلاصهسازی یا عملیات تجمیع به شکل مناسب برای کاوش تبدیل و تلفیق میشوند)
- دادهکاوی (فرآیندی حیاتی که طی آن روشهای هوشمند برای استخراج الگوهای دادهها اعمال میشوند)
- ارزیابی الگو (برای شناسایی الگوهای واقعا جذاب دانش محور با استفاده از سنجههای جذابیت)
- ارائه دانش (که در آن از روشهای ارائه و بصریسازی دانش به منظور ارائه دانش کاوش شده به کاربر استفاده میشود)
چهار گام اول این فرآیند را پیش پردازش دادهها گویند که طی آن دادهها برای کاوش آمادهسازی میشوند. گام دادهکاوی در تعامل با کاربر یا پایگاه دانش انجام میشود و طی آن الگوهای جالب به کاربر نشان داده شده و امکان دارد به عنوان دانش جدید در پایگاه دانش ذخیرهسازی شوند.
دیدگاه بیان شده، دادهکاوی را بهعنوان یک گام حیاتی از کل فرآیند کشف دانش از داده نشان میدهد، زیرا از الگوهای پنهان موجود در دادهها پردهبرداری میکند. اگرچه در صنعت، رسانه و محیطهای پژوهشی، اغلب از اصطلاح دادهکاوی برای بیان کل عبارت کشف دانش از داده استفاده میشود. بنابراین، در نهایت و با این اوصاف، دادهکاوی به عنوان فرآیند کشف الگوهای جالب و دانش از حجم انبوه داده تعریف میشود. منابع داده میتوانند شامل پایگاههای داده، انبارهای داده، وب، دیگر مخازن داده یا جریانهای داده پویا باشند.
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای هوش محاسباتی
- پایگاه داده و سیستمهای مدیریت اطلاعات
- علم داده چیست؟
- علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
^^