کلان داده یا مِه داده (Big Data) — از صفر تا صد

۲۷۷۱ بازدید
آخرین به‌روزرسانی: ۲۵ اردیبهشت ۱۴۰۲
زمان مطالعه: ۱۸ دقیقه
کلان داده یا مِه داده (Big Data) — از صفر تا صد

کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسب‌و‌کارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کرده‌اند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولت‌ها نیز به دلیل کاربردهای قابل توجه تحلیل کلان‌داده‌ها (تحلیل مِه‌داده‌ها) به آن روی آورده‌اند.

در این مطلب، به مفاهیم کلان‌داده (مِه‌داده)، تحلیل کلان‌داده، تفاوت کلان‌داده با نوع داده‌های سنتی، سطوح گوناگون بینش (از توصیف تا پیش‌بینی و تحلیل تجویزی)، ارزش کسب‌و‌کاری تحلیل‌های کلان‌داده، کاربردهای کلان‌داده (مِه‌داده) در صنعت و مولفه‌های فناورانه در اکوسیستم کلان‌داده (مِه‌داده) پرداخته خواهد شد. نکته قابل توجه آن است که ترجمه‌های متعددی برای واژه Big Data در زبان فارسی ارائه شده که از این میان کلان‌داده بسیار پرکاربرد و محبوب و مِه‌داده معادل برگزیده فرهنگستان زبان و ادب پارسی است. در این نوشتار از هر دو واژه استفاده می‌شود.

کلان داده چیست و چرا اهمیت دارد؟

پرداختن به مبحثی مانند کلان‌داده (مِه‌داده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلان‌داده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحث‌ترین موضوعات در بخش‌های صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلان‌داده (مِه‌داده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.

تحلیل کلان‌داده (big data analytics) چیست؟

با وجود آنکه کلان‌داده (مِه‌داده) یکی از مورد توجه‌ترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و داده‌کاوی (data mining) مورد استفاده قرار می‌گیرد.

درست است که هر سه این عبارات در رابطه با تحلیل داده‌ها هستند و در اغلب شرایط برای تحلیل‌های پیشرفته داده مورد استفاده قرار می‌گیرند، اما مفهوم کلان‌داده (مِه‌داده) هنگامی که حجم داده‌ها و تعداد منابع داده بسیار زیاد و پیچیدگی روش‌ها و فناوری‌های لازم برای کسب بینش از آن‌ها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلان‌داده‌ها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلان‌داده (مِه‌داده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم می‌کند. شکل زیر نمای کلی این تعریف را نشان می‌دهد.

کلان‌داده

حجم: حجم بالایی از داده‌ها، در مجموعه داده‌هایی با سایز ترابایت تا زتابایت وجود دارند.

سرعت: حجم زیاد داده‌ها از تراکنش‌هایی با نرخ تازه‌سازی بالا که منجر به آمدن جریان‌های داده در سرعت بالا می‌شوند موجود هستند و زمان کار روی مبانی این جریان‌های داده بسیار کوتاه خواهد بود. این امر منجر به یک تغییر اساسی از پردازش دسته‌ای داده‌ها به جریان‌های زمان واقعی شده است.

تنوع: داده‌ها دارای منابع داده گوناگونی هستند. این عبارت مفاهیم گوناگونی را در بحث تنوع داده‌ها در بر می‌گیرد. ابتدا آنکه داده‌ها می‌توانند از منابع داده داخلی و خارجی فراهم شوند (تنوع در منابع داده). مهم‌تر آنکه داده‌ها می‌توانند دارای فرمت‌های گوناگون باشند. از جمله این فرمت‌ها می‌توان به داده‌های تراکنشی و سوابق (log data) از دامنه کاربردهای گوناگون، داده‌های ساختار یافته مانند داده‌های پایگاه داده، داده‌های نیمه‌ساختار یافته مانند داده‌های XML، داده‌های ساختار نیافته مانند متن، تصویر، جریان‌های ویدئویی، صوتی و دیگر موارد اشاره کرد. این یعنی یک تغییر اساسی از داده‌های ساختار یافته به انواع در حال رشد داده‌های ساختار نیافته یا ترکیبی از هر دو رخ داده است.

آنچه بیان شد هدایتگری به سوی پرکاربردترین تعریف کلان‌داده (مِه‌داده) در صنعت است که توسط گارتنر در سال ۲۰۱۲ ارائه شده؛ این تعریف در ادامه به طور کامل بیان شده است.

کلان‌داده (مِه‌داده) دارایی اطلاعاتی در حجم، سرعت و یا تنوع بالا به شمار می‌آید که نیازمند روش نوآورانه‌ و مقرون به صرفه پردازش اطلاعات است که بینش ارتقا یافته، تصمیم‌سازی و خودکارسازی فرآیندها را امکان‌پذیر می‌سازد.

اکنون باید شفاف باشد که «کلان» در کلان‌داده تنها به حجم مربوط نیست. در حالیکه کلان‌داده (مِه‌داده) قطعا دربرگیرنده داده‌های زیادی است، اما عبارت کلان‌داده تنها به حجم اشاره ندارد. این یعنی در صورتی که مساله‌ای کلان‌داده باشد، تنها بحث تحلیل حجم انبوهی از داده‌ها مطرح نیست، بلکه داده‌ها با سرعت تولید می‌شوند و در قالب‌های پیچیده از منابع داده گوناگونی هستند.

لازم به ذکر است که تعریف یک آستانه مطلق برای کلان‌داده (مِه‌داده) بی‌ارزش است. آنچه امروز معنای کلان دارد، ممکن است فردا با تکامل فناوری‌ها دیگر کلان‌داده محسوب نشود. این مفهوم به شدت وابسته به عوامل گوناگونی است. از چشم‌انداز فردی، اگر سازمانی با چالش‌های (و فرصت‌های) قابل توجهی حول محور حجم بالا، سرعت زیاد و تنوع داده‌ها مواجه شود، می‌توان گفت با چالش کلان‌داده (مِه‌داده) مواجه است. معمولا، این چالش‌ها نیاز به مدیریت، فناوری‌ها و روش‌های حمل داده متمایزی را ایجاب می‌کنند.

در کلان‌داده چه نوع داده‌هایی مطرح هستند؟

سازمان‌ها سنت طولانی در زمینه ثبت داده‌های تراکنشی دارند. جدای از این، امروزه سازمان‌ها داده‌های افزوده‌ای را نیز از محیط عملیاتی با سرعت در حال افزایشی ثبت می‌کنند.

در ادامه برخی از مصادیق این امر ارائه شده‌اند.

داده‌های تراکنشی

  • داده‌های وب: داده‌های رفتار سطح وب مشتریان مانند بازدید صفحات، جست‌و‌جوها، خواندن نقد و بررسی‌ها، خریدها و دیگر موارد قابل ثبت هستند. این موارد می‌توانند کارایی را در زمینه‌هایی مانند «بهترین پیشنهاد بعدی» (next best offer)، «مدل‌سازی رویگردانی مشتریان» (churn modelling)، «بخش‌بندی مشتریان» (customer segmentation) و «تبلیغات هدفمند» (targeted advertisement) بهبود ببخشند.
  • داده‌های متنی: این نوع داده‌ها (ایمیل‌ها، اخبار، خوراک‌های فیس‌بوک، اسناد و دیگر موارد) از بزرگ‌ترین و پرکاربردترین انواع کلان‌داده‌ها هستند. در داده‌های متنی، تمرکز معمولا روی استخراج حقایق کلیدی از متن و سپس استفاده از آن‌ها به عنوان حقایق ورودی برای دیگر فرآیندهای تحلیلی است (برای مثال، دسته‌بندی خودکار ادعاهای بیمه به عنوان کلاه‌برداری یا صحیح).
  • داده‌های زمانی و مکانی: GPS، تلفن‌های موبایل و اتصالات «وای‌فای» (Wi-Fi) به عنوان منابع در حال رشد داده، اطلاعات زمانی و مکانی را تولید می‌کنند. در حال حاضر، سازمان‌های زیادی به قدرت آگاهی از اینکه مشتریانشان در چه زمانی کجا قرار دارند واقف هستند. دیگر مساله حائز اهمیت، توجه به زمان و مکان در سطح تجمیع شده است. هرچه جمعیت بیشتری زمان و مکان خود را عمومی کنند، کاربردهای جالب توجهی بر اساس این داده‌ها ظهور می‌کنند. داده‌های زمانی و مکانی از انواع کلان‌داده‌های دارای حساسیت حریم خصوصی هستند و باید با دقت بالایی با آن‌ها برخورد شود.
  • شبکه‌های هوشمند و داده‌های حسگرها: داده‌های حسگرها امروزه از خودروها، تانکرهای نفت، خط لوله‌های انتقال نفت و توربین‌های بادی با فرکانس بسیار بالایی گردآوری می‌شوند. داده‌های حسگرها اطلاعات قابل توجهی پیرامون کارایی موتورها و ماشین‌آلات فراهم می‌کنند. همچنین، تشخیص مسائل را آسان‌تر و توسعه سریع کاهش روال‌ها را امکان‌پذیر می‌سازند.
  • داده‌های شبکه‌های اجتماعی: در شبکه‌های اجتماعی مانند فیس‌بوک، لینکدین و اینستاگرام امکان انجام تحلیل لینک به منظور پرده‌برداری از شبکه یک کاربر داده شده فراهم است. «تحلیل شبکه‌های اجتماعی» (social network analysis) می‌تواند بینشی از اینکه چه تبلیغی به یک کاربر خاص نمایش داده شود ارائه کند. این کار نه فقط با در نظر گرفتن علاقمندی‌هایی که مشتری خود به تنهایی نشان داده، بلکه با توجه به چرخه دوستان یا همکاران اون انجام می‌شود.

در اغلب منابع کلان‌داده (مِه‌داده)، قدرت تنها در دانستن اینکه داده‌های آن منبع به تنهایی چه می‌گویند نیست، بلکه ارزش آن است که بتوان فهمید این داده‌ها در ترکیب با سایر انواع داده چه می‌گویند (برای مثال، مدل رویگردانی سنتی بر پایه داده‌های تراکنشی تاریخی می‌تواند در صورت ترکیب با داده‌های مرور وب انجام شده توسط مشتریان بهبود پیدا کند). این همان ترکیبی است که واقعا ارزشمند خواهد بود.

کلان‌داده چه تفاوتی با انواع داده سنتی دارد؟

تفاوت‌های قابل توجهی کلان‌داده (مِه‌داده) را از منابع داده سنتی متمایز می‌سازند. «بیل فرانکز» (Bill Franks) در کتاب خود «همراهی کردن با موج عظیم کلان‌داده» (Taming the big data tidal wave)، تفاوت‌هایی که در ادامه تشریح می‌شوند را به عنوان وجه تمایز کلان‌داده از منابع داده سنتی مطرح می‌کند.

اول آنکه کلان‌داده یک منبع داده بسیار جدید است. برای مثال، اغلب افراد تجربه خرید آنلاین دارند. تراکنش‌هایی که افراد انجام می‌دهند اساسا متفاوت با آنچه به صورت سنتی انجام می‌دادند نیست. یک سازمان ممکن است تراکنش‌های وب را ذخیره کند، اما این تراکنش‌ها بسیار شبیه به تراکنش‌هایی هستند که سال‌ها است ذخیره می‌شوند (برای مثال رکوردهای فروش). اگرچه، در حقیقت ثبت رفتار مرور در صفحه وب (برای مثال کاربر چگونه در سایت گردش می‌کند) کاربران در هنگام اجرای یک تراکنش خرید، داده‌های اساسا جدیدی را فراهم می‌کند.

مراکز داده سنتی

دوم آنکه گاهی یک فرد می‌تواند چنین استدلال کند که سرعت خوراک داده‌ها چنان افزایش پیدا کرده که می‌توان به آن به چشم یک منبع داده جدید نگریست. برای مثال، کنتور برق خانه‌ها به طور دستی و ماهانه قرائت می‌شود. اکنون کنتورهای هوشمندی وجود دارد که هر ده دقیقه به صورت خودکار خوانده می‌شوند. برخی افراد ممکن است بگویند که این همان داده است با این تفاوت که در بازه‌های زمانی مختلف به صورت تکه تکه تهیه شده. اما می‌توان چنین نیز استدلال کرد که فرکانس تولید داده‌ها بسیار بالا است و این امر تحلیل‌های عمیق‌تر و متفاوت‌تر داده‌ها را امکان‌پذیر می‌سازد و بنابراین از این منظر می‌توان به آن به چشم یک منبع داده جدید نگریست.

سوم اینکه داده‌های نیمه ساختار یافته و ساختار نیافته به طور فزاینده‌ای تولید می‌شوند. اغلب منابع داده سنتی ساختاریافته هستند. از جمله داده‌های ساختار یافته می‌توان به رسید خرید محصولات توسط مشتری از خوار و بار فروشی، داده‌های پرداخت حقوق کارکنان یک سازمان، اطلاعات حسابداری ثبت شده در صفحه گسترده‌ها و هر آنچه به خوبی در پایگاه داده‌های رابطه‌ای قرار گرفته اشاره کرد. هر تکه از اطلاعات جلوتر از زمان شناخته و در قالب خاصی ارائه می‌شود و همچنین به ترتیب خاصی به وقوع می‌پیوندد.

داده‌های ساختار یافته و ساختار نیافته

منابع داده ساختار نیافته آن‌هایی هستند که کاربر کنترلی روی قالب آن‌ها ندارد. داده‌های متنی، داده‌های ویدئویی و صوتی همه در این دسته قرار می‌گیرند. کار با داده‌های ساختار نیافته پیچیده است زیرا معانی آن‌ها از پیش تعریف نشده. در بین داده‌های ساختار یافته و ساختار نیافته، داده‌های نیمه ساختاریافته قرار دارند. داده‌های نیمه ساختار یافته ممکن است بی‌قاعده یا ناقص و دارای ساختاری باشند که ممکن است به سرعت یا به طور غیر قابل پیش‌بینی تغییر کند. این داده‌ها به طور کلی ساختار دارند اما مطابق با یک شمای خاص نیستند.

لوگ‌های وب (web logs) مثال خوبی از داده‌های نیمه ساختار یافته هستند. در تصویر زیر مثالی از لوگ‌های خام وب قابل مشاهده است. لوگ‌های وب پیچیده به نظر می‌رسند. اگرچه، هر بخش از اطلاعات دارای هدف مشابهی است. در شکل زیر، referrer = http://www.google.com/search حاکی از آن است که کانالی که کاربر از آن به یک صفحه وب مشخص ارجاع داده شده چیست (در این مثال، کاربر از گوگل به صفحه وب مشخص شده وارد شده است).

لوگ وب

متن لوگ با یک کلیک روی وب‌سایت ساخته شده و این متن ممکن است طولانی‌تر یا کوتاه‌تر از متن تولید شده بر اثر کلیک روی همان صفحه بعد از یک دقیقه (یک دقیقه دیرتر) باشد. در پایان، درک این نکته که داده‌های نیمه‌ساختار یافته دارای یک منطق نهفته هستند حائز اهمیت است. توسعه روابط بین بخش‌های گوناگون این نوع داده‌ها نسبت به داده‌های ساختاریافته نیاز به تلاش‌های بیشتری دارد (با کمک ابزارهای پردازش زبان طبیعی).

سوالی که در این وهله طرح می‌شود آن است که آیا کار با کلان‌داده‌ها (مِه‌داده) مهم‌تر از داده‌های سنتی محسوب می‌شود؟ با مطالعه نظرات گوناگون بیان شده پیرامون کلان داده، فردی ممکن است چنین بیاندیشد که صرفا به خاطر حجم، سرعت و تنوع بیشتر، مجموعه داده‌های کلان بهتر یا مهم‌تر از دیگر مجموعه داده‌ها هستند.

اما مساله در حقیقت این نیست، بلکه قدرت کلان‌داده (مِه‌داده) در تحلیل‌های انجام شده روی آن و اقداماتی است که بر اساس نتایج این تحلیل‌ها صورت می‌پذیرد. داده‌های کلان یا اندک به خودی خود در برگیرنده هیچ ارزشی نیستند. این موارد تنها زمانی ارزشمند محسوب می‌شوند که بتوان بینشی از آن‌ها به دست آورد. این بینش برای هدایت تصمیم‌سازی قابل استفاده است.

سطوح مختلف بینش: از توصیف تا پیش‌بینی و تحلیل تجویزی

همگام با کلان‌داده‌ها (مِه‌داده‌ها)، تغییری در پاردایم تمرکز تحلیل‌ها ایجاد شد. این تغییر از «تحلیل‌های توصیفی» (descriptive analytics) گرفته تا «تحلیل‌های پیش‌بین» (Predictive analytics) و تجویزی (Prescriptive analytics) را در بر گرفته است.

تحلیل‌های توصیفی به پرسش‌هایی درباره «چه اتفاقی در گذشته افتاده است؟» پاسخ می‌دهند. این کار به گزارش‌گیری‌های معمول می‌انجامد. در ادامه برخی از پرسش‌های نمونه‌ای که با این نوع تحلیل‌ها به آن پاسخ داده می‌شود آورده شده‌اند.

تحلیل توصیفی

  • درآمد فروش در سه ماهه اول سال چه میزان بوده است؟ آیا تلاش اضافه‌ای برای رسیدن به هدف نهایی وجود دارد؟
  • چه چیزی/کجا/چه کسی سودآورترین محصول/منطقه/مشتری برای سازمان بوده است؟
  • چه تعداد مشتری در نیمه اول سال از دست داده‌ایم/به دست آورده‌ایم؟ چه تعداد مشتری در ناحیه «اُسلو» (Oslo) و چه تعداد در Mid Norway از دست داده‌ایم/به دست آورده‌ایم؟
  • چه تعدادی از مشتریان به دست آمده از طریق کمپین تبلیغاتی راه انداخته شده طی ماه گذشته در Mid Norway جذب شده‌اند (مثلا با استفاده از کد کمپین ثبت شده می‌توان فهمید)؟

تحلیل‌های پیش‌بین با هدفی شبیه به پاسخ دادن به پرسش «چه اتفاقی خواهد افتاد» انجام می‌شوند. انجام چنین تحلیل‌هایی سخت‌تر است و شامل استخراج گرایش‌ها و الگوهای آینده می‌شود. برخی از پرسش‌های نمونه که چنین تحلیل‌هایی به آن‌ها پاسخ می‌دهند در ادامه آورده شده است.

تحلیل پیش‌بین

  • تعداد شکایاتی که در مرکز تماس ما در سه ماهه بعدی ثبت می‌شود چندتا خواهد بود؟
  • کدام مشتریان احتمال رویگردانی دارند (برای مثال اشتراک خود را لغو می‌کنند)؟
  • بهترین پیشنهاد بعدی برای این مشتریان (مشتریان دارای احتمال رویگردانی) چه خواهد بود؟

تحلیل‌های تجویزی در تلاش برای پاسخ دادن به پرسش «چگونه با این مواجه شوم؟» هستند. اینجا جایی است که تحلیل‌ها عملیاتی می‌شوند. این موارد کاملا به کسب‌و‌کار و استفاده موردی وابسته هستند. مثال‌هایی برای نشان دادن هر چه بهتر مفهوم بیان شده، در ادامه ارائه شده‌اند.

تحلیل تجویزی

  • می‌دانیم که این فرد شانس بالایی برای رویگردانی دارد، می‌توانیم به او بسته ارزشی پیشنهاد دهیم.
  • تاریخچه مشاهدات این مشتری را در سایت خبری خود می‌دانیم، می‌توانیم مقالاتی به او پیشنهاد دهیم که بعدا بخواند.
  • با تحلیل داده‌های حسگرها می‌دانیم که بخش A از توربین ۱۰۱ خواهد شکست، یک قسمت جایگزین به طور خودکار از طریق زنجیره تامین سفارش داده شده است.

همه سه نوع تحلیل بیان شده پیش از عصر کلان داده مطرح شده‌اند، اما تمرکز به طور سنتی روی گزارش‌دهی بوده است. تمایزی که کلان داده ایجاد کرده در دو دسته می‌گنجد که در ادامه بیان شده‌اند.

  • تمایل و توانایی برای بینش رو به جلوی دقیق
  • تمایل و توانایی برای بینش سریع و عملیاتی

بینش رو به جلو به معنای آن است که کسب‌و‌کارها اکنون تمایل و توانایی پیش‌بینی آنچه در آینده به وقوع می‌پیوندد را دارند. به طور سنتی نیز می‌توان چنین کاری را انجام داد، اما صحت آن بسیار کمتر قابل توجه است زیرا حجم و منابع داده شده محدود هستند. کلان داده این معادله را برهم زده است. بینش سریع و عملیاتی به معنای آن است که هر آنچه از تحلیل‌های داده به دست می‌آید به سمت تاثیرگذاری بر فرآیندهای کسب‌و‌کار و ترجیحا توکار شدن تاثیرها در این فرآیندها پیش برود.

برای مثال، سیستم‌های توصیه‌گر درست بعد از یک تراکنش خرید، به طور خودکار توصیه‌های شخصی‌سازی شده تولید می‌کنند (برای مثال آمازون به هر کاربر بر اساس تاریخچه خرید و مشاهده‌های او پیشنهاد محصولات متفاوتی می‌دهد). چنین فعالیت‌هایی با امید به افزایش فروش محصولات و خدمات توسط کسب‌و‌کارها و سازمان‌ها انجام می‌شوند.

کسب بینش از کلان داده

نمی‌توان گفت که تحلیل‌های توصیفی اهمیتی ندارند. گزار‌ش‌ها از دیرباز تاکنون بخش مهمی از زندگی کسب‌و‌کارها محسوب می‌شدند. در عمل، نباید روی نوع خاصی از تحلیل‌ها تعصب و پافشاری داشت. تحلیلی که منجر به سود بیشتری می‌شود بسته به ماهیت پرسش کسب‌و‌کار و «انتخاب ابزار صحیح برای کار صحیح» دارد.

ارزش کسب‌و‌کار تحلیل‌های کلان‌داده

مجددا تعریف گارتنر برای کلان‌داده (مِه‌داده) مورد بررسی قرار می‌گیرد: «کلان‌داده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب می‌شود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیم‌سازی و خودکارسازی فرآیندها را به طور بهینه فراهم می‌کند.» این تعریف از گارتنر مزایای تحلیل‌های کلان‌داده را خلاصه‌سازی کرده است. این مزایا در ادامه بیان شده‌اند:

  • کسب بینش از داده‌ها
  • تصمیم‌سازی بهتر بر مبنای بینش
  • خودکارسازی تصمیم‌سازی و گنجاندن آن در فرآیندهای کسب‌و‌کار و در نتیجه خودکارسازی فرآیندها

در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسب‌و‌کاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسب‌و‌کاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیش‌بینی رویگردانی مشتریان می‌تواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسب‌و‌کار» (Business case) برای پروژه تحلیل کلان‌داده (تحلیل مِه‌داده)، با مساله کسب‌و‌کار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدف‌گذاری صحیح کسب‌و‌کار یک استراتژی بازنده است. یک مورد کسب‌و‌کار برای تحلیل‌ها باید یک مساله واقعی که سازمان با آن مواجه می‌شود را حل کند.

ارزش تحلیل کلان‌داده

کاربردهای کلان داده در بخش صنعتی

اکنون که مفهوم کلان‌داده (مِه‌داده) تشریح شد، برخی کاربردهای آن همراه با جزئیات در این بخش مورد بررسی قرار می‌گیرد. نکته قابل توجه آن است که کاربردهای کلان‌داده بسیار گسترده است و هر روز نیز در پژوهش‌های جدید کاربردهای جدیدتری مطرح می‌شود. در نتیجه همه کاربردهای موجود برای کلان داده در این بخش مطرح نشده‌اند.

بخش‌بندی و پیش‌بینی

بخش عظیمی از کاربردهای کلان‌داده در گروه دسته‌بندی و پیش‌بینی جای می‌گیرند. برای مثال می‌توان یک بانک را فرض کرد. هر روز میلیون‌ها نفر درخواست کارت اعتباری جدید و انواع وام را ثبت می‌کنند. در فرآیند تصمیم‌سازی، بانک‌ها یک عدد را برای بررسی تاریخچه مالی یک فرد مورد استفاده و احتمال آنکه فرد اقساط خود را پرداخت کند مورد بررسی قرار می‌دهند. این امتیاز بر اساس همه داده‌هایی که بانک درباره کاربر می‌داند محاسبه شده.

بخش‌بندی بازار

به طور مشابه، دیگر صنایع در تلاش برای تقلید این رویکرد با استفاده از الگوریتم‌های مبتنی بر داده به منظور پیش‌بینی درآمدهای آتی در شرایط گوناگون هستند. برای مثال، گرایش به پوشیدن دستگاه‌هایی که سنجه‌های زیستی مانند فعالیت‌های تناسب اندام، الگوی خواب و کالری مصرفی را اندازه‌گیری می‌کنند افزایش یافته است. داشتن توانایی برای مورد نظارت قرار دادن این نوع از سنجه‌ها، پزشکان و شرکت‌های بیمه درمانی را قادر به پیش‌بینی درآمدها، پرداخت‌ها و رفتارهای درمانی خود می‌سازد.

پیش‌بینی رویگردانی مشتریان

در بخش ارتباطات مخابراتی، جا‌به‌جایی مشتریان از یک شرکت به دیگری «رویگردانی» نامیده می‌شود. از آنجا که جذب مشتریان جدید بسیار پرهزینه‌تر از حفظ مشتریان قدیمی است، شرکت‌ها سرمایه‌گذاری زیادی روی زمان و تلاش‌های خود برای ساخت و بهبود مدل رویگردانی کرده‌اند. هدف نشانه‌گذاری مشتریانی که دارای خطر رویگردانی هستند و یافتن راهکارهایی برای حفظ کردن آن‌ها (برای مثال برنامه‌های انگیزشی) پیش از ترک شرکت است.

رویگردانی یک مساله اساسی برای صنایع محسوب می‌شود و در واقع حجم زیادی از پول را برای آن‌ها به خطر می‌اندازد. مدل‌های رویگردانی تاثیر قابل توجهی در این زمینه دارند. این مدل‌ها به‌طور سنتی بر داده‌های تاریخی تکیه می‌کنند و یا در تلاش برای ثبت مشخصه‌های افرادی هستند که رویگردانی کرده‌اند (برای مثال، کاهش مصرف و جمعیت‌شناسی خاص). سپس، گروه کاربران کنونی را با توجه به این مشخصه‌ها مورد بررسی و آزمایش قرار می‌دهند.

رویگردانی مشتریان

افرادی که مشابهت زیادی با تاریخچه «رویگردان‌ها» دارند پرچم‌گذاری می‌شوند و توسط یک نماینده فروش مورد پیگیری قرار می‌گیرند. بر اساس سناریو شرح داده شده می‌توان حالتی را تصور کرد که یک شرکت داده‌های وب کاربران را داشته باشد و بداند چه کاربرانی صفحه سیاست‌های لغو شرکت را بررسی کرده‌اند (موقتا از مسائل حریم خصوصی و چگونگی شناسایی کاربران چشم‌پوشی می‌شود). این داده‌های وب برای بهبود مدل رویگردانی قابل استفاده هستند. علاوه بر این، شرکت‌های ارتباطات مخابرات از داده‌های شبکه‌های اجتماعی که به صورت عمومی در دسترس هستند برای بهبود مدل شبکه‌های اجتماعی خود استفاده می‌کنند.

سیستم‌های توصیه‌گر و بازاریابی هدفمند

«سیستم‌های توصیه‌گر» (recommender systems) در دامنه کاربردهای گوناگون مورد استفاده قرار می‌گیرند. از این سیستم‌ها برای توصیه کتاب در وب‌سایت آمازون (مشتریانی که این محصول را خریده‌اند، همچنین ..... را نیز خریده‌اند)، پیشنهاد موسیقی در «اسپاتیفای» (Spotify)، توصیه فیلم در «نت‌فلیکس» (Netflix) و توصیه اخبار در تقریبا همه پرتال‌های خبری مورد استفاده قرار می‌گیرد. برخی از پیشنهادات بر مبنای گرایش‌های کلی (برای مثال، خبرهای پر بازدید امروز) است. در حالیکه دیگر موارد شخصی‌سازی شده‌اند (برای مثال: ... به شما توصیه می‌شود زیرا، .... را در نت‌فلیکس مشاهده کرده‌اید).

سیستم‌های توصیه‌گر

سیستم توصیه‌گری که به طور مناسبی پیاده‌سازی شده باشد می‌تواند کسب‌و‌کار را به طرز قابل توجهی تحت تاثیر قرار دهد. برای مثال، نت‌فلیکس گزارش داده که دو تا از هر سه فیلم مشاهده شده توسط کاربران از موارد پیشنهاد شده توسط سیستم‌های توصیه‌گر بوده‌اند. «گوگل نیوز» نیز اذعان کرده که پیشنهادات ارائه شده توسط سیستم توصیه‌گر آن‌ها ٪۳۸ کلیک بیشتری به همراه داشته‌اند و آمازون ادعا می‌کند ٪۳۵ از فروش خود را از پیشنهادات خودکار خود دارد.

تحلیل احساسات

امروزه، یکی از کاربردهای محبوب داده‌های متنی تحلیل احساسات و عقیده‌کاوی است. تحلیل احساسات (تحلیل عواطف) جهت‌گیری کلی عقاید گروه بزرگی از افراد به منظور فراهم کردن اطلاعات پیرامون آنکه «بازار چه می‌گوید» (منظور افراد آن بازار هستند)، «چه فکری می‌کند» و «چه احساسی درباره یک سازمان دارد» را مورد ملاحظه قرار می‌دهد.

در تحلیل احساسات، اغلب از داده‌های وب‌سایت‌های شبکه‌های اجتماعی و دیگر روش‌های تماس مشتریان استفاده می‌شود. برای مثال، چه شرکت یا محصولی باب روز است؟ مردم درباره یک سازمان و خدماتی که ارائه می‌کند حرف‌های خوب می‌زنند یا بد؟

تحلیل عواطف و عقیده‌کاوی

داشتن رویکردی نسبت به اینکه مردم در رسانه‌های اجتماعی یا در تعامل با واحد خدمات مشتریان سازمان چه چیزهایی می گویند می‌تواند برای آنچه بعدا انجام خواهد شد موثر واقع شود. این مورد همچنین در سطح فردی نیز قابل استفاده است. در تحلیل احساست از تشخیص الگو برای شناسایی وضعیت روحی تماس‌گیرنده در آغاز تماس استفاده می‌شود. بر همین اساس می‌توان تماس‌گیرنده هیجان‌زده را به منظور انجام برخورد با دقت، به یک متخصص متصل کرد.

تحلیل‌های عملیاتی

تحلیل عملیاتی، به جای دادن تحلیل‌ها در فرآیندهای کسب‌و‌کار و خودکارسازی تصمیم‌ها می‌پردازد، بنابراین میلیون‌ها تصمیم هر روز با فرآیندهای تحلیل بدون هرگونه دخالت انسانی اتخاذ می‌شوند. برای مثال، خطوط هوایی هنگامی که یک پرواز با تاخیر مواجه می‌شود به طور خودکار مشتریان را به مسیر متفاوتی منتقل می‌کنند. این کار به منظور محدود کردن اختلال سفر و افزایش رضایت مشتریان صورت می‌پذیرد. تحلیل‌ها حقایق زیادی را درباره هر مشتری، دیگر مسافران و وضعیت گزینه‌های پرواز جایگزین به دست می‌دهند.

کلان داده و تحلیل‌های عملیاتی

کلان‌داده برای منافع اجتماعی

بینش کسب شده از داده‌های پالایش شده می‌تواند به کسب‌و‌کارها کمک کند، همچنین می‌تواند منافع جمعی را پرورش داده و جوامع را قدرتمند سازد. برای مثال، در سال ۲۰۱۵، «تلنور ریسرچ» (Telenor Research) مطالعه‌ای را با همکاری «Harvard T.H. Chan School of Public Health and Telenor Pakistan» منتشر کرد که حاکی از قدرت داده‌های موبایل برای پیش‌بینی و ردیابی گسترش بیماری‌های اپدمیک بود. این پژوهش با تشویق‌های گسترده‌ای مواجه شد و حتی بیل گیتس در رابطه با آن توییت کرد.

کلان داده و منافع جمعی

دانشمند داده

امروزه، افرادی که کار تحلیل کلان داده‌ها را انجام می‌دهند، «دانشمند داده» (data scientist) نامیده می‌شوند. «توماس اچ داون‌پورت» (Thomas H. Davenport) و «دی‌جی پاتیل» (D.J. Patil) اصطلاح دانشمند داده را ابداع و در مقاله‌ای که سال ۲۰۱۲ در «هاروارد بیزنس رویو» (Harvard Business Review) منتشر شد عمومی کردند. در این مقاله نقش دانشمند داده تعریف و از آن به عنوان جذاب‌ترین نقش در سال ۲۰۱۲ یاد شده است.

عنوان شغلی دانشمند داده گاهی مورد انتقاد قرار می‌گیرد، زیرا فاقد شفافیت است و می‌توان از آن به عنوان یک معادل باشکوه برای «تحلیل‌گر داده» (data analyst) استفاده کرد. صرف‌نظر از این بحث، این جایگاه شغلی در شرکت‌های بزرگی وجود دارد که به کسب معنا از کلان‌د‌اده‌های ساختار یافته، ساختار نیافته و نیمه ساختاریافته تولید شده توسط کسب‌و‌کارها علاقمند هستند.

دانشمند داده

تمایز اولیه یافت شده بین دانشمند داده و دیگر متخصصان تحلیل آن است که دانشمندان داده دارای یک پیش‌زمینه علوم کامپیوتری هستند تا از «هادوپ» (Hadoop) استفاده کنند و به زبان‌هایی مانند پایتون یا R کد بزنند. این مساله با کارشناسان تحلیل سنتی که از آمار، ریاضیات یا تحقیق در عملیات می‌آمدند و گرایش به استفاده از محیط‌های سرور تحلیلی رابطه‌ای مانند SAS یا SQL برای کد زدن داشتند، قابل مقایسه است.

اگرچه‌، ابزار و محیط نیست که یک شغل را تعریف می‌کند بلکه نوعی از مسائل کسب‌و‌کار که حل شده‌اند و البته مهارت‌های هسته‌ای مورد نیاز آن‌ها است. با این اوصاف، دانشمند داده نباید از متخصصان تحلیل سنتی خیلی متفاوت باشند زیرا نقطه اساسی یعنی «اندیشه تحلیلی» دست نخورده به قوت خود باقی می‌ماند.

مولفه اصلی فناوری در اکوسیستم کلان‌داده

بار دیگر می‌توان به تعریف گارتنر برای کلان‌داده (مِه‌داده) ارجاع داد. در این تعریف، نیاز به نوع جدیدی از راهکارهای مدیریت داده به دلیل ماهیت حجم، سرعت و تنوع بالا، صراحتا بیان می‌شود. این نوع جدید از راهکار مدیریت داده دارای برچسب تجاری بسیار مقیاس‌پذیر، به شدت موازی و مقرون به صرفه است.

فناوری‌های ثبت، ذخیره‌سازی و دسترسی به کلان داده‌ها

به شکل سنتی، داده‌ها در پایگاه داده‌های رابطه‌ای ذخیره می‌شوند (برای مثال یک سیستم CRM برای داده‌های مشتریان و یک نرم‌افزار مدیریت زنجیره تامین برای اطلاعات مرتبط) و برخی از این داده‌ها به صورت دوره‌ای به منظور گزارش‌دهی و تحلیل‌های بیشتر از پایگاه داده عملیاتی استخراج، تبدیل و در انبار داده بارگذاری می‌شوند. این مساله معمولا در قلمرو هوش تجاری می‌گنجد. چنین فرآیند و مجموعه ابزاری هنگام مواجهه با کلان‌داده (مِه‌داده) کم می‌آورد.

برای مثال، یکی از خوشه‌های هادوپ که بیشترین مباحثه عمومی پیرامون آن وجود دارد (متعلق به Yahoo) دارای ۴۵۵ پاتابایت در سال ۲۰۱۴ بوده و از آن زمان رشد کرده است.به سادگی می‌توان گفت که هیچ پایگاه داده رابطه‌ای یا انبار داده‌ای حتی به چنین اعدادی نزدیک نیز نشده است. دیگر نقطه قوت هادوپ (بیش از فناوری رابطه‌ای) آن است که توانایی تحلیل داده‌های قرار گرفته در یک قالب ساختار نیافته مانند صدا، ویدئو یا متن را دارد.

لازم به ذکر است که یک تصور غلط عمومی پیرامون این فناوری جدید وجود دارد و آن این است که هادوپ را جایگزین فناوری‌های دیگری مانند پایگاه داده‌های رابطه‌ای به شمار می‌آورند. اما این مساله صحت ندارد. بیشتر به نظر می‌رسد که این فناوری‌ها در کنار یکدیگر قرار گرفته‌اند. برای مثال، نقطه قوت یک پلتفرم رابطه‌ای کار کردن شدیدا موازی با داده‌های بسیار ارزشمند تراکنشی دارای ساختار و نیازمند پشتیبانی حجم عظیمی از کاربران و نرم‌افزارهایی که پرسش‌های تکراری از داده‌های شناخته شده مطرح می‌کنند (در حالیکه یک شمای ثابت و بهینه‌سازی این مساله را جبران می‌کند) با امنیت سطح سازمان و تضمین کارایی است.

فناوری‌های کلان‌داده

اغلب هنگام صحبت کردن از لایه‌های گوناگون فناوری‌های استفاده شده برای کار کردن با کلان‌داده‌ها، از عبارت «اکوسیستم هادوپ» (hadoop ecosystem) استفاده می‌شود. برای مشاهده یک لیست کامل از فناوری‌های مورد استفاده جهت کار با کلان داده، مراجعه به این لینک توصیه می‌شود، همچنین برخی از مهم‌ترین این موارد در ادامه بیان شده‌اند.

  • خدمات وب آمازون برای زیرساخت (در ابر و پرداخت به ازای مصرف)
  • آپاچی HDFS (سیستم فایل توزیع شده هادوپ) برای سیستم فایل توزیع شده
  • «نگاشت کاهش» (MapReduce) یا «اسپارک» (Apache Spark) برای مدل برنامه‌نویسی توزیع شده
  • «کاساندرا» (Cassandra) یا HBase برای سیستم مدیریت پایگاه داده توزیع شده غیر رابطه‌ای
  • «هایو» (Hive) برای اجرای SQL بر فراز هادوپ
  • «آپاچی ماهوت» (Apache Mahout) برای کتابخانه یادگیری ماشین و ریاضیات بر فراز «نگاشت کاهش» (MapReduce)
  • R برای تحلیل و بصری‌سازی داده

در مطالب بعدی بیشتر به جنبه‌های فنی تحلیل کلان داده پرداخته خواهد شد.

روش‌های تحلیل

اغلب روش‌های تحلیلی که به طور گسترده مورد استفاده قرار می‌گیرند در یکی از سه دسته زیر می‌گنجند.

بصری‌سازی

هنگامی که تحلیل‌ها انجام شد، ذینفعان گوناگون باید با نتایج ارتباط برقرار کنند. یکی از سخت‌ترین قسمت‌های تحلیل، تولید گرافیک‌های با کیفیت است. ارائه یک نمودار خوب از جمله بهترین راه‌های ارائه یافته‌ها محسوب می‌شود.

گرافیک‌ها به دو دلیل اصلی مورد استفاده قرار می‌گیرند که عبارتند از تحلیل داده اکتشافی و ارائه نتایج.

بصری‌سازی کلان‌داده‌ها

خلاصه

کلان‌داده واقعیتی است که امروزه ایجاد شده و ماندگار خواهد بود. تحلیل کلان‌داده (تحلیل مِه‌داده) مزایای کسب‌و‌کاری محسوسی را برای سازمان‌ها به دنبال دارد. بینش بهبود یافته، تصمیم‌سازی و خودکارسازی فرآیندها از جمله این مزایا هستند.

  • مشخصه‌های کلان‌داده سه «V» هستند: «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety). «کلان» در «کلان‌داده» فقط به حجم مربوط نمی‌شود. در حالیکه کلان‌داده قطعا دربرگیرنده حجم زیادی داده است، اما فقط به حجم اشاره نمی‌کند. این یعنی تحلیلگر داده صرفا با حجم زیادی از داده‌ها مواجه نیست، بلکه داده‌ها به سرعت و در قالب‌های پیچیده‌ای از منابع داده متعدد و متنوعی می‌آیند.
  • داده‌ها از منابع داده متنوع می‌آیند و برای کاربردهای گوناگونی در صنعت قابل استفاده هستند. اغلب، ترکیب منابع داده است که می‌تواند نتایج ارزشمندی را در پی داشته باشد.
  • همراه با کلان‌داده (مِه‌داده)، یک تغییر در پارادایم موجود بر تمرکز تحلیل‌ها به وقوع پیوست. این تغییر در واقع جا‌به‌جایی از تحلیل‌های توصیفی به تحلیل‌های پیش‌بینانه و تجویزی است.
  • کلان‌داده به خاطر حجم، سرعت و تنوع بالا نیازمند نوع جدیدی از راهکارهای مدیریت داده است. این نوع جدید از راهکارهای مدیریت داده بسیار مقیاس‌پذیر، به شدت موازی و مقرون به صرفه محسوب می‌شود.
  • فناوری‌های جدیدی مانند هادوپ جایگزین دیگر فناوری‌ها مانند پایگاه داده‌های رابطه‌ای نیستند، بلکه به موازات آن‌ها اضافه شده‌اند.

اگر نوشته بالا برای شما مفید بود، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۱۸ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
دانشگاه علم و صنعت نروژ
۴ دیدگاه برای «کلان داده یا مِه داده (Big Data) — از صفر تا صد»

خانم حصارکی ممنون از ئقتی که صرف تولید محتوا کردید. بسیار عالی و افق دید جالبی برای بنده بوجود آورد.

عالی بود!

واو. چه شود هوش مصنوعی سوار بیگ دیتا ها شود؟

سلام.میشه لطفا منبع یا منابع این مطلب یا مقالتون رو ذکر کنید؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *