کلان داده یا مِه داده (Big Data) — از صفر تا صد

کلان داده (مِه داده | Big Data)، یکی از موضوعات داغ روز است. پژوهشگران زیادی به تحقیق و بررسی در این حوزه مشغول هستند و در عین حال کسبوکارهای زیادی نیز با اهداف گوناگون به آن گرایش پیدا کردهاند. همچنین، صنایع و علوم گوناگون به ویژه بهداشت و درمان، علوم اجتماعی، بیمه، بانکداری و حتی دولتها نیز به دلیل کاربردهای قابل توجه تحلیل کلاندادهها (تحلیل مِهدادهها) به آن روی آوردهاند.
در این مطلب، به مفاهیم کلانداده (مِهداده)، تحلیل کلانداده، تفاوت کلانداده با نوع دادههای سنتی، سطوح گوناگون بینش (از توصیف تا پیشبینی و تحلیل تجویزی)، ارزش کسبوکاری تحلیلهای کلانداده، کاربردهای کلانداده (مِهداده) در صنعت و مولفههای فناورانه در اکوسیستم کلانداده (مِهداده) پرداخته خواهد شد. نکته قابل توجه آن است که ترجمههای متعددی برای واژه Big Data در زبان فارسی ارائه شده که از این میان کلانداده بسیار پرکاربرد و محبوب و مِهداده معادل برگزیده فرهنگستان زبان و ادب پارسی است. در این نوشتار از هر دو واژه استفاده میشود.
کلان داده چیست و چرا اهمیت دارد؟
پرداختن به مبحثی مانند کلانداده (مِهداده) که به طور گسترده و سریع توجهات را به خود جلب کرده کاری دشوار است. در حالیکه مبحث کلانداده تا چند سال پیش بسیار ناشناخته بود، امروزه یکی از پربحثترین موضوعات در بخشهای صنعتی است. در این قسمت از مقاله پیش رو، چیستی کلانداده (مِهداده)، دلایل اهمیت و مزایای تحلیل آن تشریح شده.
تحلیل کلانداده (big data analytics) چیست؟
با وجود آنکه کلانداده (مِهداده) یکی از مورد توجهترین اصطلاحات در بازار این روزها است، اما هیچ اتفاق نظری میان پژوهشگران گوناگون در رابطه با چگونگی تعریف آن وجود ندارد. این عبارت اغلب به عنوان مترادفی برای دیگر مفاهیم مرتبط مانند «هوش تجاری» (Business Intelligence) و دادهکاوی (data mining) مورد استفاده قرار میگیرد.
درست است که هر سه این عبارات در رابطه با تحلیل دادهها هستند و در اغلب شرایط برای تحلیلهای پیشرفته داده مورد استفاده قرار میگیرند، اما مفهوم کلانداده (مِهداده) هنگامی که حجم دادهها و تعداد منابع داده بسیار زیاد و پیچیدگی روشها و فناوریهای لازم برای کسب بینش از آنها بالا باشد، از دو مورد دیگر متمایز و متفاوت خواهد بود (برای مثال، راهکارهای سنتی انبار داده ممکن است در کار با کلاندادهها کم بیاوردند). آنچه بیان شد، مبانی لازم برای ارائه پرکاربردترین تعریف کلانداده (مِهداده) که در برگیرنده سه «V» یعنی «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety) است، را فراهم میکند. شکل زیر نمای کلی این تعریف را نشان میدهد.
حجم: حجم بالایی از دادهها، در مجموعه دادههایی با سایز ترابایت تا زتابایت وجود دارند.
سرعت: حجم زیاد دادهها از تراکنشهایی با نرخ تازهسازی بالا که منجر به آمدن جریانهای داده در سرعت بالا میشوند موجود هستند و زمان کار روی مبانی این جریانهای داده بسیار کوتاه خواهد بود. این امر منجر به یک تغییر اساسی از پردازش دستهای دادهها به جریانهای زمان واقعی شده است.
تنوع: دادهها دارای منابع داده گوناگونی هستند. این عبارت مفاهیم گوناگونی را در بحث تنوع دادهها در بر میگیرد. ابتدا آنکه دادهها میتوانند از منابع داده داخلی و خارجی فراهم شوند (تنوع در منابع داده). مهمتر آنکه دادهها میتوانند دارای فرمتهای گوناگون باشند. از جمله این فرمتها میتوان به دادههای تراکنشی و سوابق (log data) از دامنه کاربردهای گوناگون، دادههای ساختار یافته مانند دادههای پایگاه داده، دادههای نیمهساختار یافته مانند دادههای XML، دادههای ساختار نیافته مانند متن، تصویر، جریانهای ویدئویی، صوتی و دیگر موارد اشاره کرد. این یعنی یک تغییر اساسی از دادههای ساختار یافته به انواع در حال رشد دادههای ساختار نیافته یا ترکیبی از هر دو رخ داده است.
آنچه بیان شد هدایتگری به سوی پرکاربردترین تعریف کلانداده (مِهداده) در صنعت است که توسط گارتنر در سال ۲۰۱۲ ارائه شده؛ این تعریف در ادامه به طور کامل بیان شده است.
کلانداده (مِهداده) دارایی اطلاعاتی در حجم، سرعت و یا تنوع بالا به شمار میآید که نیازمند روش نوآورانه و مقرون به صرفه پردازش اطلاعات است که بینش ارتقا یافته، تصمیمسازی و خودکارسازی فرآیندها را امکانپذیر میسازد.
اکنون باید شفاف باشد که «کلان» در کلانداده تنها به حجم مربوط نیست. در حالیکه کلانداده (مِهداده) قطعا دربرگیرنده دادههای زیادی است، اما عبارت کلانداده تنها به حجم اشاره ندارد. این یعنی در صورتی که مسالهای کلانداده باشد، تنها بحث تحلیل حجم انبوهی از دادهها مطرح نیست، بلکه دادهها با سرعت تولید میشوند و در قالبهای پیچیده از منابع داده گوناگونی هستند.
لازم به ذکر است که تعریف یک آستانه مطلق برای کلانداده (مِهداده) بیارزش است. آنچه امروز معنای کلان دارد، ممکن است فردا با تکامل فناوریها دیگر کلانداده محسوب نشود. این مفهوم به شدت وابسته به عوامل گوناگونی است. از چشمانداز فردی، اگر سازمانی با چالشهای (و فرصتهای) قابل توجهی حول محور حجم بالا، سرعت زیاد و تنوع دادهها مواجه شود، میتوان گفت با چالش کلانداده (مِهداده) مواجه است. معمولا، این چالشها نیاز به مدیریت، فناوریها و روشهای حمل داده متمایزی را ایجاب میکنند.
در کلانداده چه نوع دادههایی مطرح هستند؟
سازمانها سنت طولانی در زمینه ثبت دادههای تراکنشی دارند. جدای از این، امروزه سازمانها دادههای افزودهای را نیز از محیط عملیاتی با سرعت در حال افزایشی ثبت میکنند.
در ادامه برخی از مصادیق این امر ارائه شدهاند.
- دادههای وب: دادههای رفتار سطح وب مشتریان مانند بازدید صفحات، جستوجوها، خواندن نقد و بررسیها، خریدها و دیگر موارد قابل ثبت هستند. این موارد میتوانند کارایی را در زمینههایی مانند «بهترین پیشنهاد بعدی» (next best offer)، «مدلسازی رویگردانی مشتریان» (churn modelling)، «بخشبندی مشتریان» (customer segmentation) و «تبلیغات هدفمند» (targeted advertisement) بهبود ببخشند.
- دادههای متنی: این نوع دادهها (ایمیلها، اخبار، خوراکهای فیسبوک، اسناد و دیگر موارد) از بزرگترین و پرکاربردترین انواع کلاندادهها هستند. در دادههای متنی، تمرکز معمولا روی استخراج حقایق کلیدی از متن و سپس استفاده از آنها به عنوان حقایق ورودی برای دیگر فرآیندهای تحلیلی است (برای مثال، دستهبندی خودکار ادعاهای بیمه به عنوان کلاهبرداری یا صحیح).
- دادههای زمانی و مکانی: GPS، تلفنهای موبایل و اتصالات «وایفای» (Wi-Fi) به عنوان منابع در حال رشد داده، اطلاعات زمانی و مکانی را تولید میکنند. در حال حاضر، سازمانهای زیادی به قدرت آگاهی از اینکه مشتریانشان در چه زمانی کجا قرار دارند واقف هستند. دیگر مساله حائز اهمیت، توجه به زمان و مکان در سطح تجمیع شده است. هرچه جمعیت بیشتری زمان و مکان خود را عمومی کنند، کاربردهای جالب توجهی بر اساس این دادهها ظهور میکنند. دادههای زمانی و مکانی از انواع کلاندادههای دارای حساسیت حریم خصوصی هستند و باید با دقت بالایی با آنها برخورد شود.
- شبکههای هوشمند و دادههای حسگرها: دادههای حسگرها امروزه از خودروها، تانکرهای نفت، خط لولههای انتقال نفت و توربینهای بادی با فرکانس بسیار بالایی گردآوری میشوند. دادههای حسگرها اطلاعات قابل توجهی پیرامون کارایی موتورها و ماشینآلات فراهم میکنند. همچنین، تشخیص مسائل را آسانتر و توسعه سریع کاهش روالها را امکانپذیر میسازند.
- دادههای شبکههای اجتماعی: در شبکههای اجتماعی مانند فیسبوک، لینکدین و اینستاگرام امکان انجام تحلیل لینک به منظور پردهبرداری از شبکه یک کاربر داده شده فراهم است. «تحلیل شبکههای اجتماعی» (social network analysis) میتواند بینشی از اینکه چه تبلیغی به یک کاربر خاص نمایش داده شود ارائه کند. این کار نه فقط با در نظر گرفتن علاقمندیهایی که مشتری خود به تنهایی نشان داده، بلکه با توجه به چرخه دوستان یا همکاران اون انجام میشود.
در اغلب منابع کلانداده (مِهداده)، قدرت تنها در دانستن اینکه دادههای آن منبع به تنهایی چه میگویند نیست، بلکه ارزش آن است که بتوان فهمید این دادهها در ترکیب با سایر انواع داده چه میگویند (برای مثال، مدل رویگردانی سنتی بر پایه دادههای تراکنشی تاریخی میتواند در صورت ترکیب با دادههای مرور وب انجام شده توسط مشتریان بهبود پیدا کند). این همان ترکیبی است که واقعا ارزشمند خواهد بود.
کلانداده چه تفاوتی با انواع داده سنتی دارد؟
تفاوتهای قابل توجهی کلانداده (مِهداده) را از منابع داده سنتی متمایز میسازند. «بیل فرانکز» (Bill Franks) در کتاب خود «همراهی کردن با موج عظیم کلانداده» (Taming the big data tidal wave)، تفاوتهایی که در ادامه تشریح میشوند را به عنوان وجه تمایز کلانداده از منابع داده سنتی مطرح میکند.
اول آنکه کلانداده یک منبع داده بسیار جدید است. برای مثال، اغلب افراد تجربه خرید آنلاین دارند. تراکنشهایی که افراد انجام میدهند اساسا متفاوت با آنچه به صورت سنتی انجام میدادند نیست. یک سازمان ممکن است تراکنشهای وب را ذخیره کند، اما این تراکنشها بسیار شبیه به تراکنشهایی هستند که سالها است ذخیره میشوند (برای مثال رکوردهای فروش). اگرچه، در حقیقت ثبت رفتار مرور در صفحه وب (برای مثال کاربر چگونه در سایت گردش میکند) کاربران در هنگام اجرای یک تراکنش خرید، دادههای اساسا جدیدی را فراهم میکند.
دوم آنکه گاهی یک فرد میتواند چنین استدلال کند که سرعت خوراک دادهها چنان افزایش پیدا کرده که میتوان به آن به چشم یک منبع داده جدید نگریست. برای مثال، کنتور برق خانهها به طور دستی و ماهانه قرائت میشود. اکنون کنتورهای هوشمندی وجود دارد که هر ده دقیقه به صورت خودکار خوانده میشوند. برخی افراد ممکن است بگویند که این همان داده است با این تفاوت که در بازههای زمانی مختلف به صورت تکه تکه تهیه شده. اما میتوان چنین نیز استدلال کرد که فرکانس تولید دادهها بسیار بالا است و این امر تحلیلهای عمیقتر و متفاوتتر دادهها را امکانپذیر میسازد و بنابراین از این منظر میتوان به آن به چشم یک منبع داده جدید نگریست.
سوم اینکه دادههای نیمه ساختار یافته و ساختار نیافته به طور فزایندهای تولید میشوند. اغلب منابع داده سنتی ساختاریافته هستند. از جمله دادههای ساختار یافته میتوان به رسید خرید محصولات توسط مشتری از خوار و بار فروشی، دادههای پرداخت حقوق کارکنان یک سازمان، اطلاعات حسابداری ثبت شده در صفحه گستردهها و هر آنچه به خوبی در پایگاه دادههای رابطهای قرار گرفته اشاره کرد. هر تکه از اطلاعات جلوتر از زمان شناخته و در قالب خاصی ارائه میشود و همچنین به ترتیب خاصی به وقوع میپیوندد.
منابع داده ساختار نیافته آنهایی هستند که کاربر کنترلی روی قالب آنها ندارد. دادههای متنی، دادههای ویدئویی و صوتی همه در این دسته قرار میگیرند. کار با دادههای ساختار نیافته پیچیده است زیرا معانی آنها از پیش تعریف نشده. در بین دادههای ساختار یافته و ساختار نیافته، دادههای نیمه ساختاریافته قرار دارند. دادههای نیمه ساختار یافته ممکن است بیقاعده یا ناقص و دارای ساختاری باشند که ممکن است به سرعت یا به طور غیر قابل پیشبینی تغییر کند. این دادهها به طور کلی ساختار دارند اما مطابق با یک شمای خاص نیستند.
لوگهای وب (web logs) مثال خوبی از دادههای نیمه ساختار یافته هستند. در تصویر زیر مثالی از لوگهای خام وب قابل مشاهده است. لوگهای وب پیچیده به نظر میرسند. اگرچه، هر بخش از اطلاعات دارای هدف مشابهی است. در شکل زیر، referrer = http://www.google.com/search حاکی از آن است که کانالی که کاربر از آن به یک صفحه وب مشخص ارجاع داده شده چیست (در این مثال، کاربر از گوگل به صفحه وب مشخص شده وارد شده است).
متن لوگ با یک کلیک روی وبسایت ساخته شده و این متن ممکن است طولانیتر یا کوتاهتر از متن تولید شده بر اثر کلیک روی همان صفحه بعد از یک دقیقه (یک دقیقه دیرتر) باشد. در پایان، درک این نکته که دادههای نیمهساختار یافته دارای یک منطق نهفته هستند حائز اهمیت است. توسعه روابط بین بخشهای گوناگون این نوع دادهها نسبت به دادههای ساختاریافته نیاز به تلاشهای بیشتری دارد (با کمک ابزارهای پردازش زبان طبیعی).
سوالی که در این وهله طرح میشود آن است که آیا کار با کلاندادهها (مِهداده) مهمتر از دادههای سنتی محسوب میشود؟ با مطالعه نظرات گوناگون بیان شده پیرامون کلان داده، فردی ممکن است چنین بیاندیشد که صرفا به خاطر حجم، سرعت و تنوع بیشتر، مجموعه دادههای کلان بهتر یا مهمتر از دیگر مجموعه دادهها هستند.
اما مساله در حقیقت این نیست، بلکه قدرت کلانداده (مِهداده) در تحلیلهای انجام شده روی آن و اقداماتی است که بر اساس نتایج این تحلیلها صورت میپذیرد. دادههای کلان یا اندک به خودی خود در برگیرنده هیچ ارزشی نیستند. این موارد تنها زمانی ارزشمند محسوب میشوند که بتوان بینشی از آنها به دست آورد. این بینش برای هدایت تصمیمسازی قابل استفاده است.
سطوح مختلف بینش: از توصیف تا پیشبینی و تحلیل تجویزی
همگام با کلاندادهها (مِهدادهها)، تغییری در پاردایم تمرکز تحلیلها ایجاد شد. این تغییر از «تحلیلهای توصیفی» (descriptive analytics) گرفته تا «تحلیلهای پیشبین» (Predictive analytics) و تجویزی (Prescriptive analytics) را در بر گرفته است.
تحلیلهای توصیفی به پرسشهایی درباره «چه اتفاقی در گذشته افتاده است؟» پاسخ میدهند. این کار به گزارشگیریهای معمول میانجامد. در ادامه برخی از پرسشهای نمونهای که با این نوع تحلیلها به آن پاسخ داده میشود آورده شدهاند.
- درآمد فروش در سه ماهه اول سال چه میزان بوده است؟ آیا تلاش اضافهای برای رسیدن به هدف نهایی وجود دارد؟
- چه چیزی/کجا/چه کسی سودآورترین محصول/منطقه/مشتری برای سازمان بوده است؟
- چه تعداد مشتری در نیمه اول سال از دست دادهایم/به دست آوردهایم؟ چه تعداد مشتری در ناحیه «اُسلو» (Oslo) و چه تعداد در Mid Norway از دست دادهایم/به دست آوردهایم؟
- چه تعدادی از مشتریان به دست آمده از طریق کمپین تبلیغاتی راه انداخته شده طی ماه گذشته در Mid Norway جذب شدهاند (مثلا با استفاده از کد کمپین ثبت شده میتوان فهمید)؟
تحلیلهای پیشبین با هدفی شبیه به پاسخ دادن به پرسش «چه اتفاقی خواهد افتاد» انجام میشوند. انجام چنین تحلیلهایی سختتر است و شامل استخراج گرایشها و الگوهای آینده میشود. برخی از پرسشهای نمونه که چنین تحلیلهایی به آنها پاسخ میدهند در ادامه آورده شده است.
- تعداد شکایاتی که در مرکز تماس ما در سه ماهه بعدی ثبت میشود چندتا خواهد بود؟
- کدام مشتریان احتمال رویگردانی دارند (برای مثال اشتراک خود را لغو میکنند)؟
- بهترین پیشنهاد بعدی برای این مشتریان (مشتریان دارای احتمال رویگردانی) چه خواهد بود؟
تحلیلهای تجویزی در تلاش برای پاسخ دادن به پرسش «چگونه با این مواجه شوم؟» هستند. اینجا جایی است که تحلیلها عملیاتی میشوند. این موارد کاملا به کسبوکار و استفاده موردی وابسته هستند. مثالهایی برای نشان دادن هر چه بهتر مفهوم بیان شده، در ادامه ارائه شدهاند.
- میدانیم که این فرد شانس بالایی برای رویگردانی دارد، میتوانیم به او بسته ارزشی پیشنهاد دهیم.
- تاریخچه مشاهدات این مشتری را در سایت خبری خود میدانیم، میتوانیم مقالاتی به او پیشنهاد دهیم که بعدا بخواند.
- با تحلیل دادههای حسگرها میدانیم که بخش A از توربین ۱۰۱ خواهد شکست، یک قسمت جایگزین به طور خودکار از طریق زنجیره تامین سفارش داده شده است.
همه سه نوع تحلیل بیان شده پیش از عصر کلان داده مطرح شدهاند، اما تمرکز به طور سنتی روی گزارشدهی بوده است. تمایزی که کلان داده ایجاد کرده در دو دسته میگنجد که در ادامه بیان شدهاند.
- تمایل و توانایی برای بینش رو به جلوی دقیق
- تمایل و توانایی برای بینش سریع و عملیاتی
بینش رو به جلو به معنای آن است که کسبوکارها اکنون تمایل و توانایی پیشبینی آنچه در آینده به وقوع میپیوندد را دارند. به طور سنتی نیز میتوان چنین کاری را انجام داد، اما صحت آن بسیار کمتر قابل توجه است زیرا حجم و منابع داده شده محدود هستند. کلان داده این معادله را برهم زده است. بینش سریع و عملیاتی به معنای آن است که هر آنچه از تحلیلهای داده به دست میآید به سمت تاثیرگذاری بر فرآیندهای کسبوکار و ترجیحا توکار شدن تاثیرها در این فرآیندها پیش برود.
برای مثال، سیستمهای توصیهگر درست بعد از یک تراکنش خرید، به طور خودکار توصیههای شخصیسازی شده تولید میکنند (برای مثال آمازون به هر کاربر بر اساس تاریخچه خرید و مشاهدههای او پیشنهاد محصولات متفاوتی میدهد). چنین فعالیتهایی با امید به افزایش فروش محصولات و خدمات توسط کسبوکارها و سازمانها انجام میشوند.
نمیتوان گفت که تحلیلهای توصیفی اهمیتی ندارند. گزارشها از دیرباز تاکنون بخش مهمی از زندگی کسبوکارها محسوب میشدند. در عمل، نباید روی نوع خاصی از تحلیلها تعصب و پافشاری داشت. تحلیلی که منجر به سود بیشتری میشود بسته به ماهیت پرسش کسبوکار و «انتخاب ابزار صحیح برای کار صحیح» دارد.
ارزش کسبوکار تحلیلهای کلانداده
مجددا تعریف گارتنر برای کلانداده (مِهداده) مورد بررسی قرار میگیرد: «کلانداده دارایی اطلاعاتی با حجم، سرعت و تنوع بالا محسوب میشود که نیازمند شکلی از پردازش اطلاعات نوآورانه و مقرون به صرفه است که بینش، تصمیمسازی و خودکارسازی فرآیندها را به طور بهینه فراهم میکند.» این تعریف از گارتنر مزایای تحلیلهای کلانداده را خلاصهسازی کرده است. این مزایا در ادامه بیان شدهاند:
- کسب بینش از دادهها
- تصمیمسازی بهتر بر مبنای بینش
- خودکارسازی تصمیمسازی و گنجاندن آن در فرآیندهای کسبوکار و در نتیجه خودکارسازی فرآیندها
در یک سطح همراه با جزئیات بیشتر، هر راهکار کلان داده ممکن است یک مشکل کسبوکاری خاص که سازمان امکان مواجهه با آن را دارد حل کند و همچنین ارزش کسبوکاری راهکار را به مساله اصلی مرتبط سازد. برای مثال، پیشبینی رویگردانی مشتریان میتواند این امر را کاهش دهد و بنابراین از کاهش درآمد پیشگیری کند. حائز اهمیت است که ساخت یک «مورد کسبوکار» (Business case) برای پروژه تحلیل کلانداده (تحلیل مِهداده)، با مساله کسبوکار آغاز شود نه با داده یا فناوری موجود یا مورد نیاز. گردآوری داده یا خرید فناوری بدون هدفگذاری صحیح کسبوکار یک استراتژی بازنده است. یک مورد کسبوکار برای تحلیلها باید یک مساله واقعی که سازمان با آن مواجه میشود را حل کند.
کاربردهای کلان داده در بخش صنعتی
اکنون که مفهوم کلانداده (مِهداده) تشریح شد، برخی کاربردهای آن همراه با جزئیات در این بخش مورد بررسی قرار میگیرد. نکته قابل توجه آن است که کاربردهای کلانداده بسیار گسترده است و هر روز نیز در پژوهشهای جدید کاربردهای جدیدتری مطرح میشود. در نتیجه همه کاربردهای موجود برای کلان داده در این بخش مطرح نشدهاند.
بخشبندی و پیشبینی
بخش عظیمی از کاربردهای کلانداده در گروه دستهبندی و پیشبینی جای میگیرند. برای مثال میتوان یک بانک را فرض کرد. هر روز میلیونها نفر درخواست کارت اعتباری جدید و انواع وام را ثبت میکنند. در فرآیند تصمیمسازی، بانکها یک عدد را برای بررسی تاریخچه مالی یک فرد مورد استفاده و احتمال آنکه فرد اقساط خود را پرداخت کند مورد بررسی قرار میدهند. این امتیاز بر اساس همه دادههایی که بانک درباره کاربر میداند محاسبه شده.
به طور مشابه، دیگر صنایع در تلاش برای تقلید این رویکرد با استفاده از الگوریتمهای مبتنی بر داده به منظور پیشبینی درآمدهای آتی در شرایط گوناگون هستند. برای مثال، گرایش به پوشیدن دستگاههایی که سنجههای زیستی مانند فعالیتهای تناسب اندام، الگوی خواب و کالری مصرفی را اندازهگیری میکنند افزایش یافته است. داشتن توانایی برای مورد نظارت قرار دادن این نوع از سنجهها، پزشکان و شرکتهای بیمه درمانی را قادر به پیشبینی درآمدها، پرداختها و رفتارهای درمانی خود میسازد.
پیشبینی رویگردانی مشتریان
در بخش ارتباطات مخابراتی، جابهجایی مشتریان از یک شرکت به دیگری «رویگردانی» نامیده میشود. از آنجا که جذب مشتریان جدید بسیار پرهزینهتر از حفظ مشتریان قدیمی است، شرکتها سرمایهگذاری زیادی روی زمان و تلاشهای خود برای ساخت و بهبود مدل رویگردانی کردهاند. هدف نشانهگذاری مشتریانی که دارای خطر رویگردانی هستند و یافتن راهکارهایی برای حفظ کردن آنها (برای مثال برنامههای انگیزشی) پیش از ترک شرکت است.
رویگردانی یک مساله اساسی برای صنایع محسوب میشود و در واقع حجم زیادی از پول را برای آنها به خطر میاندازد. مدلهای رویگردانی تاثیر قابل توجهی در این زمینه دارند. این مدلها بهطور سنتی بر دادههای تاریخی تکیه میکنند و یا در تلاش برای ثبت مشخصههای افرادی هستند که رویگردانی کردهاند (برای مثال، کاهش مصرف و جمعیتشناسی خاص). سپس، گروه کاربران کنونی را با توجه به این مشخصهها مورد بررسی و آزمایش قرار میدهند.
افرادی که مشابهت زیادی با تاریخچه «رویگردانها» دارند پرچمگذاری میشوند و توسط یک نماینده فروش مورد پیگیری قرار میگیرند. بر اساس سناریو شرح داده شده میتوان حالتی را تصور کرد که یک شرکت دادههای وب کاربران را داشته باشد و بداند چه کاربرانی صفحه سیاستهای لغو شرکت را بررسی کردهاند (موقتا از مسائل حریم خصوصی و چگونگی شناسایی کاربران چشمپوشی میشود). این دادههای وب برای بهبود مدل رویگردانی قابل استفاده هستند. علاوه بر این، شرکتهای ارتباطات مخابرات از دادههای شبکههای اجتماعی که به صورت عمومی در دسترس هستند برای بهبود مدل شبکههای اجتماعی خود استفاده میکنند.
سیستمهای توصیهگر و بازاریابی هدفمند
«سیستمهای توصیهگر» (recommender systems) در دامنه کاربردهای گوناگون مورد استفاده قرار میگیرند. از این سیستمها برای توصیه کتاب در وبسایت آمازون (مشتریانی که این محصول را خریدهاند، همچنین ..... را نیز خریدهاند)، پیشنهاد موسیقی در «اسپاتیفای» (Spotify)، توصیه فیلم در «نتفلیکس» (Netflix) و توصیه اخبار در تقریبا همه پرتالهای خبری مورد استفاده قرار میگیرد. برخی از پیشنهادات بر مبنای گرایشهای کلی (برای مثال، خبرهای پر بازدید امروز) است. در حالیکه دیگر موارد شخصیسازی شدهاند (برای مثال: ... به شما توصیه میشود زیرا، .... را در نتفلیکس مشاهده کردهاید).
سیستم توصیهگری که به طور مناسبی پیادهسازی شده باشد میتواند کسبوکار را به طرز قابل توجهی تحت تاثیر قرار دهد. برای مثال، نتفلیکس گزارش داده که دو تا از هر سه فیلم مشاهده شده توسط کاربران از موارد پیشنهاد شده توسط سیستمهای توصیهگر بودهاند. «گوگل نیوز» نیز اذعان کرده که پیشنهادات ارائه شده توسط سیستم توصیهگر آنها ٪۳۸ کلیک بیشتری به همراه داشتهاند و آمازون ادعا میکند ٪۳۵ از فروش خود را از پیشنهادات خودکار خود دارد.
تحلیل احساسات
امروزه، یکی از کاربردهای محبوب دادههای متنی تحلیل احساسات و عقیدهکاوی است. تحلیل احساسات (تحلیل عواطف) جهتگیری کلی عقاید گروه بزرگی از افراد به منظور فراهم کردن اطلاعات پیرامون آنکه «بازار چه میگوید» (منظور افراد آن بازار هستند)، «چه فکری میکند» و «چه احساسی درباره یک سازمان دارد» را مورد ملاحظه قرار میدهد.
در تحلیل احساسات، اغلب از دادههای وبسایتهای شبکههای اجتماعی و دیگر روشهای تماس مشتریان استفاده میشود. برای مثال، چه شرکت یا محصولی باب روز است؟ مردم درباره یک سازمان و خدماتی که ارائه میکند حرفهای خوب میزنند یا بد؟
داشتن رویکردی نسبت به اینکه مردم در رسانههای اجتماعی یا در تعامل با واحد خدمات مشتریان سازمان چه چیزهایی می گویند میتواند برای آنچه بعدا انجام خواهد شد موثر واقع شود. این مورد همچنین در سطح فردی نیز قابل استفاده است. در تحلیل احساست از تشخیص الگو برای شناسایی وضعیت روحی تماسگیرنده در آغاز تماس استفاده میشود. بر همین اساس میتوان تماسگیرنده هیجانزده را به منظور انجام برخورد با دقت، به یک متخصص متصل کرد.
تحلیلهای عملیاتی
تحلیل عملیاتی، به جای دادن تحلیلها در فرآیندهای کسبوکار و خودکارسازی تصمیمها میپردازد، بنابراین میلیونها تصمیم هر روز با فرآیندهای تحلیل بدون هرگونه دخالت انسانی اتخاذ میشوند. برای مثال، خطوط هوایی هنگامی که یک پرواز با تاخیر مواجه میشود به طور خودکار مشتریان را به مسیر متفاوتی منتقل میکنند. این کار به منظور محدود کردن اختلال سفر و افزایش رضایت مشتریان صورت میپذیرد. تحلیلها حقایق زیادی را درباره هر مشتری، دیگر مسافران و وضعیت گزینههای پرواز جایگزین به دست میدهند.
کلانداده برای منافع اجتماعی
بینش کسب شده از دادههای پالایش شده میتواند به کسبوکارها کمک کند، همچنین میتواند منافع جمعی را پرورش داده و جوامع را قدرتمند سازد. برای مثال، در سال ۲۰۱۵، «تلنور ریسرچ» (Telenor Research) مطالعهای را با همکاری «Harvard T.H. Chan School of Public Health and Telenor Pakistan» منتشر کرد که حاکی از قدرت دادههای موبایل برای پیشبینی و ردیابی گسترش بیماریهای اپدمیک بود. این پژوهش با تشویقهای گستردهای مواجه شد و حتی بیل گیتس در رابطه با آن توییت کرد.
دانشمند داده
امروزه، افرادی که کار تحلیل کلان دادهها را انجام میدهند، «دانشمند داده» (data scientist) نامیده میشوند. «توماس اچ داونپورت» (Thomas H. Davenport) و «دیجی پاتیل» (D.J. Patil) اصطلاح دانشمند داده را ابداع و در مقالهای که سال ۲۰۱۲ در «هاروارد بیزنس رویو» (Harvard Business Review) منتشر شد عمومی کردند. در این مقاله نقش دانشمند داده تعریف و از آن به عنوان جذابترین نقش در سال ۲۰۱۲ یاد شده است.
عنوان شغلی دانشمند داده گاهی مورد انتقاد قرار میگیرد، زیرا فاقد شفافیت است و میتوان از آن به عنوان یک معادل باشکوه برای «تحلیلگر داده» (data analyst) استفاده کرد. صرفنظر از این بحث، این جایگاه شغلی در شرکتهای بزرگی وجود دارد که به کسب معنا از کلاندادههای ساختار یافته، ساختار نیافته و نیمه ساختاریافته تولید شده توسط کسبوکارها علاقمند هستند.
تمایز اولیه یافت شده بین دانشمند داده و دیگر متخصصان تحلیل آن است که دانشمندان داده دارای یک پیشزمینه علوم کامپیوتری هستند تا از «هادوپ» (Hadoop) استفاده کنند و به زبانهایی مانند پایتون یا R کد بزنند. این مساله با کارشناسان تحلیل سنتی که از آمار، ریاضیات یا تحقیق در عملیات میآمدند و گرایش به استفاده از محیطهای سرور تحلیلی رابطهای مانند SAS یا SQL برای کد زدن داشتند، قابل مقایسه است.
اگرچه، ابزار و محیط نیست که یک شغل را تعریف میکند بلکه نوعی از مسائل کسبوکار که حل شدهاند و البته مهارتهای هستهای مورد نیاز آنها است. با این اوصاف، دانشمند داده نباید از متخصصان تحلیل سنتی خیلی متفاوت باشند زیرا نقطه اساسی یعنی «اندیشه تحلیلی» دست نخورده به قوت خود باقی میماند.
مولفه اصلی فناوری در اکوسیستم کلانداده
بار دیگر میتوان به تعریف گارتنر برای کلانداده (مِهداده) ارجاع داد. در این تعریف، نیاز به نوع جدیدی از راهکارهای مدیریت داده به دلیل ماهیت حجم، سرعت و تنوع بالا، صراحتا بیان میشود. این نوع جدید از راهکار مدیریت داده دارای برچسب تجاری بسیار مقیاسپذیر، به شدت موازی و مقرون به صرفه است.
فناوریهای ثبت، ذخیرهسازی و دسترسی به کلان دادهها
به شکل سنتی، دادهها در پایگاه دادههای رابطهای ذخیره میشوند (برای مثال یک سیستم CRM برای دادههای مشتریان و یک نرمافزار مدیریت زنجیره تامین برای اطلاعات مرتبط) و برخی از این دادهها به صورت دورهای به منظور گزارشدهی و تحلیلهای بیشتر از پایگاه داده عملیاتی استخراج، تبدیل و در انبار داده بارگذاری میشوند. این مساله معمولا در قلمرو هوش تجاری میگنجد. چنین فرآیند و مجموعه ابزاری هنگام مواجهه با کلانداده (مِهداده) کم میآورد.
برای مثال، یکی از خوشههای هادوپ که بیشترین مباحثه عمومی پیرامون آن وجود دارد (متعلق به Yahoo) دارای ۴۵۵ پاتابایت در سال ۲۰۱۴ بوده و از آن زمان رشد کرده است.به سادگی میتوان گفت که هیچ پایگاه داده رابطهای یا انبار دادهای حتی به چنین اعدادی نزدیک نیز نشده است. دیگر نقطه قوت هادوپ (بیش از فناوری رابطهای) آن است که توانایی تحلیل دادههای قرار گرفته در یک قالب ساختار نیافته مانند صدا، ویدئو یا متن را دارد.
لازم به ذکر است که یک تصور غلط عمومی پیرامون این فناوری جدید وجود دارد و آن این است که هادوپ را جایگزین فناوریهای دیگری مانند پایگاه دادههای رابطهای به شمار میآورند. اما این مساله صحت ندارد. بیشتر به نظر میرسد که این فناوریها در کنار یکدیگر قرار گرفتهاند. برای مثال، نقطه قوت یک پلتفرم رابطهای کار کردن شدیدا موازی با دادههای بسیار ارزشمند تراکنشی دارای ساختار و نیازمند پشتیبانی حجم عظیمی از کاربران و نرمافزارهایی که پرسشهای تکراری از دادههای شناخته شده مطرح میکنند (در حالیکه یک شمای ثابت و بهینهسازی این مساله را جبران میکند) با امنیت سطح سازمان و تضمین کارایی است.
اغلب هنگام صحبت کردن از لایههای گوناگون فناوریهای استفاده شده برای کار کردن با کلاندادهها، از عبارت «اکوسیستم هادوپ» (hadoop ecosystem) استفاده میشود. برای مشاهده یک لیست کامل از فناوریهای مورد استفاده جهت کار با کلان داده، مراجعه به این لینک توصیه میشود، همچنین برخی از مهمترین این موارد در ادامه بیان شدهاند.
- خدمات وب آمازون برای زیرساخت (در ابر و پرداخت به ازای مصرف)
- آپاچی HDFS (سیستم فایل توزیع شده هادوپ) برای سیستم فایل توزیع شده
- «نگاشت کاهش» (MapReduce) یا «اسپارک» (Apache Spark) برای مدل برنامهنویسی توزیع شده
- «کاساندرا» (Cassandra) یا HBase برای سیستم مدیریت پایگاه داده توزیع شده غیر رابطهای
- «هایو» (Hive) برای اجرای SQL بر فراز هادوپ
- «آپاچی ماهوت» (Apache Mahout) برای کتابخانه یادگیری ماشین و ریاضیات بر فراز «نگاشت کاهش» (MapReduce)
- R برای تحلیل و بصریسازی داده
در مطالب بعدی بیشتر به جنبههای فنی تحلیل کلان داده پرداخته خواهد شد.
روشهای تحلیل
اغلب روشهای تحلیلی که به طور گسترده مورد استفاده قرار میگیرند در یکی از سه دسته زیر میگنجند.
بصریسازی
هنگامی که تحلیلها انجام شد، ذینفعان گوناگون باید با نتایج ارتباط برقرار کنند. یکی از سختترین قسمتهای تحلیل، تولید گرافیکهای با کیفیت است. ارائه یک نمودار خوب از جمله بهترین راههای ارائه یافتهها محسوب میشود.
گرافیکها به دو دلیل اصلی مورد استفاده قرار میگیرند که عبارتند از تحلیل داده اکتشافی و ارائه نتایج.
خلاصه
کلانداده واقعیتی است که امروزه ایجاد شده و ماندگار خواهد بود. تحلیل کلانداده (تحلیل مِهداده) مزایای کسبوکاری محسوسی را برای سازمانها به دنبال دارد. بینش بهبود یافته، تصمیمسازی و خودکارسازی فرآیندها از جمله این مزایا هستند.
- مشخصههای کلانداده سه «V» هستند: «حجم» (Volume)، «سرعت» (Velocity) و «تنوع» (Variety). «کلان» در «کلانداده» فقط به حجم مربوط نمیشود. در حالیکه کلانداده قطعا دربرگیرنده حجم زیادی داده است، اما فقط به حجم اشاره نمیکند. این یعنی تحلیلگر داده صرفا با حجم زیادی از دادهها مواجه نیست، بلکه دادهها به سرعت و در قالبهای پیچیدهای از منابع داده متعدد و متنوعی میآیند.
- دادهها از منابع داده متنوع میآیند و برای کاربردهای گوناگونی در صنعت قابل استفاده هستند. اغلب، ترکیب منابع داده است که میتواند نتایج ارزشمندی را در پی داشته باشد.
- همراه با کلانداده (مِهداده)، یک تغییر در پارادایم موجود بر تمرکز تحلیلها به وقوع پیوست. این تغییر در واقع جابهجایی از تحلیلهای توصیفی به تحلیلهای پیشبینانه و تجویزی است.
- کلانداده به خاطر حجم، سرعت و تنوع بالا نیازمند نوع جدیدی از راهکارهای مدیریت داده است. این نوع جدید از راهکارهای مدیریت داده بسیار مقیاسپذیر، به شدت موازی و مقرون به صرفه محسوب میشود.
- فناوریهای جدیدی مانند هادوپ جایگزین دیگر فناوریها مانند پایگاه دادههای رابطهای نیستند، بلکه به موازات آنها اضافه شدهاند.
اگر نوشته بالا برای شما مفید بود، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای هوش محاسباتی
- مجموعه آموزشهای پایگاه داده و سیستمهای مدیریت اطلاعات
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع
^^
عالی بود!
واو. چه شود هوش مصنوعی سوار بیگ دیتا ها شود؟
سلام.میشه لطفا منبع یا منابع این مطلب یا مقالتون رو ذکر کنید؟