علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
«علم داده» (data science)، «تحلیل دادهها» (Data analytics)، «یادگیری ماشین» (machine learning) و «دادهکاوی» (Data Mining) با نرخ نجومی در حال رشد و توسعه هستند. از اینرو شرکتها بهدنبال کارشناسانی میگردند که با کیمیاگری دادهها به آنها در اتخاذ تصمیمهای چابک، اثرگذار و کارا در کسبوکار کمک کنند.
آیبیام (IBM) پیشبینی کرده است که تعداد مشاغل موجود برای کلیه کارشناسان داده آمریکا به ۳۶۴ هزار الی ۲ میلیون و ۷۲۰ هزار شغل خواهد رسید. در ادامه، به نرخ رشد بالای این علوم، شباهتها و تفاوتهای آنها با یکدیگر از دیدگاه «اریک تیلور» (Eric Taylor)، دانشمند ارشد داده در شرکت CircleUp پرداخته شده است.
علم داده چیست؟
افراد زیادی برای بیش از یک دهه تلاش کردهاند تا علم داده را تعریف کنند. بهترین راه برای پاسخ به این پرسش استفاده از یک نمودار وِن است.
این نمودار توسط «هیو کانوی» (Conway) در سال ۲۰۱۰ ترسیم شده و شامل سه دایره ریاضیات و آمار، دانش دامنه (دانشی درباره دامنهای که محاسبات و خلاصهسازی در آن انجام میشود) و مهارتهای هک میشود. اساسا اگر فرد بتواند همه این سه مجموعه فعالیت را انجام دهد، دانش خوبی در زمینه علم داده دارد.
علم داده مفهومی است که برای کار با دادههای کلان (مِهداده) به کار میرود و شامل پاکسازی، آمادهسازی و تحلیل داده میشود. یک دانشمند داده، دادهها را از چندین منبع گردآوردی کرده و تحلیلهای پیشبین و یادگیری ماشین را بر آنها اعمال میکند، و همچنین از تحلیل عواطف برای استخراج اطلاعات حیاتی از مجموعه دادههای گردآوری شده بهره میبرد.
این دانشمندان، دادهها را از نقطه نظر کسبوکار درک میکنند و قادر به فراهم کردن پیشبینیها و بینشهای صحیحی هستند که برای قدرت بخشیدن به تصمیمات مهم کسبوکار قابل استفاده است.
چه مهارتهایی برای مبدل شدن به یک دانشمند داده مورد نیاز است؟
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند.
با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
- دانش قوی از پایتون، R، اسکالا و SAS
- مهارت داشتن در نوشتن کدهای پایگاه داده SQL
- توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
- درک توابع تحلیل چندگانه
- دانش یادگیری ماشین
تحلیلگر داده کیست؟
یک تحلیلگر داده فردی است که میتواند از آمار توصیفی پایه استفاده، دادهها را بصری سازی و بین نقاط داده برای نتیجهگیری ارتباط برقرار کند. این فرد باید درک پایهای از آمار، درک بسیار خوب از پایگاه داده و ادراک برای بصریسازی دادهها داشته باشد.
از تحلیل داده میتوان به عنوان سطح پایهای از علم داده یاد کرد.
چه مهارتهایی برای مبدل شدن به یک تحلیلگر داده مورد نیاز است؟
یک تحلیلگر داده باید قادر به دریافت یک مساله، پرسش یا موضوع خاص، تشریح اینکه این دادهها چطور به نظر میرسند و ارائه آنها به ذینفعان در شرکت باشد.
افرادی که تمایل دارند به تحلیلگر داده مبدل شوند، باید چهار مهارت زیر را کسب کنند.
- دانش آمار ریاضیاتی
- درک خوب از R و پایتون
- سر و کار داشتن با دادهها
- درک PIG / HIVE
آیا بین علم داده و تحلیل داده همپوشانی وجود دارد؟
علم داده یک واژه مادر است که تحلیل داده، دادهکاوی، یادگیری ماشین و چندین مبحث مرتبط دیگر را در بر میگیرد. در حالیکه انتظار میرود یک دانشمند داده آینده را براساس الگوهای گذشته پیشبینی کند، تحلیلگر داده بینش معنادار را از چندین منبع داده استخراج میکند. یک دانشمند داده پرسشها را طرح میکند و تحلیلگر داده پاسخهای یک مجموعه از پرسشها را فراهم میکند.
یادگیری ماشین چیست؟
یادگیری ماشین را میتوان بهعنوان فعالیتی برشمرد که در آن از الگوریتمهای یادگیرنده بهمنظور پیشبینی گرایشهای آینده یک مبحث استفاده میشود. نرمافزارهای یادگیری ماشین سنتی، ترکیبی از تحلیلهای آماری و پیشبینانه هستند که برای شناسایی الگوها و کشف بینش براساس دادههای مشاهده شده مورد استفاده قرار میگیرند.
یک مثال خوب از پیادهسازی مدلهای یادگیری ماشین، شبکه اجتماعی فیسبوک است. الگوریتمهای یادگیری ماشین فیسبوک اطلاعات رفتاری را برای هر کاربر در پلتفرم اجتماعی گردآوری میکنند. الگوریتم بر پایه رفتار پیشین کاربر، علاقمندیهای شخص را پیشبینی کرده و مقالات و اخبار را بر این اساس به وی توصیه میکند. الگوریتم تشخیص چهره فیسبوک نیز، بر اساس تگگذاریهایی که کاربر برای تصاویر انجام میدهد، میآموزد که هر تصویر چهره متعلق به چه کسی است و بنابراین پس از انتشار تصاویر بلافاصله بهطور خودکار افراد را در تصویرشان تگ میکند.
بهطور مشابه، هنگامی که آمازون به کاربر میگوید «... You might also like» و در ادامه محصولاتی را متناسب با روحیات فرد به او پیشنهاد، یا هنگامی که «نتفلیکس» (Netflix) فیلمی را براساس رفتار پیشین کاربر به او توصیه میکند، در واقع از یادگیری ماشین استفاده شده است.
چه مهارتهایی برای تبدیل شدن به یک متخصص یادگیری ماشین مورد نیاز است؟
یادگیری ماشین، چشمانداز متفاوتی از آمار و علوم کامپیوتر است. در اینجا مهارتهای حیاتی که میتواند به علاقمندان جهت کسب یک جایگاه شغلی در این زمینه به سرعت در حال رشد کمک کند ارائه شدهاند.
- تخصص داشتن در اصول کامپیوتر
- دانش عمیق از مهارتهای برنامهنویسی
- دانش آمار و احتمالات
- مدلسازی داده و مهارتهای ارزیابی
آیا بین یادگیری ماشین و علم داده همپوشانی وجود دارد؟
به دلیل آنکه علم داده یک اصطلاح مادر و پوششی برای چندین حوزه متفاوت است، یادگیری ماشین نیز در این حوزه میگنجد. یادگیری ماشین از روشهای متنوع مانند رگرسیون و دستهبندی نظارت شده استفاده میکند. از سوی دیگر، «داده» در علم داده ممکن است شامل فرآیندهای ماشین یا مکانیکی بشود.
بنابراین، تفاوت اساسی بین این دو آن است که علم داده اصطلاح گستردهتری است که تنها بر الگوریتمها و آمار تمرکز ندارد، بلکه از کل روششناسی پردازش داده بهرهمند میشود.
بدین ترتیب، علم داده را میتوان به عنوان تلفیقی از چندین رشته شامل تحلیل داده، مهندسی نرمافزار، مهندسی داده، یادگیری ماشین، تحلیلهای پیشبین، تحلیلهای کسبوکار و دیگر موارد دید. این علم شامل بازیابی، گردآوری، ادراک و نگاشت حجم انبوهی از دادهها است که مجموعا کلانداده «مِهداده» نیز نامیده میشوند.
علم داده مسئول آوردن ساختار به کلان داده، جستوجوی الگوهای متقاعد کننده، و در نهایت، پیشنهاد دادن به تصمیمسازان جهت ایجاد تغییرات موثر به شیوهای است که نیازهای کسبوکار را رفع کند. تحلیل دادهها و یادگیری ماشین تنها دو مورد از ابزارها و فرآیندهای متعددی هستند که علم داده از آنها استفاده میکند. در حال حاضر، علم داده، تحلیل داده و یادگیری ماشین، برخی از پرتقاضاترین زمینههای کاری در صنعت هستند. داشتن ترکیبی از این مهارتها و تجربههای جهان واقعی به افراد کمک میکند که در این فرصت شغلی خوب، جایگاهی قدرتمند به دست آورند.
دادهکاوی چیست؟
دادهکاوی، فرآیند کشف الگوهای مهم و جالب توجه از میان حجم انبوهی از دادهها است. از این الگوهای مهم برای تصمیمسازی در کسبوکار استفاده میشود. به بیان دیگر، دادهکاوی مجموعهای از روشها است که در فرآیند کشف دانش برای تمایز روابط و الگوهایی که پیش از این ناشناخته بودهاند استفاده میشود.
دادهکاوی زمینهای میانرشتهای است که در آن از سیستمهای پایگاه داده، الگوریتمهای هوش مصنوعی و یادگیری ماشین، مدلهای آماری و الگوریتمهایی که معروف به دادهکاوی هستند استفاده میشود. متخصصان دادهکاوی را دادهکاو (در برخی متون از عبارت دادهپژوه استفاده شده) میگویند.
چه مهارتهایی برای تبدیل شدن به یک دادهکاو مورد نیاز است؟
ریاضیات و الگوریتم نقش اساسی در دادهکاوی دارند. دادهکاو باید مفاهیم آماری و مبانی استنتاج دانش را بداند. بسته به نوع مساله، دادهکاو ممکن است نیازی به آشنایی با ابزارهای تحلیل داده متداول و نرمافزارهای برنامهنویسی مانند T-SQL ،PL/SQL ، NoSQL ،SQL و «هادوپ» (Hadoop) داشته باشد.
بسیاری از دادهکاوان علاقمند به استفاده از زبانهای برنامهنویسی مانند پایتون، R، پرل (Perl) و جاوا هستند. در عین حال اغلب آنها استفاده از سیستمعامل گنو/لینوکس را ترجیح میدهند. دادهکاوان همچنین نیازمند آشنایی با مهارتهای ارتباطی و ارائه مطلب، دانش دامنه و مفاهیم جبر خطی نیز هستند. بهطور کلی علاقمندان به دادهکاوی باید مهارتهای زیر را داشته باشند.
- دانش دامنه
- آمار و احتمالات و جبر خطی
- الگوریتمهای دادهکاوی و یادگیری ماشین
- یک زبان برنامهنویسی محاسباتی مانند R و یک زبان اسکریپتنویسی مانند پایتون
آیا همپوشانی بین دادهکاوی و علم داده وجود دارد؟
دادهکاوی و علم داده هر دو از واژگان باب روز در قرن ۲۱ هستند. به همین دلیل است که اغلب افراد تمایل دارند تعاریف و تفاوتهای آنها را بدانند. اساسا علم و کاوش دو کلمه کاملا غیرمشابه هستند اما هنگامی که بحث از داده باشد، دست به دست هم میدهند.
پیش از اینکه تفاوتهای فنی این دو مورد بررسی قرار بگیرد، تاریخچه کوتاهی از این دو نام بیان میشود.
عبارت علم داده در حدود سال ۱۹۶۰ مطرح بود اما پس از آن به عنوان جایگزینی برای علوم کامپیوتر به کار میرفت، در حالیکه این دو معانی متفاوتی داشتند. در سال ۲۰۰۸، «دیجی پاتیل» (D. J. Patil) و «جف همربچر» (Jeff Hammerbacher) اولین افرادی بودند که بهمنظور تشریح جایگاه شغلیشان در فیسبوک و لینکدین، خود را دانشمند داده نامیدند. در سال ۲۰۱۲، در مقالهای که در مجله «بررسی کسبوکار هاروارد» (Harvard Business Review) منتشر شد، دانشمند داده جذابترین شغل قرن ۲۱ نامیده شد. عبارت دادهکاوی بهطور موازی تکامل یافت و در سالهای ۱۹۹۰ در جوامع پایگاه داده بسیار مطرح بود. این واژه ریشه خود را از عبارت «کشف دانش از داده» (Knowledge Discovery from data) وامدار است. این دو عبارت معمولا بهجای یکدیگر بهکار میروند.
تفاوتهای دادهکاوی و علم داده در تعاریف، فرآیند، تمرکز و اهداف آنها است. در تصویر زیر این تفاوتها نشان داده شدهاند.
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای هوش محاسباتی
- گنجینه آموزشهای یادگیری ماشین و دادهکاوی
- آمار، احتمالات و دادهکاوی
- کاربرد جبر خطی در علم دادهها و یادگیری ماشین
- درس هوش مصنوعی | مفاهیم پایه به زبان ساده — منابع، کتاب و فیلم آموزشی
^^
با سلام و احترام؛
صمیمانه از همراهی شما با مجله فرادرس و ارائه بازخورد سپاسگزاریم.
مواردی که امکانش وجود داشت، اصلاح شدند. همچنین نهایت سعی خود را خواهیم کرد تا در سریعترین زمان ممکن این مطلب را بهروزرسانی یا مطلب جدیدی را با همین موضوع منتشر کنیم.
برای شما آرزوی سلامتی و موفقیت داریم.