علم داده چیست؟
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
چرا دادهها مهم هستند؟
عبارت «بشر در عصر اطلاعات زندگی میکند» بسیار معروف است. این در حالیست که در حقیقت، بشر در عصر دادهها زندگی میکند. با تبدیل این دادهها به اطلاعات، میتوان آنها را به شمشهایی از طلا مبدل ساخت.
ژیاوی هان - دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
علم داده چیست؟
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
در این دانش از روشها و نظریههای علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده میشود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهشهای تجربی، بنیادی، محاسباتی و اکنون دادهمحور ) تصور کرده و چنین ارزیابی میکند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».
بهطور کلی میتوان گفت علم داده، مطالعه محلی که دادهها از آن میآیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آنها به منبعی ارزشمند برای کسبوکار و استراتژیهای فناوری اطلاعات سازمان است. کاوش حجم بالایی از دادههای ساختار یافته و ساختار نیافته بهمنظور شناسایی الگوهایی انجام میشود که میتوانند به سازمانها جهت صرفهجویی در هزینهها، افزایش کارایی، شناسایی فرصتهای جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روشها مانند یادگیری ماشین، کاوش داده و بصریسازی داده مورد استفاده قرار میگیرد.
در مجله «بررسی کسبوکار هاروارد» (Harvard Business Review)، از شغل «دانشمند داده» (data scientist) با عنوان جذابترین شغل قرن ۲۱ یاد شده است. اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیلهای کسبوکار، هوش تجاری، مدلسازی پیشبینی یا هر گونه استفاده اختیاری از دادهها اعمال شده و به عنوان واژهای پر زرق و برق برای آمار استفاده میشود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزههای گوناگون با عنوان «علم داده» برندسازی مجدد شدهاند تا جذابتر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده میشود.
در حالیکه در بسیاری از دانشگاههای مطرح دنیا این رشته به عنوان یک زمینه دانشگاهی تدریس میشود، هیچ توافقی در رابطه با محتوای دوره یا سرفصلهای آن تاکنون ایجاد نشده و هر موسسه و دانشگاهی به سبک خود عمل میکند. با وجود مفید و کارآمد بودن علم داده، بسیاری از پروژههای کلان داده (مِه داده) و علم داده به دلیل مدیریت ضعیف و بهکارگیری نامناسب منابع، در انتقال نتایج مفید با شکست مواجه میشوند.
مزایای علم داده
مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیمگیری است. سازمانهایی که بر علم داده سرمایهگذاری میکنند، میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی در کسبوکار خود استفاده کنند. تصمیمهای دادهمحور میتواند منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری بشود.
در سازمانهایی که با ارباب رجوع سر و کار دارند، علم داده به شناسایی و جلب مخاطبان هدف کمک میکند. این دانش همچنین میتواند به سازمانها در استخدام نیروهایشان کمک کند. علم داده با پردازش داخلی کاربردها و آزمونهای احراز صلاحیت دادهمحور، میتواند به واحد منابع انسانی سازمانها در انجام انتخابهای صحیحتر و سریعتر در طول فرآیند استخدام کمک کند.
مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمانهای فروش و بازاریابی میتوانند دادههای مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپینهای فرد به فرد کاوش کنند. موسسات بانکی، دادههای خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش میکنند. سرویسهای استریم مثل «نتفلیکس» (Netflix) دادهها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آنها برای دانستن اینکه تولید چه فیلمها یا برنامههای تلویزیونی بهتر است کاوش میکنند.
همچنین، در نتفلیکس از الگوریتمهای مبتنی بر پایگاه داده بهمنظور ساخت توصیههای شخصیسازی شده متناسب با عقاید کاربران استفاده شده است. شرکتهای حملونقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمانها و نوع حملونقل کالا استفاده میکنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسبوکار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از دادههای ساختار نیافته میتواند برای شرکتها بسیار پیچیده، گران قیمت و زمانبر باشد.
تاریخچه
اصطلاح علم داده طی سی سال گذشته در متون زیادی ظاهر شده اما تا چند سال اخیر در فضای دانشگاهی، پژوهشی و صنعتی جا نیفتاده بود. در سال ۱۹۶۰، «پیتر نائور» (Peter Naur) از این عبارت به عنوان جایگزینی برای علم کامپیوتر استفاده کرد.
نائور بعدها اصطلاح «دادهشناسی» (datalogy) را بدین منظور معرفی کرد. وی در سال ۱۹۷۴ در مقالهای با عنوان «بررسی دقیق روشهای کامپیوتری» از اصطلاح علم داده برای بیان پردازشهای داده آن دوران که در گستره وسیعی از زمینهها کاربرد داشتند، استفاده کرد.
در سال ۱۹۹۶، اعضای «فدراسیون بینالمللی جامعه دستهبندی» (International Federation of Classification Societies | IFCS) برای گردهمایی دو سال یکبار خود، در شهر کوبه ژاپن گردهم آمدند. در گردهمایی مذکور، برای اولین بار از اصطلاح علم داده به عنوان اسم کنفرانس - علم داده، دستهبندی و روشهای مرتبط - استفاده شد. این کار پس از آن صورت گرفت که در میزگرد برگزار شده، این اصطلاح توسط «چیوی هوایشی» (Chikio Hayashi) معرفی شد. در نوامبر سال ۱۹۹۷، سی اف جف وو (C. F. Jeff Wu) سخنرانی افتتاحیه رویدادی در حوزه علم داده را با عنوان «آمار = علم داده؟» به مناسبت انتساب به سمت استادی در دانشگاه میشیگان انجام داد.
در این سخنرانی، او از کارهای آماری به عنوان سه گانه گردآوری، مدلسازی و تحلیل داده و تصمیمسازی یاد کرد. در این استنتاج، او استفاده مدرن و غیر کامپیوتری اصطلاح علم داده را به کار برد و از آمار به عنوان علمی که به علم داده و آماردان به دانشمندان داده تغییر نام دادهاند یاد کرد. بعدها، او سخنرانی خود با عنوان «آمار = علم داده؟» را به عنوان اولین سخنرانی رویداد Mahalanobis Memorial Lectures در سال ۱۹۹۸ ارائه کرد. سخنرانیهای این مراسم به افتخار «پراسانتا چاندرا ماهالانوبیس» (Prasanta Chandra Mahalanobis) دانشمند و آماردان هندی و بنیانگذار موسسه آمار هند انجام میشود.
در سال ۲۰۰۱، «ویلیام اس کلولند» (William S. Cleveland) علم داده را به عنوان یک اصل مستقل که ترکیبی از علم آمار و پیشرفتهای انجام شده در محاسبات دادهها است معرفی کرد، او در این رابطه میگوید: «علم داده: برنامه اقدام بهمنظور گسترش حوزههای فنی رشته آمار است». در این گزارش، کلولند شش حوزه فنی را که باور داشت برای ایجاد علم داده ترکیب شدهاند برشمرد. این حوزهها عبارتند از تحقیقات چند رشتهای، مدلها و روشهایی برای دادهها، محاسبه با داده، علوم پرورشی، ارزیابی ابزار و نظریه.
در آپریل سال ۲۰۰۲، کمیته داده برای دانش و فناوریِ (Data for Science and Technology | CODATA) شورای بینالمللی دانش (International Council for Science | ICSU)، انتشار مجلهای با عنوان علم داده (Data Science Journal) را آغاز کرد. این اثر، بر مسائلی مانند توصیف سیستمهای داده، نشر آنها در اینترنت، کاربردها و مسائل قانونی مربوط به این حوزه متمرکز بود.
مدت کوتاهی پس از انتشار این مجله، در ژانویه سال ۲۰۰۳، دانشگاه کلمبیا، مجله علم داده (The Journal of Data Science) را ارائه کرد که پلتفرمی برای همه فعالان حوزه داده جهت نشر دیدگاهها و تبادل ایدههایشان بود. این مجله بهطور گستردهای به کاربردهای روشهای آماری و پژوهشهای کمی میپرداخت.
در سال ۲۰۰۵، «انجمن علمی ملی» (National Science Board) اثری با عنوان «مجموعه دادههای دیجیتال با عمر دراز: فراهم کردن امکان آموزش و پژوهش در قرن ۲۱» منتشر کرد و در آن دانشمندان داده را بهعنوان دانشمندان اطلاعات و کامپیوتر، کارشناسان منضبط پایگاه داده، نرمافزار و برنامهنویسی، مربیان و سخنرانان متخصص، کتابداران و بایگانیسازانی معرفی کرد که برای مدیریت موفق یک مجموعه داده دیجیتال حیاتی هستند و فعالیت اصلی آنها انجام تحقیق و تحلیل خلاقانه است.
در حدود سال ۲۰۰۷، «جیم گری» (Jim Gray)، برنده جایزه تورینگ، علوم داده محور را به عنوان چهارمین پارادایم علم معرفی کرد که از تحلیل محاسباتی دادههای بزرگ به عنوان روشی علمی جهت ساخت دنیایی که در آن ادبیات علم و همه دادههای علمی آنلاین هستن استفاده میکند.
در سال ۲۰۱۲، دانراجی پاتیل (Dhanurjay "DJ" Patil)، در مقاله «دانشمند داده: جذابترین شغل قرن ۲۱» که در مجله بررسی کسبوکار هاروارد منتشر شد، ادعا میکند که همراه با «جف همرباچر» (Jeff Hammerbacher) که این عبارت را آنها برای اولین بار در سال ۲۰۰۸ برای معرفی شغلشان در لینکدین و فیسبوک ابداع کردهاند. او از دانشمندان داده به عنوان نژادی جدید یاد کرده که کمبود آنها منجر به محدودیتهای جدی در برخی از بخشهای صنعت و دانشگاه میشود.
در سال ۲۰۱۳، رویداد «نیروی کار علم داده و تحلیل پیشرفته» (IEEE Task Force on Data Science and Advanced Analytics) راهاندازی شد. همچنین، اولین «کنفرانس اروپایی تحلیل داده» (European Conference on Data Analysis | ECDA) در لوکزامبورگ برگزار و پیرو آن «اتحادیه اروپایی تحلیل داده» (European Association for Data Science | EuADS) تاسیس شد. اولین کنفرانس بینالمللی این حوزه با عنوان «کنفرانس بینالمللی علم داده و تحلیلهای پیشرفته IEEE» در سال ۲۰۱۴ برگزار شد.
در همین سال، «جنرال اسمبلی» (General Assembly)، یک اردوی تابستانی و انکوباتور داده برای علاقمندان به علم داده راهاندازی کرد. همچنین، انجمن آمار آمریکا، عنوان ژورنال خود را به «تحلیلهای آماری و دادهکاوی: ژورنال انجمن آمار آمریکا» تغییر نام داد. مدتی بعد و طی تغییر نامی دوباره، بخش اول نام این ژورنال به «یادگیری آماری و علم داده» مبدل شد.
در سال ۲۰۱۵، «ژورنال بینالمللی علم و تحلیل داده» توسط اسپرینگر بهمنظور انتشار کارهای انجام پذیرفته در حوزه علم داده و تحلیل دادههای کلان (مِه داده) بنا شد. در سپتامبر ۲۰۱۵، طی سومین کنفرانس ECDA در دانشگاه اسکس (Essex)، عبارت «Gesellschaft für Klassifikation» به نام «انجمن علم داده» افزوده شد.
ارتباط آمار و علم داده
محبوبیت عبارت «علم داده» در محیطهای دانشگاهی و کسبوکار به دلیل گشایش دربهای جدید به سوی فرصتهای شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامهنگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشتهای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینههای گوناگون از جمله دورههای تحصیلات تکمیلی جایگزین «تحلیل کسبوکار» شده است.
در پنل پرسشوپاسخ جلسات آمار مشترک انجمن آمار آمریکا، «نیت سیلور» (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت: «من فکر میکنم دانشمند داده، عبارت آماردان را جذابتر کرده... آمار شاخهای از علم است. دانشمند داده به تدریج در بسیاری از زمینهها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشمپوشی کنند».
همچنین، در بخش کسبوکار، پژوهشگران و تحلیلگران گوناگون اذعان میکنند که دانشمندان داده به تنهایی نمیتوانند شرکتها را به مزیتهای رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی میدانند که برای دستیابی به قدرت کلانداده (مِهداده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیلگر داده، دانشمند داده، توسعهدهنده کلانداده و مهندس کلانداده.
از سوی دیگر، پاسخهای زیادی به چنین انتقاداتی داده شده و میشود. در مقالهای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، «ایروینگ لادوسکی برگر» (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال میکند که علم داده مانند هر زمینه میانرشتهای دیگری از روششناسی و راهکارهایی از دیگر زمینههای صنعتی و دانشگاهی بهره میبرد، اما آنها را در قالب جدید شکل میدهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژهای در فضای دانشگاهی دارد معطوف بود.
به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳ با انجام سخنرانی در این رابطه، بیان میکند که علم داده از تحلیلهای داده فعلی موجود در کلیه رشتهها متفاوت است.
تمرکز علم داده بر تشریح مجموعه دادهها و به دنبال الگوهای عملی و سازگار برای استفادههای پیشبینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیلهای سنتی میبرد. اکنون دادههای رشتهها و زمینههای کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریههای مستحکم هستند را می توان با بهرهگیری از علم داده برای ساخت مدلهای پیشبین قدرتمند به کار برد.
«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِهداده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده بهوسیله مهارتهای رایانشی مرتبسازی مجموعه دادههای بزرگ تعریف نمیشود. این مهارتها عموما برای تحلیل در کلیه رشتههای مورد استفاده قرار میگیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامههای دانشگاهی قادر به آمادهسازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دورههای آمار و تحلیل خود را به اشتباه با عنوان دورههای علم داده تبلیغ میکنند.
دونو به عنوان یک آماردان که تلاشهای زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش دادهاند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از دادهها توسط آماردانها شده بود، یا ویلیام کلوند که خواهان اولویتدهی به ابزارهای استخراج پیشبین قابل اجرا از دادهها یا نظریههای توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینههای علمی رشد میکند را تحقق بخشیدهاند.
به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای «دانش باز» (open science) است، مجموعه دادههای قابل استفاده برای پژوهشهای دانشگاهی را در دسترس کلیه پژوهشگران قرار میدهد. «موسسه ملی سلامت آمریکا» (US National Institute of Health) نیز برنامهای را بهمنظور ارتقا تکرارپذیری و شفافیت دادههای پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم میشکند، بلکه انقلابی در پارادایمهای پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریانها چنین نتیجه میگیرد: «دامنه و تاثیر علم داده با فراهم شدن دادههای علمی و دادههایی درباره علم، به شکل فوقالعادهای در دهههای پیشرو گسترش خواهد یافت».
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- آمار، احتمالات و دادهکاوی
- مدلسازی، برازش و تخمین
- مجموعه آموزشهای داده کاوی یا Data Mining در متلب
- کاربرد جبر خطی در علم دادهها و یادگیری ماشین — بخش اول
موسسه توسعه، به صورت تخصصی به آموزش علم داده میپردازد. کسانی که صلاحیت ورود به دوره را پیدا کنند، زیر نظر اساتید طی یک دوره شش ماهه با صبر و تمرین زیاد به یک دانشمند علم داده تبدیل میشوند.
اساتید توسعه در زمینه علم داده، سالها در امریکا این موضوع را آموختهاند، پیادهسازی کردهاند و درس دادهاند. برای آشنایی بیشتر با این دوره و مدرسین آن به این آدرس مراجعه کنید.
^^
سلام با تشکر از سایت فرادرس لطفاً دارک مود هم به سایتتون اضافه کنید تا موقع خوندن مقالات چشم اذیت نشه.
سلام و خسته نباشید.
من دانشجوی کارشناسی مدیریت بیمه اکو هستم و با اینکه رشته ام ارتباط خاصی با علم داده ها ندارد ولی خودم به مباحث کامپیوتری و ریاضی علاقه مندم.
میخواستم بدونم ایا امکان داره که این رشته رو برای ارشد انتخاب کنم؟ به نظرتون انتخاب خوبی هستش؟
اگر قبول شدم ممکنه درساش برام مشکل ساز باشه؟!
ممنون از مطلب کامل و مفید تون
من دانشجوی کارشناسی نرم افزار هستم و بسیار علاقه مند به علم داده و طراحی پایگاه داه
اگر بخوام بطور تخصصی به این موضوع ورود کنم پیشنهاد شما چیست؟
باتشکر
با سلام؛
از همراهی شما با مجله فرادرس بسیار سپاسگزاریم. در اینجا دو بحث مطرح است، علم داده و پایگاه داده. اگر تمایل دارید صرفا یک کارشناس پایگاه داده، انبار داده و مباحث مرتبط باشید که به طور کاملا تخصصی در این حوزه به فعالیت میپردازد، مسیری که باید طی کنید طبعا متفاوت از مسیر مربوط به علم داده است. هرچند که سرفصلهای مشترکی نیز برای فراگیری هر دو حوزه کاری وجود دارد.
برای مبدل شدن به یک مدیر پایگاه داده، باید با مباحث مقدماتی و پیشرفته پایگاه دادهها آشنایی داشته باشید. همچنین، نیاز به داشتن شناخت از انواع پایگاه دادهها نیز دارید. در عین حال، دورههای مربوط به پایگاه داده اوراکل (Oracle DB Certified Associate و Oracle DB Certified Professional)، مایکروسافت اسکیوال سرور (MCSE)، آیبیام (IBM Analytics Certification)، اوراکل (MySQL Database Developer و MySQL Database Administrator)، مانگودیبی (MongoDB: Certified DBA, Certified Developer) و آپاچی کسندرا (Certified Cassandra Administrator, Certified Cassandra Architect, Certified Cassandra Developer) اشاره کرد. در عین حال، همزمان با یادگیری مباحث به صورت تئوری و عملی و پس از یادگیری مباحث اولیه،، فرد نیاز به آن دارد که در محیطی مشغول به کار شود تا به صورت عملی با مسائل این حوزه مواجه شود و کار را بیاموزد.
اما در رابطه با علم داده، مسیر همانطور که پیشتر نیز بیان شد متفاوت است. کارشناسان حوزه علم داده ممکن است نقشهای شغلی متفاوتی داشته باشند و مهارتهای مور نیاز آنها بسته به نقش شغلی که در این حوزه دارند متفاوتت خواهد بود. برای آشنایی با این نقشها، مطالعه مطلب زیر به شما پیشنهاد میشود.
معرفی مشاغل داده محور — راهنمای کاربردی
اما به طور کلی، باید گفت که علم داده یک علم میان رشتهای است که در آن از مفاهیم دادهکاوی، الگوریتمهای یادگیری ماشین، مباحث آماری و جبر خطی، برنامهنویسی (در حال حاضر پایتون و R)، پایگاه داده، روشهای بازنمایی اطلاعات و برخی از دیگر مباحث استفاده میشود. بنابراین، فرد نیاز به کس دانش در هر یک از این زمینهها در سطح مشخص دارد. برای آگاهی بهتر از این مباحث، لزوم یادگیری آنها و عمق دانش مورد نیاز در هر زمینه، مطالعه مطالب زیر توصیه میشود.
چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع
مهارت های مهم برای دانشمندان داده در سال ۹۹ — به همراه منابع یادگیری
متون آموزشی پیشنهادی دانشمندان داده برای یادگیری ماشین — فهرست کاربردی
برای یادگیری هر چه بهتر علم داده و الگوریتمهای مورد استفاده در این حوزه، مشاهده ویدئوی آموزشی زیر اکیدا توصیه میشود.
آموزش داده کاوی یا Data Mining در متلب
پیروز، شاد و تندرست باشید.
سلام من امسال علم اطلاعات دانشگاه خوارزمی قبول شدم؛دارم مهارت های مورد نیاز دیتاساینس ام رو افزایش میدم.ولی با این اوصاف بازم فکر میکنم این رشته خیلی کمکی نمیکنه میشه منو توی این زمینه راهنمایی کنین؟:)
اهان یه سوال دیگه برای رشته های دیتاساینس و مدیریت داده ها و..باید حتما رشته های مهندسی و علوم پایه بخونیم؟
با سلام؛
از همراهی شما با مجله فرادرس بسیار سپاسگزاریم. رشته «علم اطلاعات و دانششناسی (Information Science and Knowledge Management) که در سالهای اخیر در برخی از دانشگاههای ایران ارائه شده است، تفاوتهای قابل توجهی با رشته «علم داده» (Data Science) دارد. از جمله سرفصلهای رشته علم اطلاعات و دانششناسی برای مقطع کارشناسی، میتوان به موارد زیر اشاره کرد:
کتابداری و علم اطلاعات
کتابخانه ها و جامعه اطلاعاتی
روشهای بازنمایی اطلاعات
معماری پایگاههای اطلاعاتی
نظامهای اطلاعات مدیریت
مدیریت دانشسازمانی
ارزشیابی نظامها و خدمات اطلاعاتی
اقتصاد اطلاعات
حقوق مالکیت معنوی
بازاریابی اطلاعات
خدمات اطلاعات تخصصی
مدیریت منابع اطلاعاتی
مدیریت اسناد
دادهکاوی
در مقطع کارشناسی ارشد این رشته، سرفصلهای اصلی در تکمیل سرفصلهای دوره کارشناسی هستند. همانطور که به وضوح مشخص است، هدف این رشته چیزی به جز آنچه است که در رشته «علم داده» (Data Science) دنبال میشود. هر چند که برخی از سرفصلهای رشته علم اطلاعات ممکن است برای دانشمندان داده و افراد فعال در حوزه علم داده بسیار مفید باشند. مدرسان ر شته علم اطلاعات معمولا از دانشآموختگان رشتههای کتابداری و دیگر رشتههای مرتبط هستند. برای آشنایی بیشتر با این رشته، مطالعه مطلب زیر پیشنهاد میشود.
رشته علم اطلاعات و دانش شناسی | معرفی گرایش ها، حقوق و درآمد و بازار کار
این در حالی است که در علم داده به عنوان یک علم میانرشتهای که ترکیبی از الگوریتمهای یادگیری ماشین، جبر خطی، آمار و اطلاعات، سیستمهای پایگاه داده، روشهای بازنمایی اطلاعات، مفاهیم داده کاوی و برخی از دیگر مباحث است، تمرکز بر کشف دانش و بینش از میان حجم انبوهی از اطلاعات است. اساتید این رشته بیشتر از دانشآموختگان رشتههای علوم و مهندسی کامپیوتر و آمار هستند. برای آشنایی بیشتر با علم داده، مطالعه مطالب زیر توصیه میشود.
چگونه یک دانشمند داده شوید؟ — راهنمای گامبهگام به همراه معرفی منابع
علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
داده کاوی (Data Mining) — از صفر تا صد
شاد، پیروز و تندرست باشید.
سایت شما و آموزش هاتون عالیه ، واقعا ممنون از سایت عالیتون