مباحث ریاضی مورد نیاز برای علم داده – راهنمای کاربردی


ریاضیات سنگ بنای همه رشتههای علوم معاصر به حساب میآید. تقریباً همه تکنیکهای علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز میشود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامهنویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربهفرد تحلیلی و کاوشگر در مورد دادهها هم برای رشد در این حوزه نیاز دارد. اما میدانیم که این کسب اطلاع از زیرساختهای یک دانش به هزینههای زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتمهای زیبا قرار دارند، باعث میشود که نسبت به همکاران خود یک پله بالاتر بایستید.
کسب دانش در مورد این ریاضیات ضروری برای افراد تازهوارد به حوزه علم داده که از رشتههای دیگری مانند مهندسی سختافزار، صنعت فراوری شیمیایی، پزشکی و مراقبتهای سلامت، مدیریت بازرگانی و غیره میآیند، اهمیتی دوچندان دارد. با این که این رشتهها ممکن است نیازمند کار با نرمافزارهای صفحه گسترده، محاسبات عددی و مواردی دیگر باشند؛ اما مهارتهای ریاضیاتی موردنیاز برای «علم داده» (Data Science) دارای ماهیتی کاملاً متفاوت هستند.
یک توسعهدهنده وب یا تحلیلگر کسب و کار را در نظر بگیرید. این افراد گرچه به طور روزمره با دادههای زیادی سر و کار دارند؛ اما ممکن است تأکید چندانی روی مدلسازی دقیق آن دادهها وجود نداشته باشد. در اغلب موارد تأکید روی استفاده از دادهها برای رفع یک نیاز فوری است و پس از آن به سرعت عبور میشود و دیگر به کاوش عمیق علمی نیازی نیست. اما در سوی دیگر، علم داده همواره باید به علم مرتبط باشد و نه داده. به همین دلیل است که ابزارها و تکنیکهای خاصی، در این حوزه بسیار ضروری تلقی میشوند. اغلب این موارد خاص فرایند علمی هستند:
- مدلسازی یک فرایند (فیزیکی یا اطلاعاتی) با کاوش دینامیک نهفته آن
- فرضیهسازی
- تخمین مطمئن در مورد کیفیت منبع داده
- کمّیسازی عدم قطعیت پیرامون داده و پیشبینیها
- شناسایی الگوهای پنهان از روی جریان اطلاعات
- درک محدودیتهای یک مدل
- درک اثبات ریاضیاتی و انتزاع منطقی تشکیل دهنده آن
علم داده بر حسب ماهیت ذاتی خود به یک حوزه موضوعی خاص وابسته نیست و ممکن است با پدیدههای بسیار متنوعی از قبیل تشخیص سرطان و یا تحلیل رفتار اجتماعی سر و کار داشته باشد. بدین ترتیب امکان پدید آمدن آرایه درهمی از اشیای ریاضیاتی n بُعدی، توزیع آماری، تابعهای هدف بهینهسازی و موارد دیگر وجود دارد.
در این نوشته برخی موضوعاتی که به نظر میرسد برای مطالعه در حوزه علم داده اولویت بالاتری دارند ارائه شدهاند.
تابعها، متغیرها، معادلهها و گرافها
این حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجملهای و مشخصات آن میشود:
- توابع لگاریتم، توابع نمایی، اعداد گویا
- مفاهیم و قضیههای هندسه مقدماتی، مباحث مثلثات
- اعداد حقیقی، مختلط و مشخصات مقدماتی
- سریها، سری هندسی، تصاعد حسابی و نامعادلات
- رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانهای، کروی و مقاطع مخروطی
مفاهیم ریاضیاتی در کجا استفاده میشوند؟
اگر میخواهید درک کنید چگونه یک جستجو روی پایگاه داده با چند میلیون آیتم به صورت سریع اجرا میشود، باید با مفهوم «جستجوی دودویی» آشنا باشید. برای درک دینامیک این مسئله باید لگاریتمها و معادلات بازگشتی را بشناسید. همچنین اگر میخواهید یک سری زمانی را تحلیل کنید، باید با مفاهیمی مانند «تابعهای متناوب» و «نزول نمایی» آشنا باشید.
از کجا بیاموزیم؟
بهترین منبع برای شروع یادگیری این مفاهیم، مراجعه به مجموعه آموزشهای «ریاضیات» و انتخاب مباحث مورد نیاز با توجه به راهنمایی فوق است.
آمار
اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمیشمارند. این حوزه بسیار گسترده است و برنامهریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است:
- آمار توصیفی و جمعبندی دادهها، گرایش به مرکز، واریانس، کوواریانس، همبستگی
- احتمال مقدماتی: ایده مقدماتی، امید ریاضی، حسابان احتمال، قضیه بیز، احتمال شرطی
- تابعهای توزیع احتمال شامل تابع توزیع یکنواخت، نرمال، دوجملهای، کای 2، توزیع t استیودنت و قضیه حد مرکزی
- نمونهگیری، اندازهگیری، خطا، تولید عدد تصادفی
- تست کردن فرضیه، تست A/B، بازههای اطمینان، مقادیر p
- آنووا (ANOVA)، آزمون t
- رگرسیون خطی، منظمسازی (regularization)
در چه زمینههایی کاربرد دارد؟
این مفاهیم در مصاحبههای شغلی به کار میآیند. اگر بتوانید در این مصاحبهها نشان دهید که بر این مفاهیم تسلط دارید، میتوانید مصاحبهشونده خود را بسیار سریعتر تحت تأثیر قرار دهید. همچنین از این مفاهیم تقریباً به صورت روزمره به عنوان یک دانشمند داده استفاده خواهید کرد.
از کجا بیاموزیم؟
یکی از جامعترین مجموعه آموزشهای ویدیویی آمار، احتمالات و دادهکاوی از طریق این لینک در دسترس است و میتوانید از این مجموعه برای یادگیری مفاهیمی که پیشتر ذکر شد به بهترین شکل ممکن بهره بگیرید.
جبر خطی
جبر خطی یکی از شاخههای ضروری از ریاضیات است که برای درک طرز کار الگوریتمهای یادگیری ماشین روی جریانهای دادهای به کار میآید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقیها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرترههای به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریسها و جبر خطی است. موضوعاتی که در این شاخه از ریاضیات باید بیاموزید را در ادامه توضیح دادهایم:
- مشخصات مقدماتی ماتریس و بردارها: ضرب اسکالر، تبدیل خطی، ترانهاده، مزدوج، رتبه، دترمینان
- ضرب داخلی و خارجی، قاعده دستکاری ماتریس و الگوریتمهای مختلف، معکوس ماتریس
- ماتریسهای خاص: ماتریس مربع، ماتریس همانی، ماتریس مثلثی، ایدههایی در مورد ماتریس خلوت و متراکم، بردارهای یکه، ماتریس متقارن، هرمیتیان، ماتریسهای هرمیتی، هرمیتی اریب و ماتریس یکانی
- مفهوم فاکتورگیری از ماتریس، تجزیه LU، حذف گاوسی، گادئوس-جردن، حل سیستم معادلات خطی Ax=b.
- فضای بردار، پایه، اسپن، تعامد، یکامتعامد بودن، کمترین مربع خطی
- مقدار ویژه، بردار ویژه، قطریسازی، تجزیه مقدار منفرد
در چه زمینههایی کاربرد دارد؟
اگر تاکنون از تکنیک کاهش ابعاد «تحلیل مؤلفه اساسی» (Principal Component Analysis) استفاده کرده باشید، در این صورت احتمالاً از تجزیه مقدار منفرد برای دستیابی به بازنمایی ابعادی فشردهای مجموعه دادههای خود با پارامترهای کمتر استفاده کردهاید. همه الگوریتمهای «شبکه عصبی» (Neural Network) از تکنیکهای جبر خطی برای نمایش و پردازش ساختارهای شبکه و عملیات یادگیری بهره میگیرند.
از کجا بیاموزیم؟
مجموعه «آموزشهای جبر خطی با متلب» یکی از بهترین نقاط برای شروع یادگیری مباحث جبر خطی در ارتباط با علم داده محسوب میشود.
حسابان
چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخشهای مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راهحل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پسانتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد.
حسابان یک مهارت بسیار ارزشمند محسوب میشود که باید به مجموعه مهارتهای خود اضافه کنید. در ادامه برخی موضوعات مهم این شاخه از ریاضیات را فهرست کردهایم:
- تابعهای تکمتغیره، حد و پیوستگی، مشتقپذیری
- قضیه مقدار میانگین، صور نامعین، قاعده هوپیتال
- ماکزیمم و مینیمم تابع
- قاعده ترکیب و زنجیری
- سری تیلور، مفاهیم مجموعیابی/ انتگرالگیری از سری نامتناهی
- قضیههای بنیادی و مقدار میانگین حسابان انتگرال، ارزیابی انتگرالهای معین و ناسره
- تابعهای بتا و گاما
- تابعهای چند متغیره، مشتقهای جزئی
- مقدماتی از معادلههای دیفرانسیل معمولی و جزئی
در چه زمینههایی کاربرد دارد؟
آیا تاکنون کنجکاو بودهاید که الگوریتم رگرسیون لجستیک دقیقاً چگونه پیادهسازی میشود؟ به احتمال بالا این نوع رگرسیون از روشی به نام «گرادیان کاهشی» (gradient descent) برای یافتن کمینه تابع زیان استفاده میکند. برای درک طرز کار این متد باید از مفاهیمی مرتبط حسابان مانند گرادیان، مشتق، حد و قاعده زنجیری استفاده کنید.
از کجا بیاموزیم؟
برای یادگیری این مفاهیم پیشنهاد میکنیم از این «مجموعه آموزشهای ریاضیات» استفاده کنید.
ریاضیات گسسته
این شاخه از ریاضیات در زمینه علم داده چندان مورد توجه قرار نگرفته است؛ اما همه کارهایی که در علم داده مدرن صورت میگیرند به کمک سیستمهای محاسباتی انجام مییابند و ریاضیات گسسته نیز هسته مرکزی این سیستمها را تشکیل میدهد.
یک یادآوری مناسب برای مفاهیم ریاضیات گسسته شامل مفاهیم ضروری برای استفاده روزمره الگوریتمها و ساختمان داده در پروژههای تحلیلی است:
- مجموعهها، زیرمجموعهها، مجموعههای توانی
- تابعهای شمارش، ترکیبها، شمارشپذیری
- تکنیکهای اثبات مقدماتی شامل استقرا و اثبات از طریق مثال نقض
- مقدماتی از استقرا، استنتاج، و منطق گزارهای
- ساحتمان های داده مقدماتی شامل پشته، گراف، آرایهها، جداول هش، درختها
- مشخصات گراف: اجزای متصل، درجه، مفاهیم بیشینه جریان، برش کمینه، رنگآمیزی گراف
- روابط و معادلههای بازگشتی
- رشد تابع و مفهوم نمادگذاری (O(n
در چه زمینهای کاربرد دارد؟
در همه تحلیلهای شبکه اجتماعی باید مشخصات گراف را بدانید و با الگوریتم سریع برای جستجو و پیمایش شبکه آشنا باشید. هر الگوریتمی که انتخاب کنید باید پیچیدگی زمانی و فضایی آن را بدانید یعنی بدانید با افزایش اندازه دادههای ورودی، زمان اجرا و فضای موردنیاز الگوریتم چه قدر افزایش خواهد داشت و با استفاده از نمادگذاری (O(n بیان کنید.
از کجا بیاموزیم؟
«مجموعه آموزشهای ریاضیات گسسته» فرادرس یکی از بهترین منابع برای آغاز آموزش این مفاهیم محسوب میشود.
موضوعات بهینهسازی و تحقیق عملیات
این دو حوزه در رشتههای تخصصی مانند نظریههای علوم رایانه، نظریه کنترل یا تحقیق در عملیات کاملاً به هم نزدیک هستند. اما داشتن درکی اولیه از این تکنیکهای قدرتمند در زمان آموزش یادگیری ماشین نیز میتوانید مفید باشد. تقریباً همه الگوریتمهای یادگیری ماشین دارای هدف کمینهسازی نوعی از خطای تخمین هستند که در معرض برخی محدودیتها است و این یک مسئله بهینهسازی محسوب میشود. موضوعاتی که در این شاخه باید بیاموزید به شرح زیر هستند:
- مقدماتی از بهینهسازی، شیوه فرمولبندی مسئله
- مقدار بیشینه، مقدار کمینه، تابع محدب، پاسخ سراسری
- برنامهریزی خطی، الگوریتم سیمپلکس
- برنامهریزی عدد صحیح
- برنامهریزی محدود، مسئله کولهپشتی
- تکنیکهای بهینهسازی تصادفی شامل تپه نوردی، تبرید شبیهسازیشده، الگوریتم ژنتیک
در چه زمینههایی کاربرد دارد؟
مسائل رگرسیون خطی ساده با استفاده از تابع زیان کمترین مربعات، غالباً یک راهحل تحلیلی دقیق دارند؛ اما مسائل رگرسیون لجستیک چنین نیستند. برای درک دلیل این مسئله باید با مفهوم «تحدب» در بهینهسازی آشنا باشید. این زمینه پژوهشی، دلیل این که چرا باید در اغلب مسائل یادگیری ماشین از راهحلهای تقریبی خشنود باشیم را نیز توضیح میدهند.
از کجا بیاموزیم؟
یکی از بهترین منابعی که میتوانیم برای آموزش بهینهسازی به شما پیشنهاد کنیم، «مجموعه آموزشهای بهینهسازی کلاسیک و هوشمند» هستند که از طریق لینک موجود در دسترس شما قرار دارند.
اگر این مطلب برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- آموزش اصول و روش های داده کاوی (Data Mining)
- مجموعه آموزشهای ریاضیات
- گنجینه آموزش های یادگیری ماشین و داده کاوی
- مجموعه آموزش های داده کاوی یا Data Mining در متلب
- علم داده، تحلیل داده، دادهکاوی و یادگیری ماشین ــ تفاوتها و شباهتها
- داده کاوی (Data Mining) و مفاهیم کلیدی آن — راهنمای جامع و ساده
==
باسلام. من هم نیازمند وهم علاقمند به علم آمار هستم.منتها نمیدانم از کجا وچگونه شروع کنم لطفا” در صورت امکان راهنماییم بفرمایید.
با سپاس
باسلام.این مطالب تدریس شده اگر بصورت کتارب چاپی هم منتشر شوند قابل تقدیر خواهد بود.