مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی

۳۳۹۹ بازدید
آخرین به‌روزرسانی: ۰۱ خرداد ۱۴۰۲
زمان مطالعه: ۶ دقیقه
مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی

ریاضیات سنگ بنای همه رشته‌های علوم معاصر به حساب می‌آید. تقریباً همه تکنیک‌های علم داده مدرن که شامل «یادگیری ماشین» (Machine Learning) نیز می‌شود، زیرساخت عمیقی از ریاضیات دارند. البته بدیهی است که یک «دانشمند داده» (Data Scientist) به انواع مختلفی از علوم مانند توانایی برنامه‌نویسی، قدرت داوری در مورد مسائل تجاری و ذهنیت منحصربه‌فرد تحلیلی و کاوشگر در مورد داده‌ها هم برای رشد در این حوزه نیاز دارد. اما می‌دانیم که این کسب اطلاع از زیرساخت‌های یک دانش به هزینه‌های زیادی نیاز دارد. از این رو کسب اطلاعات از سازوکارهای ریاضیاتی که در پسِ الگوریتم‌های زیبا قرار دارند، باعث می‌شود که نسبت به همکاران خود یک پله بالاتر بایستید.

کسب دانش در مورد این ریاضیات ضروری برای افراد تازه‌وارد به حوزه علم داده که از رشته‌های دیگری مانند مهندسی سخت‌افزار، صنعت فراوری شیمیایی، پزشکی و مراقبت‌های سلامت، مدیریت بازرگانی و غیره می‌آیند، اهمیتی دوچندان دارد. با این که این رشته‌ها ممکن است نیازمند کار با نرم‌افزارهای صفحه گسترده، محاسبات عددی و مواردی دیگر باشند؛ اما مهارت‌های ریاضیاتی موردنیاز برای «علم داده» (Data Science) دارای ماهیتی کاملاً متفاوت هستند.

یک توسعه‌دهنده وب یا تحلیلگر کسب و کار را در نظر بگیرید. این افراد گرچه به طور روزمره با داده‌های زیادی سر و کار دارند؛ اما ممکن است تأکید چندانی روی مدل‌سازی دقیق آن داده‌ها وجود نداشته باشد. در اغلب موارد تأکید روی استفاده از داده‌ها برای رفع یک نیاز فوری است و پس از آن به سرعت عبور می‌شود و دیگر به کاوش عمیق علمی نیازی نیست. اما در سوی دیگر، علم داده همواره باید به علم مرتبط باشد و نه داده. به همین دلیل است که ابزارها و تکنیک‌های خاصی، در این حوزه بسیار ضروری تلقی می‌شوند. اغلب این موارد خاص فرایند علمی هستند:

  • مدلسازی یک فرایند (فیزیکی یا اطلاعاتی) با کاوش دینامیک نهفته آن
  • فرضیه‌سازی
  • تخمین مطمئن در مورد کیفیت منبع داده
  • کمّی‌سازی عدم قطعیت پیرامون داده و پیش‌بینی‌ها
  • شناسایی الگوهای پنهان از روی جریان اطلاعات
  • درک محدودیت‌های یک مدل
  • درک اثبات ریاضیاتی و انتزاع منطقی تشکیل دهنده آن

علم داده بر حسب ماهیت ذاتی خود به یک حوزه موضوعی خاص وابسته نیست و ممکن است با پدیده‌های بسیار متنوعی از قبیل تشخیص سرطان و یا تحلیل رفتار اجتماعی سر و کار داشته باشد. بدین ترتیب امکان پدید آمدن آرایه درهمی از اشیای ریاضیاتی n بُعدی، توزیع آماری، تابع‌های هدف بهینه‌سازی و موارد دیگر وجود دارد.

در این نوشته برخی موضوعاتی که به نظر می‌رسد برای مطالعه در حوزه علم داده اولویت بالاتری دارند ارائه شده‌اند.

تابع‌ها، متغیرها، معادله‌ها و گراف‌ها

این حوزه از ریاضیات شامل مباحث مقدماتی از معادله یک خط تا قضیه دوجمله‌ای و مشخصات آن می‌شود:

مفاهیم ریاضیاتی در کجا استفاده می‌شوند؟

اگر می‌خواهید درک کنید چگونه یک جستجو روی پایگاه داده با چند میلیون آیتم به صورت سریع اجرا می‌شود، باید با مفهوم «جستجوی دودویی» آشنا باشید. برای درک دینامیک این مسئله باید لگاریتم‌ها و معادلات بازگشتی را بشناسید. همچنین اگر می‌خواهید یک سری زمانی را تحلیل کنید، باید با مفاهیمی مانند «تابع‌های متناوب» و «نزول نمایی» آشنا باشید.

از کجا بیاموزیم؟

بهترین منبع برای شروع یادگیری این مفاهیم، مراجعه به مجموعه آموزش‌های «ریاضیات» و انتخاب مباحث مورد نیاز با توجه به راهنمایی فوق است.

آمار

Statistics

اهمیت کسب دانشی قوی از مفاهیم ضروری آمار و احتمال در زمینه علم داده غیر قابل انکار است. بسیاری از متخصصان این حوزه، «یادگیری ماشین» کلاسیک (بدون شبکه عصبی) را اساساً چیزی به جز یادگیری آماری نمی‌شمارند. این حوزه بسیار گسترده است و برنامه‌ریزی متمرکزی برای مطالعه همه مفاهیم ضروری مورد نیاز است:

در چه زمینه‌هایی کاربرد دارد؟

این مفاهیم در مصاحبه‌های شغلی به کار می‌آیند. اگر بتوانید در این مصاحبه‌ها نشان دهید که بر این مفاهیم تسلط دارید، می‌توانید مصاحبه‌شونده خود را بسیار سریع‌تر تحت تأثیر قرار دهید. همچنین از این مفاهیم تقریباً به صورت روزمره به عنوان یک دانشمند داده استفاده خواهید کرد.

از کجا بیاموزیم؟

یکی از جامع‌ترین مجموعه آموزش‌های ویدیویی آمار، احتمالات و داده‌کاوی از طریق این لینک در دسترس است و می‌توانید از این مجموعه برای یادگیری مفاهیمی که پیش‌تر ذکر شد به بهترین شکل ممکن بهره بگیرید.

جبر خطی

Linear Algebra

جبر خطی یکی از شاخه‌های ضروری از ریاضیات است که برای درک طرز کار الگوریتم‌های یادگیری ماشین روی جریان‌های داده‌ای به کار می‌آید. همه چیز از پیشنهاد دوست در فیسبوک تا توصیه موسیقی‌ها در اسپاتیفای و تا تبدیل عکس سلفی به صورت پرتره‌های به سبک سالوادور دالی با استفاده از «یادگیری انتقالی عمیق» (deep transfer learning) شامل ماتریس‌ها و جبر خطی است. موضوعاتی که در این شاخه از ریاضیات باید بیاموزید را در ادامه توضیح داده‌ایم:

  • مشخصات مقدماتی ماتریس و بردارها: ضرب اسکالر، تبدیل خطی، ترانهاده، مزدوج، رتبه، دترمینان
  • ضرب داخلی و خارجی، قاعده دستکاری ماتریس و الگوریتم‌های مختلف، معکوس ماتریس
  • ماتریس‌های خاص: ماتریس مربع، ماتریس همانی، ماتریس مثلثی، ایده‌هایی در مورد ماتریس خلوت و متراکم، بردارهای یکه، ماتریس متقارن، هرمیتیان، ماتریس‌های هرمیتی، هرمیتی اریب و ماتریس یکانی
  • مفهوم فاکتورگیری از ماتریس، تجزیه LU، حذف گاوسی، گادئوس-جردن، حل سیستم معادلات خطی Ax=b.
  • فضای بردار، پایه، اسپن، تعامد، یکامتعامد بودن، کمترین مربع خطی
  • مقدار ویژه، بردار ویژه، قطری‌سازی، تجزیه مقدار منفرد

در چه زمینه‌هایی کاربرد دارد؟

اگر تاکنون از تکنیک کاهش ابعاد «تحلیل مؤلفه اساسی» (Principal Component Analysis) استفاده کرده باشید، در این صورت احتمالاً از تجزیه مقدار منفرد برای دستیابی به بازنمایی ابعادی فشرده‌ای مجموعه داده‌های خود با پارامترهای کمتر استفاده کرده‌اید. همه الگوریتم‌های «شبکه عصبی» (Neural Network) از تکنیک‌های جبر خطی برای نمایش و پردازش ساختارهای شبکه و عملیات یادگیری بهره می‌گیرند.

از کجا بیاموزیم؟

مجموعه «آموزش‌های جبر خطی با متلب» یکی از بهترین نقاط برای شروع یادگیری مباحث جبر خطی در ارتباط با علم داده محسوب می‌شود.

حسابان

Calculus

چه عاشقش باشید و چه از آن متنفر باشید، در هر حال حسابان در بخش‌های مختلفی از علم داده و یادگیری ماشین نقش دارد. حتی در یک راه‌حل تحلیلی به ظاهر ساده از مسئله معمولی کمترین مربعات در رگرسیون خطی و یا حتی در هر پس‌انتشار شبکه عصبی برای یادگیری یک الگوی جدید، حسابان حضور دارد.

حسابان یک مهارت بسیار ارزشمند محسوب می‌شود که باید به مجموعه مهارت‌های خود اضافه کنید. در ادامه برخی موضوعات مهم این شاخه از ریاضیات را فهرست کرده‌ایم:

در چه زمینه‌هایی کاربرد دارد؟

آیا تاکنون کنجکاو بوده‌اید که الگوریتم رگرسیون لجستیک دقیقاً چگونه پیاده‌سازی می‌شود؟ به احتمال بالا این نوع رگرسیون از روشی به نام «گرادیان کاهشی» (gradient descent) برای یافتن کمینه تابع زیان استفاده می‌کند. برای درک طرز کار این متد باید از مفاهیمی مرتبط حسابان مانند گرادیان، مشتق، حد و قاعده زنجیری استفاده کنید.

از کجا بیاموزیم؟

برای یادگیری این مفاهیم پیشنهاد می‌کنیم از این «مجموعه آموزش‌های ریاضیات» استفاده کنید.

ریاضیات گسسته

Discrete Math

این شاخه از ریاضیات در زمینه علم داده چندان مورد توجه قرار نگرفته است؛ اما همه کارهایی که در علم داده مدرن صورت می‌گیرند به کمک سیستم‌های محاسباتی انجام می‌یابند و ریاضیات گسسته نیز هسته مرکزی این سیستم‌ها را تشکیل می‌دهد.

یک یادآوری مناسب برای مفاهیم ریاضیات گسسته شامل مفاهیم ضروری برای استفاده روزمره الگوریتم‌ها و ساختمان داده در پروژه‌های تحلیلی است:

در چه زمینه‌ای کاربرد دارد؟

در همه تحلیل‌های شبکه اجتماعی باید مشخصات گراف را بدانید و با الگوریتم سریع برای جستجو و پیمایش شبکه آشنا باشید. هر الگوریتمی که انتخاب کنید باید پیچیدگی زمانی و فضایی آن را بدانید یعنی بدانید با افزایش اندازه داده‌های ورودی، زمان اجرا و فضای موردنیاز الگوریتم چه قدر افزایش خواهد داشت و با استفاده از نمادگذاری (O(n بیان کنید.

از کجا بیاموزیم؟

«مجموعه آموزش‌های ریاضیات گسسته» فرادرس یکی از بهترین منابع برای آغاز آموزش این مفاهیم محسوب می‌شود.

موضوعات بهینه‌سازی و تحقیق عملیات

Optimization

این دو حوزه در رشته‌های تخصصی مانند نظریه‌های علوم رایانه، نظریه کنترل یا تحقیق در عملیات کاملاً به هم نزدیک هستند. اما داشتن درکی اولیه از این تکنیک‌های قدرتمند در زمان آموزش یادگیری ماشین نیز می‌توانید مفید باشد. تقریباً همه الگوریتم‌های یادگیری ماشین دارای هدف کمینه‌سازی نوعی از خطای تخمین هستند که در معرض برخی محدودیت‌ها است و این یک مسئله بهینه‌سازی محسوب می‌شود. موضوعاتی که در این شاخه باید بیاموزید به شرح زیر هستند:

  • مقدماتی از بهینه‌سازی، شیوه فرمول‌بندی مسئله
  • مقدار بیشینه، مقدار کمینه، تابع محدب، پاسخ سراسری
  • برنامه‌ریزی خطی، الگوریتم سیمپلکس
  • برنامه‌ریزی عدد صحیح
  • برنامه‌ریزی محدود، مسئله کوله‌پشتی
  • تکنیک‌های بهینه‌سازی تصادفی شامل تپه نوردی، تبرید شبیه‌سازی‌شده، الگوریتم ژنتیک

در چه زمینه‌هایی کاربرد دارد؟

مسائل رگرسیون خطی ساده با استفاده از تابع زیان کمترین مربعات، غالباً یک راه‌حل تحلیلی دقیق دارند؛ اما مسائل رگرسیون لجستیک چنین نیستند. برای درک دلیل این مسئله باید با مفهوم «تحدب» در بهینه‌سازی آشنا باشید. این زمینه پژوهشی، دلیل این که چرا باید در اغلب مسائل یادگیری ماشین از راه‌حل‌های تقریبی خشنود باشیم را نیز توضیح می‌دهند.

از کجا بیاموزیم؟

یکی از بهترین منابعی که می‌توانیم برای آموزش بهینه‌سازی به شما پیشنهاد کنیم، «مجموعه آموزش‌های بهینه‌سازی کلاسیک و هوشمند» هستند که از طریق لینک موجود در دسترس شما قرار دارند.

اگر این مطلب برای شما مفید بوده است،‌ آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

==

بر اساس رای ۲۷ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
Tirthajyoti Sarkar
۲ دیدگاه برای «مباحث ریاضی مورد نیاز برای علم داده — راهنمای کاربردی»

باسلام. من هم نیازمند وهم علاقمند به علم آمار هستم.منتها نمیدانم از کجا وچگونه شروع کنم لطفا” در صورت امکان راهنماییم بفرمایید.
با سپاس

باسلام.این مطالب تدریس شده اگر بصورت کتارب چاپی هم منتشر شوند قابل تقدیر خواهد بود.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *