پرسپترون چند لایه در پایتون – راهنمای کاربردی

۴۹۰۱

۱۴۰۲/۰۴/۲۱

۹ دقیقه

PDF

آموزش متنی جامع

حوزه «یادگیری ماشین» (Machine Learning)، در حال تبدیل شدن به یکی از حوزه‌های انقلابی و حیاتی در «علم داده» (Data Science) است. حوزه یادگیری ماشین و تکنیک‌های موجود در آن، به محققان این حوزه اجازه می‌دهند تا بتوانند «روابط غیرخطی» (Non-Linear Relationships) میان «ویژگی‌ها» (Features) را بیابند و از آن‌ها، برای انجام پیش‌بینی در مورد «نمونه‌های» (Samples) جدید استفاده کنند. یکی از روش‌های ساده یادگیری ماشین، «پرسپترون چند لایه» (Multi-Layer Perceptron) نام دارد.

فهرست مطالب این نوشته

شبکه پرسپترون تک لایه

شبکه‌های عصبی پرسپترون چند لایه

الگوریتم پیشخور

محاسبه خطای شبکه با استفاده از تابع زیان

الگوریتم پس انتشار خطا

جمع‌بندی

در این مطلب، مفهوم «شبکه‌های عصبی مصنوعی» (Artificial Neural Networks) و به طور ویژه، شبکه‌های عصبی پرسپترون چند لایه مورد بررسی قرار می‌گیرد. همچنین، نحوه پیاده‌سازی شبکه عصبی پرسپترون چند لایه در «زبان برنامه‌نویسی پایتون» (Python Programming Language)، بدون استفاده از کتابخانه نرم‌افزاری محبوب SciKit-Learn نمایش داده می‌شود.

فیلم آموزش شبکه عصبی پرسپترون + پیاده سازی در متلب در فرادرس

کلیک کنید

ساختن یک شبکه عصبی چند لایه از «پایه» (Scratch)، به کاربران و مخاطبان این مطلب اجازه می‌دهد که درک عمیق‌تری از نحوه عملکرد شبکه‌های عصبی در دسته‌بندی نمونه‌ها پیدا کنند. همچنین، مخاطبان با ایده‌هایی نظیر «پس انتشار» (Backpropagation) و «پیشخور» (Feedforward)، که نقشی حیاتی در عملکرد شبکه‌های عصبی پرسپترون چند لایه دارند، آشنا خواهند شد.

پرسپترون چند لایه

شبکه پرسپترون تک لایه

پیش از اینکه شبکه‌های عصبی پرسپترون چند لایه مورد بررسی قرار گرفته شود، نوع ساده‌ای از شبکه‌های عصبی بررسی خواهد شد؛ «شبکه عصبی پرسپترون تک لایه» (Single Layer Neural Network Perceptron). شبکه عصبی پرسپترون تک لایه، تعداد مشخصی داده ورودی یا $I$ (هر داده ورودی، تعداد $n$ ویژگی‌ مشخص دارد) را به عنوان ورودی دریافت می‌کند.

فیلم آموزش شبکه عصبی پرسپترون + پیاده سازی در متلب در فرادرس

کلیک کنید

در هر مرحله یکی از داده‌های ورودی وارد شبکه عصبی می‌شود. با داشتن مجموعه‌ای از وزن‌ها ( $W$ ) و مقدار «بایاس» (Bias)، شبکه عصبی پرسپترون تک لایه، خروجی متناسب با داده ورودی و وزن‌ها تولید می‌کند. به داده‌های ورودی به شبکه عصبی پرسپترون تک لایه، در مرحله آموزش شبکه، داده‌های آموزشی گفته می‌شود.

$y = function ( \sum _ { i = 1 } ^ n w _ { i } I _ { i } + Bias ) = function ( W ^ { T } I + Bias )$

خروجی تولید شده وارد یک تابع خاص می‌شود. به این تابع، «تابع انتقال» (Transfer Function) یا «تابع فعال‌سازی» (Activation Function) گفته می‌شود. این تابع، در صورتی که مقدار خروجی تولید شده بیشتر از صفر باشد، مقدار 1 تولید می‌کند و در صورتی که خروجی تولید شده کمتر از صفر باشد، مقدار 1- توسط تابع تولید خواهد شد. در این دسته از مدل‌های شبکه عصبی، یادگیری زمانی اتفاق می‌افتد که مقدار «باینری» (Binary) تولید شده توسط تابع، با «خروجی مورد انتظار» (Expected Output) داده‌های آموزشی مقایسه می‌شود.

پرسپترون چند لایه — معماری شبکه عصبی پرسپترون تک لایه

در مرحله بعد، اختلاف میان مقادیر تولید شده توسط تابع و خروجی مورد انتظار داده‌های آموزشی، در مقدار داده ورودی و یک «نرخ یادگیری» (Learning Rate) ضرب می‌شود. مقدار حاصل با مقدار وزن جمع می‌شود؛ در این رابطه، وزن، نقش تصحیح کننده را در مدل شبکه عصبی بر عهده دارد. به بیان ساده‌تر، شبکه عصبی پرسپترون تک لایه، یک دسته‌بند خطی است؛ یعنی، دسته‌بندی که داده‌های ورودی را با استفاده از یک «خط جداکننده» (Seperating Line)، به دو گروه دسته‌بندی می‌کند.

$for \; all \; features \; of \; Input : ( I _ { 1 } , I _ { 2 } , .... , I _ { n } )$

$w _ { i } = w _ { i } + \eta ( y - t ) I _ {i}$

در این رابطه، $\eta$ مقدار نرخ یادگیری (عددی مثبت)، $t$ مقدار خروجی مورد انتظار برای ورودی و $y$ خروجی تولید شده برای ورودی مسأله است. نکته مهم در مورد این رابطه این است که در صورتی که مقدار خروجی مورد انتظار با خروجی تولید شده شبکه برابر باشد، تغییری در وزن‌ها صورت نمی‌گیرد. ایده توضیح داده شده در این بخش، «پس انتشار خطا» (Error Backpropagation) نام دارد و الگوریتم اصلی یادگیری در شبکه عصبی پرسپترون تک لایه محسوب می‌شود. البته، ایده انتشار خطا در شبکه عصبی پرسپترون تک لایه، بسیار ابتدایی است.

فیلم آموزش پیاده‌سازی شبکه‌ عصبی در پایتون در فرادرس

کلیک کنید

در ادامه و در هنگام معرفی شبکه‌های عصبی پرسپترون چند لایه، نسخه پیشرفته‌تری از الگوریتم یادگیری پس انتشار خطا، برای آموزش این شبکه معرفی خواهد شد. شبکه عصبی پرسپترون تک لایه، به راحتی و با استفاده از عملیات ماتریسی بسیار بهینه بسته نرم‌افزاری numpy در پایتون، قابل پیاده‌سازی خواهد بود. کد زیر، برای پیاده‌سازی شبکه عصبی پرسپترون تک لایه مورد استفاده قرار می‌گیرد.

تا اینجا، نحوه عملکرد شبکه‌های عصبی پرسپترون تک لایه شرح و پیاده‌سازی آن در پایتون ارائه شده است. در ادامه، معماری شبکه‌های عصبی پرسپترون چند لایه و نحوه یادگیری در این شبکه مورد بررسی قرار می‌گیرد.

شبکه‌های عصبی پرسپترون چند لایه

شبکه عصبی پرسپترون چند لایه، دسته‌ای از شبکه‌های عصبی مصنوعی پیشخور محسوب می‌شوند. در بخش بعد، با مفهوم پیشخور در این شبکه عصبی آشنا خواهید شد.

فیلم آموزش شبکه‌های عصبی مصنوعی در MATLAB در فرادرس

کلیک کنید

در یک شبکه عصبی پرسپترون چند لایه، حداقل سه «لایه» (Layer) از «نودها» (Nodes) وجود خواهند داشت:

یک «لایه ورودی» (Input Layer)
یک «لایه نهان» (Hidden Layer)
یک «لایه خروجی» (Output layer)

نودهای شبکه عصبی که به آن‌ها «نرون» (Neuron) نیز گفته می‌شود، واحدهای محاسباتی در یک شبکه عصبی محسوب می‌شوند. در این شبکه عصبی، از خروجی‌های لایه اول (ورودی)، به عنوان ورودی‌های لایه بعدی (نهان) استفاده می‌شود؛ این کار به همین شکل ادامه پیدا می‌کند، تا زمانی که، پس از تعداد خاصی از لایه‌ها، خروجی‌های آخرین لایه نهان به عنوان ورودی‌های لایه خروجی مورد استفاده قرار ‌می‌گیرد. به لایه‌هایی که بین لایه ورودی و لایه خروجی قرار می‌گیرند، «لایه‌های نهان» (Hidden Layers) گفته می‌شود. شبکه‌های پرسپترون چند لایه، مانند شبکه‌های عصبی پرسپترون تک لایه، حاوی مجموعه‌ای از وزن‌ها نیز هستند که باید برای آموزش و یادگیری شبکه عصبی تنظیم شوند.

پرسپترون چند لایه

الگوریتم پیشخور

اولین بخش در پیاده‌سازی یک شبکه عصبی پرسپترون چند لایه، توسعه الگوریتم پیشخور است. الگوریتم پیشخور، فرآیندی را کنترل می‌کند که در نتیجه آن، ورودی‌های مسأله به یک خروجی تبدیل می‌شوند. با این حال، فرآیند پیشخور در شبکه پرسپترون چند لایه، به سادگی شبکه‌های پرسپترون تک لایه نیست.

فیلم آموزش شبکه‌های عصبی مصنوعی در MATLAB در فرادرس

کلیک کنید

در فرآیند پیشخور در شبکه پرسپترون چند لایه، عملیات تعریف شده در الگوریتم، در تمامی لایه‌های تعریف شده در شبکه انجام می‌شود. در این فرایند، خروجی هر لایه به عنوان ورودی لایه بعدی تعریف می‌شود. برای مشخص کردن خروجی هر لایه، از رابطه‌ای شبیه به رابطه زیر استفاده می‌شود. این فرایند، تا زمانی ادامه پیدا می‌کند که خروجی لایه آخر شبکه (لایه خروجی) تولید شود. خروجی هر کدام از نودهای موجود در هر یک از لایه‌های شبکه عصبی پرسپترون چند لایه، از طریق روابط زیر تولید می‌شود.

$for \; all \; features \; of \; Input : ( I _ { 1 } , I _ { 2 } , .... , I _ { n } )$

$y _ { i } = function ( \large{\sum} _ { i = 1 } ^ n w _ { ij } I _ { i } + Bias_{ i } ) = function ( W ^ { T } I + Bias _ { i } )$

$function( W ^ { T } I + Bias )=\tanh ( W ^ { T } I + Bias ) \; \; \; \; \; or$

$function( W ^ { T } I + Bias )=( 1 + e^{- ( W ^ { T } I + Bias )} ) ^ { -1 }$

با استفاده از عملیات ماتریسی بسته نرم‌افزاری numpy در پایتون، می‌توان مرحله پیشخور در یک شبکه عصبی پرسپترون چند لایه را پیاده‌سازی کرد.

محاسبه خطای شبکه با استفاده از تابع زیان

وقتی که یک نمونه آموزشی، به عنوان ورودی وارد سیستم می‌شود، در لایه آخر، یک خروجی به ازاء ورودی و وزن‌ها تولید می‌شود. به عبارت دیگر، ورودی مسأله به یک خروجی تبدیل می‌شود. همان طور که پیش از این اشاره شد، خروجی هر لایه به عنوان ورودی لایه بعد تعریف می‌شود. این فرایند، تا زمانی که خروجی در لایه آخر تولید شود، ادامه پیدا می‌کند. به خروجی در لایه آخر، «خروجی پیش‌بینی شده» (Predicted Output) گفته می‌شود. در تمامی «الگوریتم‌های یادگیری نظارت شده» (Supervised Learning)، خروجی واقعی داده‌های آموزشی از پیش مشخص شده است. به این خروجی‌ها، «خروجی مورد انتظار» (Expected Output) نیز گفته می‌شود.

فیلم آموزش شبکه‌های عصبی مصنوعی در MATLAB در فرادرس

کلیک کنید

از خروجی‌های مورد انتظار برای سنجش عملکرد سیستم شبکه عصبی استفاده می‌شود. بر اساس مقادیر خروجی مورد انتظار و خروجی پیش‌بینی شده، مقدار «زیان» (Loss) شبکه عصبی پرسپترون چند لایه محاسبه می‌شود. از مقدار زیان محاسبه شده، برای پس انتشار خطا در شبکه پرسپترون و به روز رسانی وزن‌ها استفاده می‌شود.

الگوریتم پس انتشار خطا

پس از معرفی مراحل پیشخور و محاسبه خطا در شبکه عصبی پرسپترون چند لایه، وقت آن فرا رسیده است تا مهم‌ترین الگوریتم موجود در این شبکه عصبی را مورد بررسی قرار دهیم. پس از محاسبه مقدار زیان در مرحله قبل، این مقدار به صورت معکوس (از لایه خروجی به سمت لایه اول) در شبکه انتشار می‌یابد و با استفاده از مفهوم «گرادیان» (Gradient) یا شیب، وزن‌های شبکه عصبی پرسپترون چند لایه به روز رسانی می‌شوند.

فیلم آموزش شبکه‌های عصبی مصنوعی در MATLAB در فرادرس

کلیک کنید

این بخش، مهم‌ترین بخش الگوریتم پس انتشار در آموزش شبکه عصبی پرسپترون چند لایه محسوب می‌شود. مراحل یادگیری با استفاده از الگوریتم پس انتشار خطا در شبکه عصبی پرسپترون چند لایه به شرح زیر است:

با فرض داشتن تعداد $J$ نود لایه نهان و یک نمونه ورودی با تعداد $n$ ویژگی در یک شبکه عصبی پرسپترون چند لایه، خروجی نودهای لایه آخر (لایه خروجی)، از طریق رابطه زیر مشخص می‌شوند.در این رابطه، $y _ { i }$ ، خروجی نود $i$ اُم هر کدام از لایه‌های نهان را نشان می‌دهد.

$y _ { i } = f ( \large{\sum}_ { j = 1 } ^ J w _ { j i } y _{ j } )$

در مرحله بعد، با توجه به مقادیر خروجی مورد انتظار و خروجی پیش‌بینی شده برای هر کدام از نودهای لایه خروجی ( $i$ )، مقدار «دلتا» (Delta) برای هر کدام از نودها، توسط رابطه زیر محاسبه می‌شود. در این رابطه، $y_ {expected _{i} }$ خروجی مورد انتظار نود $i$ در لایه خروجی و $y_ {predicted _ { i } }$ ، خروجی پیش‌بینی شده توسط نود $i$ در لایه خروجی است.

$\delta _ { i } = ( y_ {predicted _ { i } } - y_ { expected_ {i} } ) \cdot (y_ {expected_{i} } ) \cdot ( 1 - y_ { expected _ { i } } )$

برای هر کدام از نودهای لایه نهان ( $j$ )، مقدار دلتا از طریق رابطه زیر محاسبه می‌شود.

$\delta _ { j } = ( O_ { { j } } ) ( 1 - O_ { { j } } ) \large{\sum}_ i w_ { j i } \delta _ { i }$

برای تنظیم کردن وزن‌های تمامی نودها در شبکه عصبی پرسپترون چند لایه، از روش «گرادیان کاهشی» (Gradient Descent) استفاده می‌شود. در این روش، وزن‌های تمامی نودها از طریق رابطه عمومی زیر تنظیم می‌شوند.

$\Delta w _ { i j } = \eta \; \delta _{ j } \; y _ { n }$

به طور خاص، برای تنظیم وزن نود $j$ از لایه نهان (از نود $n$ لایه ورودی به سمت نود $j$ لایه نهان)، از رابطه زیر استفاده می‌شود. در این رابطه، $x _ { n }$ مقدار نود $n$ لایه ورودی را نشان می‌دهد.

$\Delta w _ { n j } = \eta \; \delta _{ j } \; x _ { n }$

همچنین، برای تنظیم وزن نود $i$ از لایه خروجی (از نود $j$ لایه نهان به سمت نود $i$ لایه خروجی)، از رابطه زیر استفاده می‌شود. در این رابطه، $O _ { j }$ مقدار خروجی نود $j$ لایه نهان را نشان می‌دهد.

$\Delta w _ { j i } = \eta \; \delta _{ i } \; O _ { j }$

در روابط نمایش داده شده، $\eta$ نرخ یادگیری شبکه عصبی پرسپترون چند لایه است؛ اَبَرپارامتری که برای تنظیمِ نرخ تغییراتِ وزن‌های شبکه عصبی مورد استفاده قرار می‌گیرد. معمولا در ابتدای کار شبکه عصبی پرسپترون چند لایه، مقدار کوچکی برای این اَبَرپارامتر در نظر گرفته می‌شود. با این حال، توصیه می‌شود که در طی فرایند یادگیری و با افزایش تعداد تکرارهای این شبکه، به تدریج مقدار این اَبَرپارامتر افزایش پیدا کند. از کدهای زیر، برای پیاده‌سازی الگوریتم پس انتشار خطا در شبکه عصبی پرسپترون چند لایه استفاده می‌شود.

جمع‌بندی

اگرچه شبکه عصبی پرسپترون چند لایه جزء پیشرفته‌ترین و پیچیده‌ترین شبکه‌های عصبی مصنوعی به حساب نمی‌آید، با این حال، روشی بسیار مفید برای درک بهتر نحوه یادگیری در شبکه‌های عصبی مصنوعی محسوب می‌شود. کدهای ارائه شده در این مطلب، بدون استفاده از کتابخانه‌های نرم‌افزاری قدرتمند در پایتون نظیر Keras و Scikit-Learn پیاده‌سازی شده‌اند.

فیلم مجموعه آموزش شبکه‌ های عصبی مصنوعی – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

در نتیجه، نسبت به شبکه‌های عصبی پیاده‌سازی شده در این دسته از کتابخانه‌های پایتون، بهینه نیستند. نوشتن کدهای یک مدل یادگیری از پایه و بدون استفاده از کتابخانه‌های نرم‌افزاری از پیش تعریف شده، درک برنامه‌نویسان مبتدی را از نحوه یادگیری در آن افزایش می‌دهد.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۳۵ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

Medium Medium

مرتضی جادریان (+)

«مرتضی جادریان»، دانشجوی مقطع دکتری مهندسی کامپیوتر گرایش هوش مصنوعی است. او در زمینه سیستم‌های هوشمند، به ویژه سیستم‌های هوشمند اطلاعاتی، روش‌های یادگیری ماشین، سیستم‌های دانش محور و محاسبات تکاملی فعالیت دارد.

مطالب مرتبط