فیلم آموزش تحلیل و پیش‌بینی سری‌های زمانی

کلیک کنید

فیلم آموزش شناسایی‌ سیستم

کلیک کنید

فیلم آموزش مانایی و هم‌انباشتگی در سری‌های زمانی

کلیک کنید

فیلم آموزش شبیه‌سازی متغیرهای تصادفی در MATLAB

کلیک کنید

آمار.پایتون

مدل خودهمبسته (Autoregressive) در پایتون – راهنمای گام به گام

۱۵۸۸

۱۴۰۲/۰۳/۸

۷ دقیقه

PDF

آموزش متنی جامع

در آموزش‌های پیشین مجله فرادرس، با پیاده‌سازی الگوریتم گرادیان کاهشی و روش نیوتون رافسون در پایتون آشنا شدیم. در این آموزش، مطالبی را درباره پیاده‌سازی مدل خودهمبسته در پایتون بیان می‌کنیم.

مدل خودهمبسته (Autoregressive) در پایتون – راهنمای گام به گام

مدل خودهمبسته (Autoregressive) در پایتون – راهنمای گام به گام

فهرست مطالب این نوشته

مدل خودهمبسته چیست؟

پیاده سازی مدل خودهمبسته در پایتون

جمع‌بندی

997696

997696

مدل خودهمبسته چیست؟

مدل‌های خودهمبسته، از ساده‌ترین و پرکاربردترین مدل‌ها در پردازش سیگنال و تحلیل سری‌های زمانی هستند. در این مدل، مقدار سیگنال در هر نقطه، به صورت ترکیبی خطی از $p$ نقطه قبل در نظر گرفته می‌شود.

فیلم آموزش تحلیل و پیش‌بینی سری‌های زمانی در فرادرس

کلیک کنید

برای مثال، اگر سری $X$ را به‌صورت زیر داشته باشیم:

$\large x _ 1 , x _ 2 , \dots , x _{n-1} , x _ n$

یک مدل خودهمبسته از مرتبه $p$ به‌صورت زیر تعریف می‌شود:

$\large x_{t}=c+\varphi_{1} x_{t-1}+\varphi_{2} x_{t-2} +\ldots+\varphi_{p} x_{t-p}+\varepsilon_{t}=c+\sum_{i=1}^{p} \varphi_{i} x_{t-i}+\varepsilon_{t}$

در این رابطه، بردار $\varphi$ ضرایب مربوط به نقاط قبلی بوده و $c$ عددی ثابت است. مقدار $\varepsilon_{t}$ نیز نشان‌دهنده اندک خطای مدل از مقادیر مشاهده‌شده است که توزیع نرمال با میانگین صفر دارد.

فیلم آموزش شبیه‌سازی متغیرهای تصادفی در MATLAB در فرادرس

فیلم آموزش شبیه‌سازی متغیرهای تصادفی در MATLAB در فرادرس

کلیک کنید

برای یادگیری برنامه‌نویسی با زبان پایتون، پیشنهاد می‌کنیم به مجموعه آموزش‌های مقدماتی تا پیشرفته پایتون فرادرس مراجعه کنید که لینک آن در ادامه آورده شده است.

پیاده سازی مدل خودهمبسته در پایتون

حال که با مدل خودهمبسته آشنا شدیم، وارد محیط برنامه‌نویسی شده و کتابخانه‌های مورد نیاز را برای پیاده‌سازی مدل خودهمبسته در پایتون فراخوانی می‌کنیم:

این کتابخانه‌ها به‌ترتیب برای موارد زیر کاربرد دارند:

آموزش scikit-learn در پایتون

فیلم آموزش scikit-learn در پایتون

کلیک کنید

کار با آرایه‌ها و محاسبات برداری
محاسبه معیارهای آماری
محاسبه معیارهای ارزیابی مدل
رسم نمودار
ایجاد و آموزش مدل‌های خطی
انتخاب مدل

حال می‌توانیم Random State و Style را نیز تعیین کنیم:

برای بررسی مدل، نیاز به یک مجموعه داده داریم. از یک دوره تناوب تابع سینوسی به‌عنوان داده استفاده می‌کنیم:

برای رسم نمودار می‌نویسیم:

که نمودار زیر حاصل می‌شود.

رسم نمودار

با افزودن اندکی نویز به مقادیر $X$ و کاهش ضخامت خط نمودار، نتیجه بهتر خواهد بود. بنابراین تولید داده را به شکل زیر تغییر می‌دهیم:

سه ورودی آورده‌شده برای تابع np.random.normal به‌ترتیب شامل میانگین توزیع، واریانس توزیع و تعداد نمونه است.

فیلم آموزش NumPy و Matplotlib در پایتون در فرادرس

کلیک کنید

رسم نمودار را نیز به شکل زیر تغییر می‌دهیم:

که به نتیجه زیر می‌رسیم.

رسم نمودار سیگنال

حال داده مورد نیاز آماده است.

برای ایجاد مدل خودهمبسته، نیاز است تا از خودهمبستگی (Autocorrelation) سیگنال مطمئن شویم. اولین و ساده‌ترین راه، رسم Scatter Plot سیگنال نسبت به Lagهای متفاوت است.

فیلم آموزش تحلیل و پیش‌بینی سری‌های زمانی در فرادرس

فیلم آموزش تحلیل و پیش‌بینی سری‌های زمانی در فرادرس

کلیک کنید

اولین نمودار را نسبت به Lag=1 رسم می‌کنیم:

که نمودار زیر حاصل می‌شود.

مدل خودهمبسته در پایتون

به این ترتیب، وجود ارتباطی خطی با Lag=1 تایید می‌شود.

فیلم آموزش شبیه‌سازی متغیرهای تصادفی در MATLAB در فرادرس

کلیک کنید

با تکرار مراحل برای Lag=2 شکل زیر را خواهیم داشت.

مدل خودهمبسته در پایتون

به این ترتیب، پخش‌شدگی بیشتر می‌شود، ولی همچنان رابطه خطی با Lag=2 مشهود است.

فیلم آموزش مانایی و هم‌انباشتگی در سری‌های زمانی در فرادرس

فیلم آموزش مانایی و هم‌انباشتگی در سری‌های زمانی در فرادرس

کلیک کنید

حال اگر Lag=50 را بررسی کنیم، شکل زیر را خواهیم داشت.

مدل خودهمبسته در پایتون

در این تصویر دو نکته به چشم می‌خورد:

ضریب همبستگی عکس حالات قبلی است.
تعداد نقاط کمتر است.

علت اتفاق اول، در ویژگی تابع سینوسی نهفته است. در یک تابع سینوسی، اگر دو نقطه به‌صورت زیر داشته باشیم:

$\large \begin{aligned} &\theta_{1}=\alpha \\ &\theta_{2}=\alpha+(2 k+1) \pi \end{aligned}$

در این شرایط، این دو نقطه غیرهم‌فاز خواهند بود. در مجموعه داده ایجاد شده نیز فاصله یک دوره تناوب تقریباً به 100 بخش تقسیم شد که هر 50 نقطه معادل $\pi$ خواهد بود، بنابراین، ارتباط با Lag=50 عکس خواهد بود.

علت اتفاق دوم نیز، از دست رفتن برخی داده‌ها به‌دلیل نبودن Lag متناظر است. برای مثال، داده‌های با شرایط $t<50$ در نمودار اخیر مشاهده نخواهد شد.

حال می‌توانیم مشاهدات نمودارها را به شکل آماری بررسی کرد و در یک نمودار نمایش داد.

برای این کار ضریب همبستگی پیرسون (Pearson Correlation Coefficient) را نسبت به Lagهای مختلف محاسبه می‌کنیم.

فیلم آموزش همبستگی و رگرسیون خطی در SPSS در فرادرس

کلیک کنید

ابتدا Lagهای مورد نیاز را انتخاب و یک آرایه خالی برای ذخیره‌سازی مقادیر خودهمبستگی ایجاد می‌کنیم:

حال یک حلقه ایجاد می‌کنیم و تک‌تک خودهمبستگی‌ها را محاسبه و به آرایه ACs اضافه می‌کنیم:

توجه داشته باشید که تابع Scipy.stats.pearsonr دو خروجی ایجاد می‌کند که اولی مربوط به ضریب همبستگی است.

فیلم آموزش کتابخانه SciPy برای محاسبات علمی در پایتون – بخش یکم در فرادرس

فیلم آموزش کتابخانه SciPy برای محاسبات علمی در پایتون – بخش یکم در فرادرس

کلیک کنید

حال می‌توانیم با یک Bar Plot خودهمبستگی سیگنال را نشان دهیم:

که نمودار زیر حاصل خواهد شد.

خودهمبستگی سیگنال

بنابراین، می‌توان به‌راحتی Lagهای مناسب را برای پیش‌بینی مشاهده کرد. توجه داشته باشید که مقدار همبستگی در Lag=0 برابر با 1 خواهد بود.

روش دیگر برای رسم نمودار خودهمبستگی، استفاده از تابع «plot_acf» موجود در کتابخانه «statsmodels» است.

فیلم آموزش اقتصادسنجی با MATLAB در فرادرس

کلیک کنید

حال که خودهمبستگی سیگنال اثبات شد، می‌توان به تولید داده‌های سری زمانی پرداخت. اگر یک مدل p=1 را در نظر بگیریم (پیش‌بینی تنها با توجه به یک نقطه قبلی)، مقدار سیگنال در Lag=1 به‌عنوان ویژگی ورودی می‌تواند انتخاب شود و Lag=0 به‌عنوان ویژگی هدف. برای مثال اگر سری به‌صورت زیر باشد:

$\large s_1,s_2, \ldots ,s_{n-1},s_n$

می‌توان مجموعه داده را به‌شکل زیر ایجاد کرد:

$Y$	$X$
$s_2$	$s_1$
$s_3$	$s_2$
...	...
$s_n$	$s_{n-1}$

به این ترتیب، اگر یک سیگنال با اندازه $n$ داشته باشیم، به تعداد $n-p$ داده خواهیم داشت.

برای پیاده‌سازی این بخش، یک تابع پیاده‌سازی می‌کنیم که در ورودی سری و $p$ را دریافت کرده و در خروجی مجموعه داده را برمی‌گرداند:

حال در مرحله اول باید تعداد داده‌های نهایی را تعیین کنیم. برای این کار ابتدا تعداد داده‌های سیگنال را محاسبه می‌کنیم:

حال آرایه‌هایی خالی برای ذخیره‌سازی مقادیر $X$ و $Y$ ایجاد می‌کنیم:

توجه داشته باشید که با افزایش تعداد Lag، تعداد ستون‌های $X$ افزایش می‌یابد، ولی تعداد ستون‌های $Y$ مستقل از Lag است.

فیلم آموزش همبستگی و رگرسیون خطی در SPSS در فرادرس

فیلم آموزش همبستگی و رگرسیون خطی در SPSS در فرادرس

کلیک کنید

حال یک حلقه ایجاد می‌کنیم و مقادیر را جایگذاری می‌کنیم:

به این ترتیب، تابع مورد نظر آماده است. برای تست کردن عملکرد صحیح تابع، یک سری ساده را به عنوان به آن وارد می‌کنیم تا نتایج را مشاهده کنیم:

که خواهیم داشت:

[[0. 1.]
[1. 2.]
[2. 3.]
[3. 4.]
[4. 5.]]
[[2.]
[3.]
[4.]
[5.]
[6.]]

به این ترتیب، مشاهده می‌کنیم که تابع، عملکرد مورد نظر را از خود نشان می‌دهد.

حال می‌توانیم سیگنال سینوسی ایجاد شده را وارد تابع کنیم:

حال مجموعه داده آماده شده است.

نیاز است تا مجموعه داده را به دو دسته آموزش و آزمایش تقسیم کنیم. برای این منظور، از بخش model_selection موجود در sklearn استفاده می‌کنیم:

به این ترتیب مجموعه داده تقسیم می‌شود.

فیلم آموزش scikit-learn در پایتون در فرادرس

کلیک کنید

حال می‌توانیم مدل خطی را ایجاد و بر روی داده‌گان آموزش دهیم:

پس از اتمام آموزش، دقت مدل روی هر دو مجموعه داده را محاسبه و نمایش می‌دهیم:

و خواهیم داشت:

R2tr = 0.9864373354377615
R2te = 0.9878940446792921

توجه داشته باشید که در کتابخانه statsmodels امکاناتی برای ایجاد مدل‌های خودهمبسته نیز تعبیه شده است.

فیلم آموزش یادگیری‌ ماشین در پایتون 1 در فرادرس

فیلم آموزش یادگیری‌ ماشین در پایتون 1 در فرادرس

کلیک کنید

با توجه به بالا بودن دقت‌ها و همچین نزدیک بودن آن‌ها به هم، می‌توان گفت مدل از دقت خوبی برخودار است و دچار بیش‌برازش (Overfitting) نیز نشده است.

اگر واریانس نویز اضافه شده را از 0٫05 به 0٫15 تغییر دهیم، سیگنال و دقت‌های زیر حاصل خواهد شد.

سیگنال‌ها

R2tr = 0.932242795568308
R2te = 0.9464468166093286

بنابراین، با افزایش نسبت نویز به سیگنال، دقت مدل در پیش‌بینی نیز کاهش می‌یابد.

افزایش nLag برای افزایش دقت در شرایطی که سیگنال رفتار پیچیده‌ای دارد کارآمد است، ولی در شرایطی که کم بودن دقت مدل ناشی از شدید بودن نویز باشد، افزایش nLag باعث Overfitting خواهد شد.

حال واریانس را به حالت قبلی برمی‌گردانیم و پارامترهای مدل را نمایش می‌دهیم:

که پارامترهای زیر ظاهر می‌شود:

Phi = [0.02306642, 0.9567478]
C = -0.00382345

در بین ضرایب، عدد بزرگ‌تر مربوط به Lag=1 است که منطقی است. ولی در مورد $\varphi _2$ این نکته قابل بیان نیست. براساس نمودار خودهمبستگی، باید هر دو ضریب اعداد بزرگ و نزدیکی به 1 باشند. علت این اختلاف، در Partial Autocorrelation نهفته است. خودهمبستگی به دست آمده برای Lag=2، اندکی نیز از Lag=1 اثر پذیرفته است، بنابراین با کم کردن این مقدار از دوره‌های قبلی، مقدار خالص خودهمبستگی به دست می‌آید. با توجه به این اعداد، می‌توان حدس زد که تغییر nLag از 2 به 1، کاهش چندانی در دقت مدل ایجاد نخواهد کرد.

فیلم آموزش رگرسیون و همبستگی در آمار استنباطی در فرادرس

فیلم آموزش رگرسیون و همبستگی در آمار استنباطی در فرادرس

کلیک کنید

عدد ثابت به دست آمده نیز مقداری بسیار کوچک نبست به دامنه سیگنال است و می‌توان آن را نیز در نظر نگرفت. برای این مورد می‌توان به شکل زیر عمل کرد:

حال پس از ساده‌سازی‌های انجام شده، به دقت و پارامترهای زیر می‌رسیم:

R2tr = 0.9861532913089581
R2te = 0.9897503482050113
Phi = [0.99970675]
C = 0.0

به این ترتیب مشاهده می‌کنیم که با تعداد پارامترهای کمتر، با دقت‌های مشابهی رسیدیم. پس، انتخاب دقیق nLag یا همان p می‌تواند بسیار کمک‌کننده باشد.

برای بررسی‌های دقیق‌تر دقت مدل، سایر معیارهای پرکاربرد را نیز محاسبه و نمایش می‌دهیم:

MSE = 0.007608
RMSE = 0.087229
NRMSE = 0.040180
MAE = 0.072924
MAPE = 0.101543

از بین معیارهای محاسبه شده، NRMSE و MAPE و R2 بدون واحد (بُعد) هستند و به همین دلیل برای ارزیابی مدل مناسب‌تر هستند. برای مثال MAPE به سادگی بیان می‌کند که میانگین خطای نسبی 10% است.

فیلم آموزش پیش‌بینی قیمت سهام با LSTM در متلب در فرادرس

کلیک کنید

برای داده‌های آزمایش می‌توان نمودار رگرسیون را نیز رسم کرد:

که نمودار زیر حاصل می‌شود.

نمودار رگرسیون

به این ترتیب نمودار رگرسیون نیز رسم شد.

فیلم آموزش رگرسیون خطی 1 در فرادرس

فیلم آموزش رگرسیون خطی 1 در فرادرس

کلیک کنید

در انتها برای تحلیل نویز سفید ادعا شده، بردار خطا را محاسبه و نمودار هیستوگرام آن را رسم می‌کنیم:

و در خروجی به نمودار زیر می‌رسیم.

خودهمبستگی در پایتون

نمودار حاصل نسبتاً شبیه توزیع نرمال است. با افزایش داده‌ها از 100 به 500، وسیع‌تر کردن بازه زمانی از یک دوره به دو دوره و افزایش bins از 9 به 19، نمودار خطا به شکل زیر در می‌آید:

مدل خودهمبسته در پایتون

پیاده‌سازی مدل خودهمبسته در پایتون به این شکل انجام و به اتمام می‌رسد.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

جمع‌بندی

در این آموزش، پیاده‌سازی مدل خودهمبسته در پایتون را بررسی کردیم. برای مطالعه بیشتر، می‌توان موارد زیر را بررسی کرد:

فیلم مجموعه آموزش پیش‌‌ بینی و تحلیل سری‌‌ های زمانی – مقدماتی تا پیشرفته در فرادرس

فیلم مجموعه آموزش پیش‌‌ بینی و تحلیل سری‌‌ های زمانی – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

با کوچک کردن گام نمونه‌برداری، پارامترها و دقت مدل چه تغییری می‌کند؟
با افزایش تعداد دوره از یک به دو و دو به سه، پارامترها و دقت مدل چه تغییری می‌کند؟
واریانس نمودار خطا چه ارتباطی با نویز اضافه شده به مجموعه داده دارد؟
با پیچیده کردن داده‌ها (برای مثال استفاده از مجموع دو تابع سینوسی)، چه تغیراتی باید در پارامترهای مدل‌سازی ایجاد کنیم؟
آیا نویز سفید موجود در سیگنال، قابل پیش‌بینی است؟ چه مقداری از این فرآیند تصادفی قابل پیش‌بینی است؟

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۱۲ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

منابع:

مجله فرادرس

سید علی کلامی هریس (+)

«سید علی کلامی هریس»، دانشجوی سال چهارم داروسازی دانشگاه علوم پزشکی تهران است. او در سال 1397 از دبیرستان «پروفسور حسابی» تبریز فارغ‌التحصیل شد و هم اکنون در کنار تحصیل در حوزه دارو‌سازی، به فعالیت در زمینه برنامه‌نویسی، یادگیری ماشین و تحلیل بازارهای مالی با استفاده از الگوریتم‌های هوشمند می‌پردازد.

مطالب مرتبط

بازی های ساخته شده با پایتون – لیست معروف ترین نمونه ها

بازی های ساخته شده با پایتون – لیست معروف ترین نمونه ها

ساخت هوش مصنوعی سخنگو با پایتون – از تشخیص صدا تا پاسخ صوتی

ساخت هوش مصنوعی سخنگو با پایتون – از تشخیص صدا تا پاسخ صوتی

نصب پایتون در ویندوز ۱۱ – از صفر تا صد

نصب پایتون در ویندوز ۱۱ – از صفر تا صد

ساخت دستیار هوش مصنوعی با پایتون – از صفر تا صد با مثال و کد

ساخت دستیار هوش مصنوعی با پایتون – از صفر تا صد با مثال و کد

هوش مصنوعی برای کد نویسی پایتون – ۱۱ ابزار کاربردی از بهترین‌های ۲۰۲۶

۱۰ آموزش برتر پایتون فرادرس – یادگیری پروژه‌محور با گواهینامه

۱۰ آموزش برتر پایتون فرادرس – یادگیری پروژه‌محور با گواهینامه

تحلیل داده با پایتون – به زبان ساده

تحلیل داده با پایتون – به زبان ساده

boolean در پایتون چیست؟ – به زبان ساده + مثال و کد

boolean در پایتون چیست؟ – به زبان ساده + مثال و کد

sort در پایتون چیست؟ – به زبان ساده با مثال و کد

sort در پایتون چیست؟ – به زبان ساده با مثال و کد

تقسیم صحیح در پایتون – به زبان ساده + مثال و کد

تقسیم صحیح در پایتون – به زبان ساده + مثال و کد

نظر شما چیست؟

برچسب‌ها

مدل خود هم بسته

Autoregressive Models in Python

خودهمبسته در پایتون

خودهمبستگی در پایتون

پیاده سازی خودهمبستگی

مدل خود همبسته در پایتون

پیاده سازی مدل خودهمبسته

مدل های خود هم بسته در پایتون