حذف روند سری های زمانی در پایتون — راهنمای گام به گام

۵۶۳ بازدید
آخرین به‌روزرسانی: ۲۸ آبان ۱۴۰۲
زمان مطالعه: ۸ دقیقه
حذف روند سری های زمانی در پایتون — راهنمای گام به گام

در آموزش‌های قبلی مجله فرادرس، با تحلیل سری زمانی آشنا شدیم. در این آموزش، روش حذف روند سری های زمانی در پایتون را شرح می‌دهیم.

روش‌های حذف روند سری های زمانی

داده‌های سری زمانی (Time Series) به طور کلی از ۵ بخش تشکیل شده‌اند:

  1. سطح یا Level: نشان‌دهنده سطح و میانگین مقادیر داده‌ها است که با L نشان می‌دهیم.
  2. روند یا Trend: نشان‌دهنده تمایل سری زمانی به حرکت در یک جهت و بعضاً ثابت ماندن است که آن را با T نشان می‌دهیم.
  3. تناوب یا Cyclic: تغییرات یکسان و تکراری است که در فاصله‌های منظمی تکرار می‌شود و آن را با C نشان می‌دهیم.
  4. فصلی یا Seasonal: تغییراتی که در فواصل کمتر از یک دوره و تناوب ایجاد می‌شوند که آن را با S نشان می‌دهیم.
  5. تغییرات نامعمول یا Irregular: تغییراتی که به صورت نامنظم رخ می‌دهند و با داده‌های موجود قابل پیش‌بینی نیستند، بنابراین تصادفی در نظر گرفته می‌شوند و با I نشان داده می‌شود.

برای انجام یک تحلیل مناسب، نیاز داریم تا هر مؤلفه را شناسایی و جدا کنیم و در نهایت از ترکیب آن‌ها برای انجام پیش‌بینی مناسب استفاده کنیم. ترکیب مؤلفه‌های گفته شده، می‌تواند به ۳ شکل زیر انجام شود:

1. مدل جمعی (Additive Model):

$$Y_{t}=L+T_{t}+C_{t}+S_{t}+I_{t}$$

2. مدل ضربی (Multiplicative Model):

$$Y_{t}=L \cdot T_{t} \cdot C_{t} \cdot S_{t} \cdot I_{t}$$

3. مدل لگاریتم جمعی (Log-Additive Model):

$$Y_{t}=e^{L+T_{t}+C_{t}+S_{t}+I_{t}}$$

در ادامه این مطلب، به روش‌های «حذف روند» (Detrending) می‌پردازیم. به این منظور، روش‌های زیر را بررسی خواهیم کرد:

  1. «تفاضل‌گیری» (Differentiation)
  2. «میانگین متحرک» (Moving Average)
  3. مدل‌سازی روند با استفاده از «رگرسیون» (Regression)
  4. «فیلتر هودریک-پرِسکات» (Hodrick-Prescott Filter)

برای یادگیری برنامه‌نویسی با زبان پایتون، پیشنهاد می‌کنیم به مجموعه آموزش‌های مقدماتی تا پیشرفته پایتون فرادرس مراجعه کنید که لینک آن در ادامه آورده شده است.

حذف روند سری های زمانی در پایتون

قبل از شروع، کتابخانه‌های مورد نیاز را فراخوانی و تنظیمات مورد نیاز را اعمال می‌کنیم:

1import numpy as np
2import yfinance as yf
3import matplotlib.pyplot as plt
4import sklearn.linear_model as lm
5import statsmodels.tsa.filters.hp_filter as hp

این کتابخانه‌ها به ترتیب برای موارد زیر استفاده خواهند شد:

  1. محاسبات برداری و کار با آرایه‌ها
  2. دریافت داده‌های مالی به صورت آنلاین (Online)
  3. رسم نمودار داده‌ها
  4. ایجاد و آموزش مدل‌های خطی
  5. فیلتر هودریک پرسکات

روش تفاضل‌گیری

یک سری زمانی با فرمول زیر ایجاد می‌کنیم:

$$ Y_{t}=5 \sin (4 \times t)+e^{\frac{t}{4}}+I_{t} $$

در این رابطه عبارت $$I_t$$ نشان‌دهنده رفتارهای نامنظم است.

این سری را در بازه $$[0,4π]$$ به شکل زیر ایجاد می‌کنیم:

1T1 = np.linspace(start=0, stop=4*np.pi, num=160)
2S1 = 5 * np.sin(4 * T1) + np.exp(T1 / 4) + np.random.normal(loc=0, scale=0.1, size=(T1.size, ))

حال نمودار این سری زمانی را به شکل زیر رسم می‌کنیم:

1plt.plot(T1, S1, lw=1, c='crimson')
2plt.title('S1')
3plt.xlabel('Time')
4plt.ylabel('Value')
5plt.show()

که شکل زیر را خواهیم داشت.

روش تفاضل گیری

مشاهده می‌کنیم یک سری زمانی با روند نمایی ایجاد می‌شود.

برای حذف روند به روش تفاضل‌گیری، می‌توانیم به شکل زیر تابعی تعریف کنیم که با گرفتن سری زمانی و فاصله تفاصل‌گیری، اختلاف را محاسبه و برگرداند:

1def Diff(S:np.ndarray, L:int=1):
2    D = S[L:] - S[:-L]
3    return D

حال برای این مجموعه داده، تفاصل هر داده با داده قبلی را محاسبه می‌کنیم و نمایش می‌دهیم:

1D1 = Diff(S1)
2
3plt.plot(T1[-D1.size:], D1, lw=1, c='crimson')
4plt.title('D1')
5plt.xlabel('Time')
6plt.ylabel('Value')
7plt.show()

که برای کد فوق، نمودار زیر حاصل می‌شود.

روش تفاضل گیری

به این ترتیب، مشاهده می‌کنیم که بخش زیادی از روند داده‌ها حذف و یک سری زمانی ایستا (Stationary) حاصل شده است. توجه داشته باشید که در برخی مواقع نیاز است تا چندین بار تفاضل‌گیری انجام دهیم یا تفاضل‌گیری با طول بیشتر از ۱ انجام دهیم. برای مثال اگر برای سری فوق، تفاضل‌گیری را با داده‌هایی به جز دوره قبل انجام دهیم، به احتمال زیاد نتایج مطلوبی نخواهیم گرفت.

میانگین متحرک

میانگین‌های متحرک به دلیل این‌که با استفاده از داده‌های $$L$$ قبل محاسبه می‌شوند و در مقابل تغییرات دیرتر واکنش نشان می‌دهند، می‌توانند به عنوان روند استفاده شوند و مزیت مهم آن‌ها، قابلیت تنظیم طول بازه و انواع مختلف آن‌ها است. به همین منظور، می‌توان آن‌ها را به عنوان روند در نظر گرفت و از سری زمانی حذف کرد.

برای آشنایی بیشتر با میانگین متحرک می‌توانید به مطلب «میانگین متحرک چیست؟ پیاده‌سازی میانگین متحرک (Moving Average) در پایتون» مراجعه کنید.

حال به عنوان داده، از قیمت بیتکوین (Bitcoin) در ۱ سال اخیر استفاده می‌کنیم:

1DF2 = yf.download(tickers='BTC-USD', period='1y', interval='1d')
2S2 = DF2['Close'].to_numpy()

حال نمودار را برای این داده‌ها تکرار می‌کنیم:

1T2 = np.arange(start=0, stop=S2.size)
2
3plt.plot(T2, S2, lw=1, c='crimson')
4plt.title('S2')
5plt.xlabel('Time')
6plt.ylabel('Value')
7plt.show()

که شکل زیر را خواهیم داشت.

روش میانگین متحرک

به این ترتیب، روندهای داده به شکل زیر قابل تشخیص است:

  1. افزایش: روز ۱۲۰ تا ۱۷۰ – روز ۱۸۵ تا ۲۳۰
  2. خنثی: روز ۰ تا ۴۵ – روز ۳۰۵ تا ۳۶۵
  3. کاهشی: روز ۴۵ تا ۱۲۰ – روز ۱۷۰ تا ۱۸۵ - روز ۲۳۰ تا ۳۰۵

حال می‌توانیم یک تابع برای میانگین متحرک ساده (SMA) به شکل زیر پیاده‌سازی کنیم:

1def SMA(S:np.ndarray, L:int):
2    nD0 = np.size(S)
3    nD = nD0 - L + 1
4    sma = np.zeros(nD)
5    for i in range(nD):
6        sma[i] = np.mean(S[i:i + L])
7    return sma

حال می‌توانیم میانگین متحرک را اعمال کنیم و سپس در یک نمودار نشان دهیم:

1M2 = SMA(S2, 10)
2
3plt.plot(T2, S2, lw=0.9, c='crimson', label='S2')
4plt.plot(T2[-M2.size:], M2, lw=1, c='teal', label='M2')
5plt.title('S2 + M2')
6plt.xlabel('Time')
7plt.ylabel('Value')
8plt.legend()
9plt.show()

که در این صورت، نمودار به شکل زیر خواهد بود.

حذف روند سری های زمانی

به این ترتیب، مشاهده می‌کنیم که میانگین متحرک رفتار نرم‌تری داشته و بیشتر روند کلی را نشان می‌دهد. توجه داشته باشید که در برخی نقاط، میانگین متحرک به نوسان‌های کوتاه‌مدت نیز واکنش نشان داده است که می‌توان با افزایش $$L$$ این مشکل را رفع کرد. حال اختلاف سری زمانی از میانگین متحرک را محاسبه می‌کنیم و نمایش می‌دهیم:

1D2 = S2[-M2.size:] - M2
2
3plt.plot(T2[-D2.size:], D2, lw=1, c='crimson')
4plt.title('D2')
5plt.xlabel('Time')
6plt.ylabel('Value')
7plt.show()

که شکل زیر را خواهیم داشت.

حذف روند سری های زمانی پر پایتون

به این ترتیب، مشاهده می‌کنیم که تا حدود زیادی، روند حذف شده است. کاربرد میانگین متحرک‌ها در حذف روند این‌گونه بررسی می‌شود.

توجه داشته باشید که کم کردن میانگین متحرک از سری زمانی، در واقع معادل میانگین‌گیری از تفاضل سری زمانی با داده‌های $$L$$ دوره قبل است:

$$ S_{t}-M_{t}=S_{t}-\frac{1}{L} \sum_{i=0}^{L-1} S_{t-i}=\frac{1}{L} \sum_{i=0}^{L-1}\left(S_{t}-S_{t-i}\right)=\frac{1}{L} \sum_{i=0}^{L-1} \operatorname{Diff}(t, t-i) $$

به این ترتیب، می‌توان مورد گفته‌شده را اثبات کرد.

توجه داشته باشید که الزاماً مجبور نیستیم اختلاف بین میانگین متحرک و سری زمانی را محاسبه کنیم، بلکه می‌توانیم نسبت آن‌ها را نیز به سری زمانی بدون روند در نظر بگیریم، که در این صروت می‌توانیم بنویسیم:

1R2 = S2[-M2.size:] / M2
2
3plt.plot(T2[-R2.size:], R2, lw=1, c='crimson')
4plt.title('R2')
5plt.xlabel('Time')
6plt.ylabel('Value')
7plt.show()

و در خروجی به نمودار زیر برسیم.

روش میانگین متحرک

به این ترتیب، مشاهده می‌کنیم که سری زمانی حاصل، حول مقدار $$Y=1$$ نوسان می‌کند. برای داده‌های مالی، استفاده از مدل ضربی و لگاریتم جمعی مناسب‌تر است.

مدل‌سازی روند با استفاده از رگرسیون

در این روش، برخلاف روش‌های پیشین که بدون پارامتر (Non-Parametric) بودند، از مدل‌هایی استفاده می‌کنیم که دارای پارامتر هستند و با توجه به ویژگی‌های هر مجموعه داده، تنظیم می‌شوند.

یک سری زمانی با رابطه زیر تولید می‌کنیم:

$$ Y _{t}=\sin (10 \times t)+t^{2}+I_{t} $$

که به شکل زیر داده را ایجاد و نمودار مورد نظر را رسم می‌کنیم:

1T3 = np.linspace(start=-3, stop=+3, num=100)
2S3 = np.sin(10 * T3) + np.power(T3, 2) + np.random.normal(loc=0, scale=0.1, size=(T3.size, ))
3
4plt.plot(T3, S3, lw=1, c='crimson')
5plt.title('S3')
6plt.xlabel('Time')
7plt.ylabel('Value')
8plt.show()

در خروجی نمودار زیر حاصل می‌شود.

مدل‌سازی روند با استفاده از رگرسیون

به این ترتیب، مشاهده می‌کنیم که داده دارای یک روند از نوع چندجمله‌ای درجه دوم است. حال یک مجموعه داده درجه دوم ایجاد می‌کنیم:

1t = T3.reshape((-1, 1))
2t2 = np.power(t, 2)
3
4X = np.hstack((t, t2))
5Y = S3

حال می‌توانیم یک مدل خطی ایجاد و آن را با داده‌های ایجادشده آموزش دهیم:

1Model = lm.LinearRegression()
2Model.fit(X, Y)

اکنون پیش‌بینی مدل را برای مجموعه داده دریافت، و به همراه داده‌ها رسم می‌کنیم:

1M3 = Model.predict(X)
2
3plt.plot(T3, S3, lw=0.9, c='crimson', label='S3')
4plt.plot(T3[-M3.size:], M3, lw=1, c='teal', label='M3')
5plt.title('S3 + M3')
6plt.xlabel('Time')
7plt.ylabel('Value')
8plt.legend()
9plt.show()

که شکل زیر را خواهیم داشت.

مدل‌سازی روند با استفاده از رگرسیون

به این ترتیب، مشاهده می‌کنیم که روند به خوبی محاسبه می‌شود. حال می‌توانیم اختلاف سری زمانی از روند را محاسبه کرده و رسم کنیم:

1D3 = S3 - M3
2
3plt.plot(T3, D3, lw=1, c='crimson')
4plt.title('D3')
5plt.xlabel('Time')
6plt.ylabel('Value')
7plt.show()

که به نمودار زیر خواهیم رسید.

حذف روند سری های زمانی در پایتون

به این ترتیب، مشاهده می‌کنیم که سری زمانی حاصل، ایستا است.

توجه داشته باشید که نوع روند، باید با توجه به داده تعیین شود. برای مثال ممکن است روند به شکل هر کدام از موارد زیر باشد:

  1. خطی
  2. چندجمله‌ای
  3. نمایی

توجه داشته باشید که روندهای چندجمله‌ای به طور کلی قابلیت «تعمیم‌پذیری» (Generalization) خوبی ندارند.

در بعضی حالات نیز، می‌توان داده را به نوعی «پیش‌پردازش» (Preprocessing) کرد و تغییر داد تا روند خطی شود، برای مثال در بازارهای مالی که به دلیل ماهیت نمایی، روند نیز رفتار نمایی دارد، اگر از قیمت، لگاریتم گرفته و بعد از آن روند خطی را محاسبه کنیم، مشاهده می‌کنیم که به خوبی بر روی داده‌ها قرار می‌گیرد.

فیلتر هودریک-پرِسکات

این فیلتر توسط Robert J. Hodrick و Edward C. Prescott رایج شده است که برای فیلتر کردن و تجزیه (Decomposition) سری‌های زمانی استفاده می‌شود. فیلتر هودریک-پرِسکات بیشتر در اقتصاد کلان استفاده می‌شود و نقش «هموارسازی» (Smoothing) نیز دارد.

در این فیلتر، یک مسئله بهینه‌سازی به شکل زیر تعریف می‌شود:

$$\min _{\tau}\left(\sum_{t=1}^{T}\left(y_{t}-\tau_{t}\right)^{2}+\lambda \sum_{t=2}^{T-1}\left[\left(\tau_{t+1}-\tau_{t}\right)-\left(\tau_{t}-\tau_{t-1}\right)\right]^{2}\right)$$

به این ترتیب، اگر یک سری زمانی با طول $$T$$ داشته باشیم، به تعداد $$T$$ عدد پارامتر باید بهینه‌سازی شوند. بهینه‌سازی فوق باعث خواهد شد مقدار $$\tau$$ به $$y$$ نزدیک شود و همزمان، این اتفاق با کمترین مشتق دوم رخ بدهد. به این ترتیب، ساده‌ترین $$\tau$$ محاسبه خواهد شد که به مقادیر واقعی نیز گرایش دارد.

برای استفاده از این فیلتر، قیمت ۲ سال اخیر رمز ارز Binance Coin را دریافت می‌کنیم و مقادیر Close را در یک آرایه جدا می‌کنیم:

1DF4 = yf.download(tickers='BNB-USD', period='2y', interval='1d')
2S4 = DF4['Close'].to_numpy()

حال یک نمودار نیمه‌لگاریتمی (Semi-Logarithm) برای سری زمانی رسم می‌کنیم:

1T4 = np.arange(start=0, stop=S4.size)
2
3plt.semilogy(T4, S4, lw=1, c='crimson')
4plt.title('S4')
5plt.xlabel('Time')
6plt.ylabel('Value')
7plt.show()

که شکل زیر را خواهیم داشت.

فیلتر هودریک-پرِسکات

به این ترتیب، مشاهده می‌کنیم که داده دارای 3 فاز مختلف در روند می‌باشد، به همین دلیل یک روند خطی یا نمایی، نمی‌تواند به خوبی عمل کند. در این شرایط، فیلتر هودریک-پرِسکات مناسب خواهد بود.

برای استفاده از این فیلتر، به شکل زیر عمل می‌کنیم:

1D4, M4 = hp.hpfilter(S4, lamb=10000)

توجه داشته باشید که پارامتر lamb نشان‌دهنده میزان محدودیت مدل در ایجاد انحنا است و در صورتی که کم باشد، فیلتر به نوسان‌های کوتاه‌مدت نیز واکنش خواهد داد و برعکس، اگر مقدار آن بسیار زیاد باشد، فیتلر تنها رفتار خطی از خود نشان خواهد داد.

حال نمودار مربوط به روند و سری زمانی را در کنار هم رسم می‌کنیم:

1plt.semilogy(T4, S4, lw=0.9, c='crimson', label='S4')
2plt.semilogy(T4[-M4.size:], M4, lw=1, c='teal', label='M4')
3plt.title('S4 + M4')
4plt.xlabel('Time')
5plt.ylabel('Value')
6plt.legend()
7plt.show()

که در خروجی، شکل زیر را خواهیم داشت.

فیلتر هودریک-پرِسکات

به این ترتیب، مشاهده می‌کنیم که فیلتر به خوبی توانسته روند را شناسایی کند. نکته مهمی که باید به آن توجه کرد، واکنش فیلتر به برخی نوسان‌های کوتاه‌مدت در روز‌ها مانند ۵۰، ۲۰۰ و ۵۲۰ است. برای رفع این مشکل، مقدار lamb را به ۳۰۰۰۰ افزایش می‌دهیم و خروجی به شکل زیر حاصل می‌شود.

فیلتر هودریک-پرِسکات

به این ترتیب، مشاهده می‌کنیم که روند خطی‌تر شده و تنها در نقاط مورد نیاز انحنا ایجاد کرده است. اگر مقدار lamb خیلی زیاد باشد، برای مثال در این مورد ۳۰۰۰۰۰، نتیجه به شکل زیر خواهد بود.

حذف روند سری های زمانی در پایتون

می‌بینیم که یک رفتار بسیار شدید در روز ۲۵۵ مشاهده می‌شود که دلیل آن، یک روند رشد شدید از روز ۳۰۰ تا ۴۰۰ است. به دلیل همین رشد، فیلتر مجبور است خود را با این روند تطبیق دهد، ولی در مقابل، شیب این بخش با شیب روش ۰ تا ۲۰۰ تفاوت زیادی دارد، به همین دلیل، این اختلاف در بازه ۲۰۰ تا ۲۹۰ فشرده می‌شود که دلیل این رفتار نامعمول است.

به همین دلیل، تنظیم صحیح $$\lambda$$ بسیار مهم است. حال به ازای $$\lambda = 30000$$ سری زمانی بدون روند را رسم می‌کنیم:

1plt.plot(T4, D4, lw=1, c='crimson')
2plt.title('D4')
3plt.xlabel('Time')
4plt.ylabel('Value')
5plt.show()

که شکل زیر را خواهیم داشت.

حذف روند سری های زمانی در پایتون

مشاهده می‌کنیم که در ۳۰۰ روز اول، واریانس سیگنال بسیار کوچک، ولی در باقی روزها واریانس بالایی وجود دارد. علت این مشکل، به روش محاسبه D4 برمی‌گردد که به صورت تفاضل محاسبه شده است. اگر از یک مدل ضربی استفاده کنیم و D4 را از نسبت سری زمانی اولیه به روند به دست آوریم، مشکل حل خواهد شد. به این منظور، به شکل زیر کد را تغییر می‌دهیم:

1_, M4 = hp.hpfilter(S4, lamb=30000)
2D4 = S4 / M4

حال اگر رسم نمودار را تکرار کنیم، شکل زیر را خواهیم داشت.

حذف روند سری های زمانی در پایتون در پایتون

مشاهده می‌کنیم که در این حالت، واریانس سیگنال در ۳۰۰ روز اول با بقیه داده برابر است و می‌تواند کاربرد بهتری دارد.

با توجه به مطالب گفته‌شده، مزایای فیلتر هودریک-پرِسکات بررسی شد. در کنار مزایای مهم این روش، برخی نقاط ضعف نیز وجود دارد، از جمله:

  1. این فیلتر برای تعیین مقدار روند در هر زمان، از داده‌های بعدی نیز استفاده می‌کند. این موضوع در داده‌های سری زمانی که به ترتیب زمان تولید می‌شوند، باعث مشکل می‌شود.
  2. رفتار این فیلتر در اواسط سری با انتهای آن متفاوت است.
  3. ممکن است با گذر زمان و اضافه شدن داده‌های جدید، روند محاسبه‌شده توسط این فیلتر، تغییر کرده و اصلاح شود.
  4. تنظیم پارامتر Lambda ممکن است خیلی آسان نباشد.

جمع‌بندی حذف روند سری های زمانی در پایتون

در این مطلب، به ۴ روش حذف روند سری های زمانی پرداختیم و با دریافت یا تولید مجموعه داده‌ای، رفتار و نتایج هر کدام را نشان دادیم. برای مطالعه بیشتر، می‌توان موارد زیر را بررسی کرد:

  1. چگونه می‌توان مشکلات گفته شده برای فیتلر هودریک-پرِسکات را رفع کرد؟
  2. فیلتر هودریک-پرِسکات را با استفاده از Numpy و Scipy پیاده‌سازی کنید.
  3. چه معیاری می‌تواند میزان برازندگی یک روند استخراج شده از سری زمانی را نشان دهد؟
  4. در تحلیل تکنیکال بازارهای مالی، روند چگونه تشخیص داده می‌شود؟ چگونه می‌توان فرآیند را کدنویسی کرد؟
بر اساس رای ۰ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
مجله فرادرس
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *