رگرسیون چندگانه در SPSS — راهنمای کاربردی

۱۰۲۱۱ بازدید
آخرین به‌روزرسانی: ۰۷ خرداد ۱۴۰۲
زمان مطالعه: ۸ دقیقه
رگرسیون چندگانه در SPSS — راهنمای کاربردی

تکنیک یا روش «رگرسیون خطی چندگانه» (Multiple Linear Regression) یکی از موثر و پرکاربردترین روش‌های تحلیل چند متغیره محسوب می شود. در روش گرسیون خطی چندگانه، یک رابطه خطی بین «متغیر وابسته» (Dependent Variable) با یک یا چند «متغیر مستقل» (Independent Variable) برقرار می‌شود. البته گاهی به متغیر وابسته، «متغیر پاسخ» (Respond Variable) و به متغیرهای مستقل، «متغیرهای پیش‌گو» (Predictor Variables) نیز می‌گویند. روش رگرسیونی را «چند گانه» (Multiple Linear Regression) می‌گویند اگر چندین متغیر مستقل قابلیت پیشگویی متغیر وابسته را داشته باشند و بتوان رابطه را به صورت خطی در نظر گرفت. با توجه به کاربرد گسترده این تکنیک، در این نوشتار به بررسی یک مثال و تحلیل رگرسیون چندگانه در SPSS خواهیم پرداخت.

برای اطلاع از مبانی و تاریخچه رگرسیون بهتر است مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده و رگرسیون خطی چندگانه (Multiple Linear Regression) — به زبان ساده را بخوانید. همچنین خواندن نوشتار ضریب‌های همبستگی (Correlation Coefficients) و شیوه‌ محاسبه آن‌ها — به زبان ساده و هم خطی در مدل رگرسیونی — به زبان ساده نیز خالی از لطف نیست.

رگرسیون چندگانه در SPSS

همانطور که در دیگر نوشته‌های فرادرس خوانده‌اید، رگرسیون چندگانه، روشی برای توصیف مدل رابطه خطی بین متغیرهای مستقل با یک متغیر وابسته است.

در حالت کلی چنین مدلی به همراه خطای تصادفی به صورت زیر نوشته می‌شود.

$$ \large y=\beta _{0}+\beta _{1}x_{1}+\cdots +\beta _{p}x_{p}+\varepsilon$$

در رابطه بالا، متغیرهای $$x_1$$ تا $$x_p$$ نقش متغیرهای مستقل را دارند. از طرفی متغیر $$y$$ نیز متغیر وابسته است. در انتها نیز $$\varepsilon$$ جمله خطای مدل رگرسیونی محسوب می‌شود. ضرایب $$\beta_1$$ تا $$\beta_p$$ نیز ضرایب مدل رگرسیونی برای متغیرهای متناظر محسوب می‌شوند. البته توجه داشته باشید که منظور از $$\beta_0$$، مقدار ثابت یا متوسط کارایی فرد بدون در نظر گرفتن هر یک از متغیرهای مستقل است.

در ادامه به بررسی مثالی خواهیم پرداخت که مربوط به ایجاد یک رابطه خطی از متغیرهای مستقل «هوش» (Intelligence) با نام iq و برچسب Outcome of IQ test، «فعالیت گروهی» (Social Support) با نام soc و برچسب Outcome of social support test و «ابتکار» (Motivation) با نام mot و برچسب Outcome of job motivation test با متغیر وابسته «کارایی شغلی» (Job Performance) با نام perf با برچسب Outcome of Job performance test است.

نکته: از آنجایی که در نرم‌افزار SPSS نتایح ظاهر شده در خروجی را براساس برچسب هر یک از متغیرها نشان می‌دهد، اسامی برچسب‌های هر یک از متغیرها را ذکر کرده‌ایم.

spss-mutiple-linear-regression-model-diagram

ایجاد و برآورد ضرایب رگرسیون در چنین مدلی، رابطه خطی بین متغیرهای مستقل و وابسته را آشکار کرده و امکان پیش‌گویی کارایی شغلی را برای افرادی که قرار است به تازگی استخدام شوند، فراهم می‌آورد. برای شروع کار ابتدا باید فایل نمونه را از اینجا دریافت کنید. این فایل با فرمت فشرده و از  نوع فایل‌های اطلاعاتی SPSS است. در تصویر زیر چند سطری از این «مجموعه داده» (Data set) دیده می‌شود.

multiple-regression-raw-data

البته مشخص است که منظور از متغیر شماره ۱ در اینجا همان کارایی شغلی است که در مدل به عنوان متغیر وابسته در نظر گرفته خواهد شد. همچنین متغیرهای ۲ و ۳ و ۴ به ترتیب مقدار هوش، ابتکار و فعالیت گروهی را برای هر کارمند مشخص می‌کنند. برای مشخص شدن خصوصیات هر یک از این متغیرها از دستور Descriptive از فهرست Analysis و گزینه Descriptive Statistics استفاده می‌کنیم. کافی است همه متغیرها را در کادر (variable(s قرار داده و دکمه Ok را بزنید.

descriptive statistics window

نکته: اجرای دستورات SPSS به کمک پنجره دستورات یا Syntax نیز میسر است. به منظور دریافت آماره‌های توصیفی با استفاده از خط فرمان، مشابه پنجره Descriptive، کافی است کد زیر را در پنجره Syntax وارد و اجرا کنید.

1DESCRIPTIVES VARIABLES=perf iq mot soc
2  /STATISTICS=MEAN STDDEV MIN MAX.

خروجی به صورت زیر در خواهد آمد. مشخص است که این اطلاعات مربوط به ۶۰ کارمند بوده و «حداقل» (Minimum)، «حداکثر» (Maximum)، «میانگین» (Mean) و «انحراف استاندارد» (Std. Deviation) امتیازات یا مقدارهای مربوط به هر متغیر در جدول قرار گرفته است.

descriptive statistics

به نظر می‌رسد که واحدهای اندازه‌گیری برای هر یک از این امتیازات متفاوت است. بنابراین هنگام اجرای رگرسیون باید اهمیت هر یک از متغیرها را براساس ضریب استاندارد شده آن (که در ادامه مورد بررسی قرار می‌گیرد) تعیین کرد.

بررسی وجود رابطه خطی بین متغیرهای مستقل و وابسته

قبل از هر تحلیل رگرسیونی، بهتر است با استفاده «نمودار پراکندگی» (Scatter Plot) و همچنین محاسبه ضریب همبستگی، وجود رابطه خطی بین هر یک از متغیرهای مستقل با متغیر وابسته مورد بررسی قرار بگیرد. به این منظور نمودارهای پراکندگی ابزار مناسبی هستند. برای رسم چنین نمواری به طریق زیر عمل می‌کنیم:

  • از فهرست Chart گزینه Legacy Dialog را انتخاب کرده و دستور Scatter/Dot را انتخاب می‌کنیم.
  • از پنجره ظاهر شده گزینه Matrix Scatter را به منظور ترسیم همزمان نمودار پراکندگی برای متغیرها به صورت ماتریسی انتخاب سپس دکمه Define را کلیک می‌کنیم.

matrix scatter plot

  • همه متغیرهای مستقل و وابسته را در کادر Variables قرار دهید. با فشردن دکمه OK، نتیجه در پنجره Output ظاهر خواهد شد.

matrix scatter plot all variable

همانطور که در نمودارها دیده می‌شود، بین هر یک از متغیرهای مستقل با متغیر وابسته یک رابطه خطی دیده می‌شود. از طرفی رابطه خطی بین متغیرهای مستقل ضعیف دیده می‌شود. برای مثال اگر رابطه بین متغیر iq و mot را در نظر بگیریم، به نظر می‌رسد نمی‌توان رابطه خطی بینشان مشاهده کرد. این حالت زمانی که به بررسی همخطی مشغول هستیم مناسب تشخیص داده می‌شود. اگر لازم است، می‌توانید از قالب دستوری برای ترسیم این نمودارها استفاده کنید. کافی است کد زیر را در پنجره Syntax وارد و اجرا کنید.

1GRAPH
2  /SCATTERPLOT(MATRIX)=perf iq mot soc
3  /MISSING=LISTWISE.

حال به بررسی مقدار ضریب همبستگی پیرسون بین متغیرهای مستقل با وابسته می‌پردازیم. کافی است که از فهرست Analysis گزینه Correlation و سپس دستور Bivariate را انتخاب کنید. در کادر Variables‌ همه متغیرها را قرار داده دکمه OK را کلیک کنید.

bivariate correlation

همانطور که مشخص است شیوه محاسبه ضریب همبستگی با توجه به فرمول «ضریب همبستگی پیرسون» (Pearson) صورت گرفته و در صورتی مقدار ضریب همبستگی بین هر دو متغیر، در آزمون دو طرفه (Two-tailed) معنی‌دار باشد، با علامت * مشخص می‌شوند. خروجی به صورت زیر قابل مشاهده است. در زیرنویس مربوط به این جدول علامت *** نشانگر معنی‌دار بودن آزمون آماری (رد فرض صفر یا بی معنی بودن ضریب همبستگی) در سطح خطای 0.01 یا سطح آزمون 0.99 است.

pearson correlation

همانطور که دیده می‌شود، رابطه بین متغیرهایی که با رنگ قرمز مشخص شده معنی دار بود ولی بین متغیرهایی که مقادیرشان در کادر آبی قرار دارد، معنی دار نیست. به این ترتیب بین متغیر وابسته (سطر اول) با همه متغیرهای دیگر رابطه خطی به خوبی برقرار است. ولی بین متغیرهای مستقل رابطه همخطی دیده نمی‌شود. پس مناسب است که به دنبال مدل خطی بین متغیرهای مستقل و وابسته بگردیم تا قادر به پیش‌گویی مقادیر جدید برای متغیر وابسته باشیم. برای اجرای و نمایش خروجی مربوط به محاسبات ضرایب همبستگی کافی است از کد زیر کمک بگیرید.

1CORRELATIONS
2  /VARIABLES=perf iq mot soc
3  /PRINT=TWOTAIL NOSIG
4  /MISSING=PAIRWISE.

اجرای رگرسیون چندگانه

به منظور تحلیل رگرسیون چندگانه در SPSS از فهرست Analysis‌ گزینه Regression و دستور Linear را اجرا می‌کنیم. متغیر perf را در کادر dependent و بقیه متغیرها را (به جز متغیر name) در کادر (Independent(s وارد می‌کنیم. برای انجام محاسبات و نمایش نتایج مربوط به «برآورد ضرایب» (Estimates) و «مدل برازش شده» (Model fit) در این مدل با فشردن دکمه statistics گزینه‌ها را مطابق با تصویر زیر انتخاب می‌کنیم.

بررسی مربوط به وجود رابطه خطی بین متغیرهای مستقل که به همخطی معروف است به کمک انتخاب گزینه Colinearity diagnostics میسر می‌شود. توجه داشته باشید از آنجایی یکی از شرط‌های مهم در برآورد پارامترهای رگرسیون خطی به روش OLS یا رگرسیونی کمترین مربعات (Ordinary Least Square) ، نرمال بودن باقی‌مانده‌ها است. در اینجا برای آزمون تصادفی و استقلال باقی‌مانده‌ها از آزمون Durbin-Watson استفاده کرده‌ایم.

multivariate linear regression dialog

نکته: نحوه ورود متغیرها در مدل را به صورت Enter انتخاب کرده‌ایم در نتیجه برآورد پارامترهای مدل، برای همه متغیرها صورت خواهد گرفت.

اگر بخواهید این دستورات را به کمک پنجره Syntax را اجرا کنید، باید در پنجره مربوطه کد زیر را وارد و اجرا کنید.

1REGRESSION
2  /MISSING LISTWISE
3  /STATISTICS COEFF OUTS R ANOVA COLLIN TOL
4  /CRITERIA=PIN(.05) POUT(.10)
5  /NOORIGIN 
6  /DEPENDENT perf
7  /METHOD=ENTER iq mot soc
8  /RESIDUALS DURBIN.

در ادامه، خروجی‌ها را به ترتیبی که در پنجره Output ظاهر خواهند شد، توضیح و تفسیر خواهیم کرد. در ابتدا جدول یا گزارشی با نام Variables Entered/Removed ظاهر شده که وظیفه معرفی متغیرهای مستقل و وابسته در مدل را به عهده دارد. از آنجایی که روش ورود متغیرها (Method) در پنجره اصلی از نوع Enter انتخاب شده بود، همه متغیرهای مستقل در مدل به منظور برآورد پارامترها، وارد شده‌اند. از آنجایی که این جدول تاثیری در تصمیمات ما نخواهد داشت، از نمایش آن در این نوشتار خودداری کرده‌ایم.

در ادامه، جدول دوم که Model Summary نام‌گذاری شده است ظاهر می‌شود. در این جدول ضریب همبستگی (R) و ضریب تعیین (R Square) و ... ظاهر می‌شود.

model summary

از آنجایی که ضریب همبستگی (R=0.809) و ضریب تعیین (R Square=0.654) و همچنین «ضریب تعیین اصلاح شده» (0.363=Adjusted R Square) محاسبه شده است، به نظر می‌رسد که مدل رگرسیونی مناسب است. هر چه این مقدارها به ۱ نزدیک‌تر باشند، مدل بیانگر رابطه بیشتری بین متغیر وابسته و مستقل است. به بیان دیگر مدل رگرسیونی توانسته درصد بیشتری از تغییرات متغیر وابسته را تحت پوشش قرار داده یا بیان کند. در انتهای جدول نیز ستون Durbin-Watson آماره مربوطه را با مقدار 2.003 نشان می‌دهد. اگر مقدار این آماره نزدیک به ۲ باشد، نشان از مستقل بودن باقی‌مانده‌ها خواهد داد. به این ترتیب باز هم شرط دیگری از شروط مربوط به رگرسیون خطی (OLS) برآورده می‌شود.

در جدول بعدی با نام ANOVA، تحلیل مربوط به واریانس برای مدل رگرسیونی صورت گرفته. با توجه به بزرگ بودن F و مقدار Sig=0.000<0.05 نتیجه می‌گیریم که مدل رگرسیونی مناسب خواهد بود. زیرا بیشتر تغییرات متغیر وابسته در مدل رگرسیونی دیده شده است. به این معنی که سهم مدل (Regression) در تغییرات کل که در سطر آخر (Total) ستون (Sum of Squares) دیده می‌شود، به نسبت سهم خطا یا باقی‌مانده‌ها (Residual) بسیار بیشتر است.

نکته: از آنجایی که مقدار احتمال خطای نوع اول (Error Type I) را 0.05 در نظر گرفته‌ایم، مقدار Sig را با 0.05 مقایسه کرده‌ایم.

anova table

در جدول Coefficients، برآورد ضرایب و خصوصیات مربوط به آزمون‌ آن‌ها دیده می‌شود. همانطور که در جدول زیر مشاهده می‌کنید، مقدار ثابت Constant در مدل با مقدار 18.131 ظاهر شده است. همچنین مشخص است که ضرایب هر یک از متغیرها مثبت بوده و با توجه به کوچکتر بودن مقدار Sig هر متغیر از مقدار 0.05 فرض صفر بودنشان رد می‌شود. باز هم این موضوع دلیلی بر مناسب بودن مدل رگرسیونی است. ستون Unstandardize Coefficients که ضرایب واقعی را نشان می‌دهد با توجه به واحد اندازه‌گیری هر یک از متغیرها ایجاد شده‌اند بنابراین نمی‌توان براساس بزرگی هر یک از ضرایب اهمیت متغیر مربوطه در مدل رگرسیونی را تشخیص داد. به این منظور از ستون Standardize Coefficients Beta استفاده می‌کنیم. هر ضریبی که دارای Beta بزرگتری باشد، در مدل رگرسیونی از اهمیت بیشتری نیز برخوردار است. به این ترتیب مشخص می‌شود که متغیر mot یا ابتکار (Beta = 0.522) بهترین متغیر برای پیش‌گویی متغیر وابسته است. به این ترتیب متغیرهای بعدی به ترتیب iq با مقدار (Beta =0.471) و سپس soc نیز با مقدار Beta=0.251 هستند.

coefficients linear regression spss

با توجه به این ضرایب می‌توانیم مدل رگرسیونی را به صورت زیر نمایش دهیم. با استفاده از این رابطه، می‌توان برای کارمندان جدید، میزان کارایی را با توجه به ویژگی‌های آزمون هوش، ابتکار و فعالیت اجتماعی برآورد کرد.

$$\large perf=18.131 + 0.265 iq+0.308 mot+ 0.164 soc$$

نکته: دو ستون آخر این جدول مربوط به بررسی همخطی است. همانطور که می‌دانید اگر مقدار Tolerance یا میزان تحمل از 0.1 یا VIF بزرگتر از ۱۰ باشد، مدل رگرسیونی از مشکل همخطی رنج می‌برد. در حالیکه در جدول خروجی SPSS هر دو این شاخص‌ها گواهی بر عدم وجود همخطی می‌دهند. بنابراین همانطور که در نمودارهای قبلی وجود همخطی دیده نشد، شاخص‌های VIF و Tolerance نیز تایید کننده این موضوع هستند.

در جدول «بررسی همخطی» (Collinearity Diagnostics) سهم هر یک از متغیر در هر بعد برای بیان پراکندگی متغیر پاسخ مشخص شده است. با توجه به این موضع می‌توان گفت که iq، اولین متغیر است که بیشترین سهم را در بیان تغییرات متغیر پاسخ دارد، این سهم حدود ۷3 درصد است. دومین متغیر می‌تواند soc با درصدی حدود 64 در تاثیرگذاری روی متغیرات متغیر وابسته باشد. در مرحله آخر نیز از متغیر mot می‌توان به عنوان موثر‌ترین متغیر نام برد. البته در اینجا منظور از سهم هر متغیر در تغییرات متغیر وابسته به صورت مجزا و در هر بُعد در نظر گرفته شده است. مقادیر ویژه ماتریس $$X^TX$$ نیز در ستون Eigenvalue مشاهده می‌شود.

collinearity

نکته: جمع هر ستون (سهم متغیر) در بیان تغییرات کل در همه ابعاد برابر با ۱ است.

در انتهای گزارش نیز جدولی به منظور بررسی توزیع باقی‌مانده‌ها درج شده. با توجه به شرایط رگرسیونی OLS، باید باقی‌مانده‌ها دارای توزیع نرمال با میانگین صفر و واریانس ۱ باشند. در جدول زیر وجود چنین شرطی مشاهده می‌شود.

residual statistics

در سطر دوم و آخر که مربوط به باقی‌مانده‌ها است، صفر بودن میانگین و برابر با ۱ بودن انحراف استاندارد یا واریانس مشاهده می‌شود. این مطلب هم دلیلی دیگر بر مناسب بودن مدل ایجاد شده خواهد بود.

نکته: از آنجایی که رابطه رگرسیونی بین ۳ متغیر مستقل با متغیر وابسته برقرار شده است، نمی‌توان ترسیمی برای نمایش این رابطه ارائه کرد زیرا احتیاج به فضای چهار بُعدی خواهیم داشت.

اگر مطلب بالا برای شما مفید بوده است، آموزش‌هایی که در ادامه آمده‌اند نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۷۵ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
۳۳ دیدگاه برای «رگرسیون چندگانه در SPSS — راهنمای کاربردی»

سلام. وقت بخیر. ممنون بابت آموزش های عالی شما استاد عزیز.
میشه در خصوص نحو انجام و ارائه اطلاعات آنالیز رگرسیون در متغیر میانجی هم توضیح بدین.

سلام در مورد انجام رگرسيون به روش هايس مطلب و فيلم اموزشي در دسترس داريد؟ متشكر مي شوم در اختيارم قرار دهيد.

واقعا عالی و روان و روشن تفسیر رگرسیون رو آموزش دادید.ممنونم.

با سلام؛

برای بررسی فیلم‌های آموزشی مختلف می‌توانید به وب‌سایت فرادرس مراجعه کنید. البته این روش هایس در این آموزش‌ها موجود نیست که احتمالا در به‌روزرسانی‌های بعدی اضافه شود. با وجود این، برخی از فیلم‌های آموزشی مرتبط با رگرسیون در ادامه آورده شده است.
آموزش درس رگرسیون ۱ – رگرسیون خطی
آموزش درس رگرسیون ۲

با تشکر از همراهی شما با مجله فرادرس

سلام ممنون از مطالب خوبتون
یک سوال داشتم ممنون میشم راهنمایی کنید.
اگر یک متغیر پیش بین(مستقل) داشته باشیم و دو متغیر ملاک(وابسته) و بخواهیم همبستگی متغیر پیش بین رو با دو متغیر دیگر بسنجیم از چه روش آماری استفاده می کنیم؟ اسمش دقیقا چی هست؟

سلام
در اینگونه موارد از رگرسیون دو متغیره یا رگرسیون bivariate استفاده میکنیم که خود نوعی رگرسیون چند متغیره یا رگرسیون multivariate است البته در صورتی که دو متغیر وابسته توزیع های متفاوتی داشته باشند از مدل های joint نیز میتوان استفاده کرد. برای سنجیدن میزان همبستگی بین دو متغیر وابسته با توجه به نوع متغیر در صورت کمی بودن میتوان از ضریب همبستگی اسپیرمن و یا در صورت رتبه ای بودن نوع متغیر از ضریب همبستگی تاو کندال استفاده کرد.

سلام چطور میتوان مقدار n را محاسبه کرد . در صورتی که این مقدار مجهول باشد.

سلام روز خوش
اگر ما یک پیش بین و مثلا دو ملاک داشته باشیم باید از چند متغیره استفاده کنیم ممکنه دراین مورد آموزش بدهید

در رگرسیون همیشه متغیر ملاک یا همون وابسته یه دونه هست

سلام روزتان بخیر , این سوال را اگر پاسخ دهید ممنون میشم ,,در رگرسیون خطی چندجانبه اگر ضریب ثابت B0 (عرض از مبدا) منفی باشد مفهوم و تحلیلش چه است؟

سلام و وقت بخیر به شما

اگر در مورد نحوه محاسبه‌ی متغیرهای تعدیلگر (با طیف لیکرت) هم توضیحاتی بفرمایید خیلی ممنون میشم.

سلام وقتتون بخیر
ببخشید من برای تحقیقم باید انحراف معیار باقیمانده های یک مدل رگرسیون چند متغیره بدست بیارم آیا اگه رگرسیون خطی را انتخاب کنم تو اس پی اس اس و بعد قسمت باقیمانده ها آناستانداردایز بزنم جوابی که میاره درسته ؟ یا باید بررسیهای نرمال بودن و غیره هم بکنم ؟میشه توضیح بدهید لطفا

با سلام و عرض خسته نباشید خدمت شما.
خواستم ببینم میزان خطای RMSE و RSE و همچنین ME رو چطوری میشه در خروجی روش رگرسیون حساب کرد؟
متشکرم

با درود و آرزوی بهروزی برای شما خواننده کوشا،

همانطور که در متن رگرسیون چند گانه در SPSS‌ مطالعه کردید، یکی از جدول‌ها به نام Model Summary به بررسی خصوصیات مدل می‌پردازد که در ستون Std. Error of the Estimate، خطای برآوردگر خطا را محاسبه می‌شود. نام دیگر این مقدار همان RMSE یا ریشه میانگین مربعات خطا (root mean square error) است.
برای مطالعه بیشتر در این زمینه می‌توانید به متن REGRESSION ANALYSIS | SPSS ANNOTATED OUTPUT مراجعه کنید. البته به زودی نسخه فارسی این مطلب، در مجله فرادرس منتشر خواهد شد.

از همیاری و همگامی شما با مجله فرادرس بسیار خرسندیم.

تندرست و پیروز و همیشه شادکام باشید.

سلام آقای دکتر.
خیلی ممنون از آموزشهای بسیار کاربردی و خوبتون
من یه سوال داشتم از خدمتتون.آیا ممکنه رابطه غیر خطی بین چند متغیر مستقل، که یک عامل وابسته رو پیش بینی می کنند رو به دست آورد؟در واقع این رابطه ای ک شما در این آموزش به دست آوردین خطی هستش ولی متغیر های من رابطه غیر خطی دارند(cubic).
آیا همچین چیزی ممکن هست؟

سلام و درود

همانطور که در مدل رگرسیونی گفته شده، متغیرهای مستقل باید استقلال از یکدیگر داشته باشند. اگر بین آن‌ها رابطه خطی (غیرخطی) وجود داشته باشد، شرایط رگرسیون خطی به روش (OLS) نقض شده است. بنابراین باید با تبدیل یا استفاده از روش PCA متغیرهای مستقل را ایجاد کرد. برای مطالعه بیشتر در این باره بهتر است مطالب هم خطی در مدل رگرسیونی — به زبان ساده یا تحلیل مولفه اساسی (PCA) در پایتون — راهنمای کاربردی را مطالعه کنید.

از این که همراه مجله فرادرس هستید، سپاسگزاریم
تندرست و پیروز و شاد باشید.

با سلام و تشکر از مطلب آموزشی خوبتون. میخواستم به یک نکته ای اشاره کنم اونم ترجمه اشتباه مفاهیم داخل چارت بود. یکیش Motivation که به معنای انگیزه هستش و اون یکی هم مفهوم Social support هست که به معنای حمایت اجتماعیه.

سلام و صد درود،
از این که همراه مجله فرادرس هستید و مطالب آن را با دقت دنبال می‌کنید، بسیار سپاسگزاریم.
نظر شما در رابطه با عنوان‌های متغیرها کاملا صحیح است ولی شاید ترجمه تحت الفظی با رده شغلی مشاوران املاک در ایران همخوانی نداشته باشد، به این جهت از واژه‌ها سازگارتر با این شغل استفاده کرده‌ایم. البته چیزی که در متن مورد توجه قرار گرفته، نحوه اجرای رگرسیون چندگانه است و متغیرها می‌توانند هر اسمی داشته باشند.

باز هم از همراهی شما با مجله فرادرس قدردانی می‌کنیم.
تندرست و پیروز و سربلند باشید.

سلام. عرض خسته نباشيد
تفاوت همبستگي تفكيكي و نيمه تفكيكي و ضريب ساختاري در رگرسيون چندگانه رو ميشه لطف كنين توضيح بدين؟
با سپاس

با سلام

برای تعیین ارتباط بین ابعاد پرسشنامه که هر کدام نمره جدا دارد و متغیرهای دموگرافیک چه نوع آزمونی مناسب است؟

با سلام. آیا برآورد تعداد مورد نیاز هر قطعه مصرفی یک تراکتور کشاورزی با توجه به دو متغیر مساحت کارکرد سالیانه دستگاه و همچنین جمع ساعت کارکرد سالیانه دستگاه با استفاده از رگرسیون چند متغیره قابل انجام است یا خیر؟ آیا برای یک مجموعه تراکتور نیز می توان آن را تعمیم داد؟

با سلام خدمت جناب آقای دکتر
در سوال امتحانی جدول رگرسیون چندگانه بر اساس ضریب بتا داده شده و نمودار تحلیل مسیر نیز رسم شده بود و از ما ضریب تعیین را می خواستند چگونه بر اساس ضریب بتا بین متغیرها می توانم ضریب تعیین چندگانه را به دست آورم؟؟؟
باتشکر

سلام و درود!
یکی از روش‌هایی که برای محاسبه ضریب تعیین وجود دارد محاسبه ضریب همبستگی بین متغیر وابسته مشاهده شده و برآورد شده است. در حقیقت باید براساس ضرایب حاصل، مقدار متغیر پاسخ (وابسته )را محاسبه کرده و همبستگی مقدار برآورد شده و مشاهده شده را بدست آورید. روش‌های دیگر براساس جدول آنالیز واریانس و محاسبات مربوط به مجموع مربعات خطا و رگرسیون صورت می گیرد.!
از این که همراه مجله فرادرس هستید سپاسگزاریم.
تندرست و پیروز باشید.

سلام و وقت بخیر
بنده جهت تعیین میزان همبستگی و درصد تاثیرات متغیرهای مستقل بر متغیر وابسته به شرح ذیل عمل کردم. لازم به ذکر است کخ تعداد متغیرهای مستقل من 8 مورد همراه با یک متغیر وابسته هستند و مجموع تعداد داه های من برای هر متغیر برابر با 1868 مورد است.
1. ابتدا نرمال بودن متغیر وابسته با آزمون کلموگروف سنجیده و عدم نرمال بودن برآورد شد
2. با استفاده از ضریب همبستگی اسپیرمن رابطه خطی بین متغیرهای مستقل و وابسته سنجیده و مورد تائید قرار گرفت.
3. با اطلاع از اهمیت شرط عدم هم خطی چندگانه برای اجرای مدل رگرسیون چندگانه در همین مرحله متغیرهای مستقلی که ضریب همبستگی آنها بالای 0.7 تائید شد حذف شدند. چون یکبار با وجود تمامی 8 متغیر مستقل مدل رگرسیون اجرا و آماره tolerence بیانگر وجود هم خطی بین متغیرها بود. لذا متغیرهای مستقل حذف شده دقیقا همان متغیرهایی بودند که آماره تحمل آنها زیر 0.40 برآورد شد
4. در مرحله بعد مدل رگرسیون چندگانه به روش گام به گام با وجود 4 متغیر مستقل که همبستگی تقریبا ضعیفی با هم داشتن و نه صفر و یک متغیر وابسته اجرا شد
5. شرط استقلال باقی مانده ها از طریق دوربین واتسون تائید نشد چون آماره مربوطه 1.03 در آمد و شرط نرمال بودن باقی مانده های مستقل هم در جدول resitual تائید نشد . اما شرط عدم همخطی چندگانه آزمون تحمل با مقادیر بالای 0.9 تائید شد.
از طرفی نکویی برازش مدل در جدول ANOVA در سطح خطای 0.01 و با اطمینان 99% نیز مورد تائید قرار گرفت و ضریب همبستگی چندگانه متغیرهای مستقل نیز بالای 0.7 در آمدند.
6. در مرحله بعد برای برقراری شرط دوربین واتسون از طریق اجرای آزمونهای Leverage و DFfit داده های پرت تاثیرگذار شناسایی و حذف شدند و مدل مجدد با سری جدید داده ها اجرا شد. اما متاسفانه همچنان مقدار آماره دوربین واتسون در زیر 1.5 و برابر با 1.031 درآمد و تائید نشد.

حال با این توضیحات سئوال من از جنابعالی به عنوان یک فرد متخصص در این حوزه این است که آیا میتوان به شروط وجود رابطه خطی معنادار بین متغیرهای مستقل و وابسته و نیز عدم همخطی چندگانه بین متغیرهای مستقل و نیز معناداری توانمندی و برازش خوب مدل برای پیش بینی اکتفا کرد و کار گزارش داد. از طرفی همانطور که گفتم تعداد مجموع نمونه های من بسیار بالا و بیش از 1800 مورد هر 5 متغیر بوده و با توجه به این نظریه که آماره های رگرسیون برای داده های بالا به نرمال بودن داده ها حساسیت زیادی ندارند و از طرفی همبستگی بین متغیرهای مستقل اگرچه صفر نیست اما زیر 0.4 است لذا نتایج مدل آیا پذیرفته شده است و میتوان گزارش کار داد؟؟
پیشاپیش سپاس از صبوری شما و نظرات مفیدتان

درود و وقت بخیر به شما همراه فرادرس،
روندی که به کار برده‌اید کاملا صحیح است و مراحل کار به خوبی اجرا شده است ولی در این بین باید به چند نکته اشاره کرد:

۱- اگر داده های مربوط به متغیر وابسته نرمال نیستند، بهتر است با تغییر متغیر (مثل لگاریتم یا جذر) آن ها را نرمال کنید تا فرضیات مدل رگرسیونی برقرار شود.
۲- محاسبه ضریب همبستگی اسپیرمن برای رابطه غیرخطی مناسب است. برای مشخص کردن رابطه خطی بین متغیرها بهتر است از ضریب همبستگی پیرسون استفاده گردد.
۳- اگر باقی‌مانده ها را ترسیم کرده و شرط تصادفی بودن و توزیع نرمال برایشان محقق نشود، شرط های مدل رگرسیونی صحت نداشته و ممکن است در پیش بینی داده‌های دیگر مدل دچار لغزش شود.

به نظر من حوزه کاری شما بسیار مهم است که چه انتظاری برای مدل رابطه بین متغیرها دارید. حدسی که برای مدل رگرسیونی برقرار می‌کنید نیز از اهمیت ویژه ای برخوردار است. ممکن است داده های پرت در ناهمگونی نتایج مدل رگرسیونی نقش داشته باشند. روش بررسی و کشف داده های پرت و ناهنجار را در نوشتارهای فراردرس جستجو کنید و به کار بگیرید.

بررسی تغییر متغیر مناسب برای متغیر وابسته نیز در کار شما به نظر چاره ساز است. ولی با وسواس و دقت این کار را انجام دهید.تابعی مانند رادیکال، توان، لگاریتم و تابع نمایی روش‌هایی برای نرمال سازی محسوب می‌شوند. از آن‌ها نیز استفاده کنید.

در انتها نیز بررسی تصادفی- مستقل و نرمال بودن باقی‌مانده ها بسیار اهمیت دارد. اگر این شرط برقرار نباشد، بهتر است از روش های دیگر رگرسیونی مانند رگرسیون ستیغی یا رگرسیون لاسو استفاده کنید. در مورد هر یک از این روش ها و نحوه پیاده سازی آن‌ها در مجله فرادرس مطالبی وجود دارد.

در صورت وجود همخطی چندگانه معمولا از روش های PCA یا تحلیل مولفه اصلی استفاده می شود که ترکیبی خطی از متغیرهای مستقل که با یکدیگر کمترین همبستگی را داشته باشند تولید شده که به آن‌ها مولفه اصلی می گویند. در نتیجه مدل رگرسیونی را برحسب این مولفه ها محاسبه می کنند. انتخاب نام برای این مولفه ها نیز به حوزه کاری شما بستگی دارد. برای مثال ممکن است حجم موتور- قدرت موتور – مصرف سوخت، تشکیل یک مولفه را بدهند که به آن خصوصیات موتوری می گوییم. به این ترتیب از خصوصیات موتوری در مدل رگرسیونی به عنوان متغیر مستقل استفاده خواهیم کرد. در مورد نحوه اجرای PCA نیز نوشتارهایی در مجله فرادرس اختصاص یافته است.

تندرست و پیروز باشید.

سلام ، بین دو متغیر مسقل شما یعنی ابتکار و کارگروهی همبستگی معنی دار وجود داشته است. چرا آنرا با رنگ آبی نشان دادید؟ در این شرایط به نظر شمانبایدیکی از متغیرهای مسقل را حذف کنید و آنرا از مدل خارج کنید؟ آیا وقتی بین متغیرهای مستقل شما همبستگی معنی داری وجود داشته باشد تفسیر نقش متغیرها دچار مشکل نمی شود؟

سلام و درود بر شما همراه گرامی!
حق با شما است. بین دو متغیر مستقل ابتکار و کارگروهی همبستگی معنی‌داری وجود دارد ولی میزان این همبستگی با توجه به آزمون فرض صورت گرفته حدود 0.36 است که برای وجود رابطه خطی خیلی ضعیف است. در حقیقت این آزمون نشان می‌دهد که صفر بودن همبستگی رد شده و به نظر می‌رسد که همبستگی ضعیف خطی (0.36) بین آن دو برقرار است. به همین دلیل می‌توانیم اینطور در نظر بگیریم که میزان همبستگی ضعیف بوده و آن‌ها را با فرض نرمال بودن، مستقل از یکدیگر بگیریم.
از توجه شما به مطالب مجله فرادرس بسیار خرسندیم.

شاد و تندرست باشید.

سلام وقت بخیر
ببخشید میشه یه توضیح درمورد ضریب تخمین (coefficient estimates) بدید که چی هست و چه کاربردی داره؟ممنون

سلام و درود به همراه مجله فرادرس!
به نظر می رسد که منظور شما برآورد ضرایب مدل رگرسیونی است. همانطو ر که در متن مربوطه مطالعه کرده‌اید، هر یک از متغیرها در رابطه خطی رگرسیونی دارای یک ضریب هستند. این ضرایب را به نام Coefficient می‌شناسیم. براساس نمونه تصادفی برای هر یک از متغیرها این ضرایب را برآورد می‌کنیم. به این ترتیب برآورد ضرایب مدل رگرسیونی یا همان Coefficient estimates حاصل می‌شود.
در برنامه‌های محاسبات آماری، این برآوردها به عنوان Coefficient شناخته می‌شوند.
از این که به مطالب مجله فرادرس توجه دارید بسیار سپاسگزاریم.
شاد و تندرست و پیروز باشید.

با سلام و تشکر از مطالب ارزشمندتان
Multiple Linear Regression در مقاله چگونه ارایه می شود. متشکر می شوم بفرمایید جدول تدوین شده شامل چه پارامترهایی باید باشد.
سپاس از شما

سلام و درود
از اینکه همراه مجله فرادرس هستید بسیار خرسندیم.
در رگرسیون خطی جندگانه، معمولا گزارش به صورت نمایش جدولی از مقادیر پارامترهای مدل (ضرایب متغیرها) به همراه آزمون آماری مربوط به صفر بودن (بی اثر) آن ها است. همچنین ضریب تعیین (شاخص عملکرد مدل) به همراه میزان تاثیر هر یک زا متغیرها گزارش می شود. معمولا یک جدول آنالیز وریانس نیز برای صحت مدل ارائه می‌شود.
پس آزمون‌ها مدل رگرسیونی که شرایط اجرای رگرسیون خطی را آزمون می‌کنند نیز در چنین گزارشی وجود خواهد داشت. (مانند نرمال بودن باقی مانده)

با تشکر از همراهی شما

اگر بین یک گروه مستقل با وابسته همبستگی پیرسون برقرار نباشه و دو گروه دیگه مستقلم همبستگی ضعیفی با وابسته نشون بدن، تکلیف چیه؟

درود بر شما خواننده گرامی؛
اینطور که از سوال شما بر می‌آید، متغیرهای مورد استفاده با یکدیگر مرتبط نیستند یا حداقل بوسیله ضرب همبستگی پیرسون مشخص می‌شود که رابطه خطی بین آن‌ها وجود ندارد. بهتر است به جای استفاده از ضریب همبستگی پیرسون از ضرایب همبستگی دیگر مثل اسپیرمن و کندال استفاده کنید. اگر متغیرهای مستقل و وابسته را نسبت به یکدیگر ترسیم هم کنید می توانید حدسی برای نوع رابطه آن ها بدست آورید. به این ترتیب ممکن است به جای رگرسیون از برازش غیرخطی استفاده شود.
از اینکه همراه مجله فرادرس هستید از شما سپاسگزاریم.
شاد و سلامت و پیروز باشید.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *