رگرسیون چندگانه در SPSS — راهنمای کاربردی
تکنیک یا روش «رگرسیون خطی چندگانه» (Multiple Linear Regression) یکی از موثر و پرکاربردترین روشهای تحلیل چند متغیره محسوب می شود. در روش گرسیون خطی چندگانه، یک رابطه خطی بین «متغیر وابسته» (Dependent Variable) با یک یا چند «متغیر مستقل» (Independent Variable) برقرار میشود. البته گاهی به متغیر وابسته، «متغیر پاسخ» (Respond Variable) و به متغیرهای مستقل، «متغیرهای پیشگو» (Predictor Variables) نیز میگویند. روش رگرسیونی را «چند گانه» (Multiple Linear Regression) میگویند اگر چندین متغیر مستقل قابلیت پیشگویی متغیر وابسته را داشته باشند و بتوان رابطه را به صورت خطی در نظر گرفت. با توجه به کاربرد گسترده این تکنیک، در این نوشتار به بررسی یک مثال و تحلیل رگرسیون چندگانه در SPSS خواهیم پرداخت.
برای اطلاع از مبانی و تاریخچه رگرسیون بهتر است مطلب رگرسیون خطی — مفهوم و محاسبات به زبان ساده و رگرسیون خطی چندگانه (Multiple Linear Regression) — به زبان ساده را بخوانید. همچنین خواندن نوشتار ضریبهای همبستگی (Correlation Coefficients) و شیوه محاسبه آنها — به زبان ساده و هم خطی در مدل رگرسیونی — به زبان ساده نیز خالی از لطف نیست.
رگرسیون چندگانه در SPSS
همانطور که در دیگر نوشتههای فرادرس خواندهاید، رگرسیون چندگانه، روشی برای توصیف مدل رابطه خطی بین متغیرهای مستقل با یک متغیر وابسته است.
در حالت کلی چنین مدلی به همراه خطای تصادفی به صورت زیر نوشته میشود.
در رابطه بالا، متغیرهای تا نقش متغیرهای مستقل را دارند. از طرفی متغیر نیز متغیر وابسته است. در انتها نیز جمله خطای مدل رگرسیونی محسوب میشود. ضرایب تا نیز ضرایب مدل رگرسیونی برای متغیرهای متناظر محسوب میشوند. البته توجه داشته باشید که منظور از ، مقدار ثابت یا متوسط کارایی فرد بدون در نظر گرفتن هر یک از متغیرهای مستقل است.
در ادامه به بررسی مثالی خواهیم پرداخت که مربوط به ایجاد یک رابطه خطی از متغیرهای مستقل «هوش» (Intelligence) با نام iq و برچسب Outcome of IQ test، «فعالیت گروهی» (Social Support) با نام soc و برچسب Outcome of social support test و «ابتکار» (Motivation) با نام mot و برچسب Outcome of job motivation test با متغیر وابسته «کارایی شغلی» (Job Performance) با نام perf با برچسب Outcome of Job performance test است.
نکته: از آنجایی که در نرمافزار SPSS نتایح ظاهر شده در خروجی را براساس برچسب هر یک از متغیرها نشان میدهد، اسامی برچسبهای هر یک از متغیرها را ذکر کردهایم.
ایجاد و برآورد ضرایب رگرسیون در چنین مدلی، رابطه خطی بین متغیرهای مستقل و وابسته را آشکار کرده و امکان پیشگویی کارایی شغلی را برای افرادی که قرار است به تازگی استخدام شوند، فراهم میآورد. برای شروع کار ابتدا باید فایل نمونه را از اینجا دریافت کنید. این فایل با فرمت فشرده و از نوع فایلهای اطلاعاتی SPSS است. در تصویر زیر چند سطری از این «مجموعه داده» (Data set) دیده میشود.
البته مشخص است که منظور از متغیر شماره ۱ در اینجا همان کارایی شغلی است که در مدل به عنوان متغیر وابسته در نظر گرفته خواهد شد. همچنین متغیرهای ۲ و ۳ و ۴ به ترتیب مقدار هوش، ابتکار و فعالیت گروهی را برای هر کارمند مشخص میکنند. برای مشخص شدن خصوصیات هر یک از این متغیرها از دستور Descriptive از فهرست Analysis و گزینه Descriptive Statistics استفاده میکنیم. کافی است همه متغیرها را در کادر (variable(s قرار داده و دکمه Ok را بزنید.
نکته: اجرای دستورات SPSS به کمک پنجره دستورات یا Syntax نیز میسر است. به منظور دریافت آمارههای توصیفی با استفاده از خط فرمان، مشابه پنجره Descriptive، کافی است کد زیر را در پنجره Syntax وارد و اجرا کنید.
1DESCRIPTIVES VARIABLES=perf iq mot soc
2 /STATISTICS=MEAN STDDEV MIN MAX.
خروجی به صورت زیر در خواهد آمد. مشخص است که این اطلاعات مربوط به ۶۰ کارمند بوده و «حداقل» (Minimum)، «حداکثر» (Maximum)، «میانگین» (Mean) و «انحراف استاندارد» (Std. Deviation) امتیازات یا مقدارهای مربوط به هر متغیر در جدول قرار گرفته است.
به نظر میرسد که واحدهای اندازهگیری برای هر یک از این امتیازات متفاوت است. بنابراین هنگام اجرای رگرسیون باید اهمیت هر یک از متغیرها را براساس ضریب استاندارد شده آن (که در ادامه مورد بررسی قرار میگیرد) تعیین کرد.
بررسی وجود رابطه خطی بین متغیرهای مستقل و وابسته
قبل از هر تحلیل رگرسیونی، بهتر است با استفاده «نمودار پراکندگی» (Scatter Plot) و همچنین محاسبه ضریب همبستگی، وجود رابطه خطی بین هر یک از متغیرهای مستقل با متغیر وابسته مورد بررسی قرار بگیرد. به این منظور نمودارهای پراکندگی ابزار مناسبی هستند. برای رسم چنین نمواری به طریق زیر عمل میکنیم:
- از فهرست Chart گزینه Legacy Dialog را انتخاب کرده و دستور Scatter/Dot را انتخاب میکنیم.
- از پنجره ظاهر شده گزینه Matrix Scatter را به منظور ترسیم همزمان نمودار پراکندگی برای متغیرها به صورت ماتریسی انتخاب سپس دکمه Define را کلیک میکنیم.
- همه متغیرهای مستقل و وابسته را در کادر Variables قرار دهید. با فشردن دکمه OK، نتیجه در پنجره Output ظاهر خواهد شد.
همانطور که در نمودارها دیده میشود، بین هر یک از متغیرهای مستقل با متغیر وابسته یک رابطه خطی دیده میشود. از طرفی رابطه خطی بین متغیرهای مستقل ضعیف دیده میشود. برای مثال اگر رابطه بین متغیر iq و mot را در نظر بگیریم، به نظر میرسد نمیتوان رابطه خطی بینشان مشاهده کرد. این حالت زمانی که به بررسی همخطی مشغول هستیم مناسب تشخیص داده میشود. اگر لازم است، میتوانید از قالب دستوری برای ترسیم این نمودارها استفاده کنید. کافی است کد زیر را در پنجره Syntax وارد و اجرا کنید.
1GRAPH
2 /SCATTERPLOT(MATRIX)=perf iq mot soc
3 /MISSING=LISTWISE.
حال به بررسی مقدار ضریب همبستگی پیرسون بین متغیرهای مستقل با وابسته میپردازیم. کافی است که از فهرست Analysis گزینه Correlation و سپس دستور Bivariate را انتخاب کنید. در کادر Variables همه متغیرها را قرار داده دکمه OK را کلیک کنید.
همانطور که مشخص است شیوه محاسبه ضریب همبستگی با توجه به فرمول «ضریب همبستگی پیرسون» (Pearson) صورت گرفته و در صورتی مقدار ضریب همبستگی بین هر دو متغیر، در آزمون دو طرفه (Two-tailed) معنیدار باشد، با علامت * مشخص میشوند. خروجی به صورت زیر قابل مشاهده است. در زیرنویس مربوط به این جدول علامت *** نشانگر معنیدار بودن آزمون آماری (رد فرض صفر یا بی معنی بودن ضریب همبستگی) در سطح خطای 0.01 یا سطح آزمون 0.99 است.
همانطور که دیده میشود، رابطه بین متغیرهایی که با رنگ قرمز مشخص شده معنی دار بود ولی بین متغیرهایی که مقادیرشان در کادر آبی قرار دارد، معنی دار نیست. به این ترتیب بین متغیر وابسته (سطر اول) با همه متغیرهای دیگر رابطه خطی به خوبی برقرار است. ولی بین متغیرهای مستقل رابطه همخطی دیده نمیشود. پس مناسب است که به دنبال مدل خطی بین متغیرهای مستقل و وابسته بگردیم تا قادر به پیشگویی مقادیر جدید برای متغیر وابسته باشیم. برای اجرای و نمایش خروجی مربوط به محاسبات ضرایب همبستگی کافی است از کد زیر کمک بگیرید.
1CORRELATIONS
2 /VARIABLES=perf iq mot soc
3 /PRINT=TWOTAIL NOSIG
4 /MISSING=PAIRWISE.
اجرای رگرسیون چندگانه
به منظور تحلیل رگرسیون چندگانه در SPSS از فهرست Analysis گزینه Regression و دستور Linear را اجرا میکنیم. متغیر perf را در کادر dependent و بقیه متغیرها را (به جز متغیر name) در کادر (Independent(s وارد میکنیم. برای انجام محاسبات و نمایش نتایج مربوط به «برآورد ضرایب» (Estimates) و «مدل برازش شده» (Model fit) در این مدل با فشردن دکمه statistics گزینهها را مطابق با تصویر زیر انتخاب میکنیم.
بررسی مربوط به وجود رابطه خطی بین متغیرهای مستقل که به همخطی معروف است به کمک انتخاب گزینه Colinearity diagnostics میسر میشود. توجه داشته باشید از آنجایی یکی از شرطهای مهم در برآورد پارامترهای رگرسیون خطی به روش OLS یا رگرسیونی کمترین مربعات (Ordinary Least Square) ، نرمال بودن باقیماندهها است. در اینجا برای آزمون تصادفی و استقلال باقیماندهها از آزمون Durbin-Watson استفاده کردهایم.
نکته: نحوه ورود متغیرها در مدل را به صورت Enter انتخاب کردهایم در نتیجه برآورد پارامترهای مدل، برای همه متغیرها صورت خواهد گرفت.
اگر بخواهید این دستورات را به کمک پنجره Syntax را اجرا کنید، باید در پنجره مربوطه کد زیر را وارد و اجرا کنید.
1REGRESSION
2 /MISSING LISTWISE
3 /STATISTICS COEFF OUTS R ANOVA COLLIN TOL
4 /CRITERIA=PIN(.05) POUT(.10)
5 /NOORIGIN
6 /DEPENDENT perf
7 /METHOD=ENTER iq mot soc
8 /RESIDUALS DURBIN.
در ادامه، خروجیها را به ترتیبی که در پنجره Output ظاهر خواهند شد، توضیح و تفسیر خواهیم کرد. در ابتدا جدول یا گزارشی با نام Variables Entered/Removed ظاهر شده که وظیفه معرفی متغیرهای مستقل و وابسته در مدل را به عهده دارد. از آنجایی که روش ورود متغیرها (Method) در پنجره اصلی از نوع Enter انتخاب شده بود، همه متغیرهای مستقل در مدل به منظور برآورد پارامترها، وارد شدهاند. از آنجایی که این جدول تاثیری در تصمیمات ما نخواهد داشت، از نمایش آن در این نوشتار خودداری کردهایم.
در ادامه، جدول دوم که Model Summary نامگذاری شده است ظاهر میشود. در این جدول ضریب همبستگی (R) و ضریب تعیین (R Square) و ... ظاهر میشود.
از آنجایی که ضریب همبستگی (R=0.809) و ضریب تعیین (R Square=0.654) و همچنین «ضریب تعیین اصلاح شده» (0.363=Adjusted R Square) محاسبه شده است، به نظر میرسد که مدل رگرسیونی مناسب است. هر چه این مقدارها به ۱ نزدیکتر باشند، مدل بیانگر رابطه بیشتری بین متغیر وابسته و مستقل است. به بیان دیگر مدل رگرسیونی توانسته درصد بیشتری از تغییرات متغیر وابسته را تحت پوشش قرار داده یا بیان کند. در انتهای جدول نیز ستون Durbin-Watson آماره مربوطه را با مقدار 2.003 نشان میدهد. اگر مقدار این آماره نزدیک به ۲ باشد، نشان از مستقل بودن باقیماندهها خواهد داد. به این ترتیب باز هم شرط دیگری از شروط مربوط به رگرسیون خطی (OLS) برآورده میشود.
در جدول بعدی با نام ANOVA، تحلیل مربوط به واریانس برای مدل رگرسیونی صورت گرفته. با توجه به بزرگ بودن F و مقدار Sig=0.000<0.05 نتیجه میگیریم که مدل رگرسیونی مناسب خواهد بود. زیرا بیشتر تغییرات متغیر وابسته در مدل رگرسیونی دیده شده است. به این معنی که سهم مدل (Regression) در تغییرات کل که در سطر آخر (Total) ستون (Sum of Squares) دیده میشود، به نسبت سهم خطا یا باقیماندهها (Residual) بسیار بیشتر است.
نکته: از آنجایی که مقدار احتمال خطای نوع اول (Error Type I) را 0.05 در نظر گرفتهایم، مقدار Sig را با 0.05 مقایسه کردهایم.
در جدول Coefficients، برآورد ضرایب و خصوصیات مربوط به آزمون آنها دیده میشود. همانطور که در جدول زیر مشاهده میکنید، مقدار ثابت Constant در مدل با مقدار 18.131 ظاهر شده است. همچنین مشخص است که ضرایب هر یک از متغیرها مثبت بوده و با توجه به کوچکتر بودن مقدار Sig هر متغیر از مقدار 0.05 فرض صفر بودنشان رد میشود. باز هم این موضوع دلیلی بر مناسب بودن مدل رگرسیونی است. ستون Unstandardize Coefficients که ضرایب واقعی را نشان میدهد با توجه به واحد اندازهگیری هر یک از متغیرها ایجاد شدهاند بنابراین نمیتوان براساس بزرگی هر یک از ضرایب اهمیت متغیر مربوطه در مدل رگرسیونی را تشخیص داد. به این منظور از ستون Standardize Coefficients Beta استفاده میکنیم. هر ضریبی که دارای Beta بزرگتری باشد، در مدل رگرسیونی از اهمیت بیشتری نیز برخوردار است. به این ترتیب مشخص میشود که متغیر mot یا ابتکار (Beta = 0.522) بهترین متغیر برای پیشگویی متغیر وابسته است. به این ترتیب متغیرهای بعدی به ترتیب iq با مقدار (Beta =0.471) و سپس soc نیز با مقدار Beta=0.251 هستند.
با توجه به این ضرایب میتوانیم مدل رگرسیونی را به صورت زیر نمایش دهیم. با استفاده از این رابطه، میتوان برای کارمندان جدید، میزان کارایی را با توجه به ویژگیهای آزمون هوش، ابتکار و فعالیت اجتماعی برآورد کرد.
نکته: دو ستون آخر این جدول مربوط به بررسی همخطی است. همانطور که میدانید اگر مقدار Tolerance یا میزان تحمل از 0.1 یا VIF بزرگتر از ۱۰ باشد، مدل رگرسیونی از مشکل همخطی رنج میبرد. در حالیکه در جدول خروجی SPSS هر دو این شاخصها گواهی بر عدم وجود همخطی میدهند. بنابراین همانطور که در نمودارهای قبلی وجود همخطی دیده نشد، شاخصهای VIF و Tolerance نیز تایید کننده این موضوع هستند.
در جدول «بررسی همخطی» (Collinearity Diagnostics) سهم هر یک از متغیر در هر بعد برای بیان پراکندگی متغیر پاسخ مشخص شده است. با توجه به این موضع میتوان گفت که iq، اولین متغیر است که بیشترین سهم را در بیان تغییرات متغیر پاسخ دارد، این سهم حدود ۷3 درصد است. دومین متغیر میتواند soc با درصدی حدود 64 در تاثیرگذاری روی متغیرات متغیر وابسته باشد. در مرحله آخر نیز از متغیر mot میتوان به عنوان موثرترین متغیر نام برد. البته در اینجا منظور از سهم هر متغیر در تغییرات متغیر وابسته به صورت مجزا و در هر بُعد در نظر گرفته شده است. مقادیر ویژه ماتریس نیز در ستون Eigenvalue مشاهده میشود.
نکته: جمع هر ستون (سهم متغیر) در بیان تغییرات کل در همه ابعاد برابر با ۱ است.
در انتهای گزارش نیز جدولی به منظور بررسی توزیع باقیماندهها درج شده. با توجه به شرایط رگرسیونی OLS، باید باقیماندهها دارای توزیع نرمال با میانگین صفر و واریانس ۱ باشند. در جدول زیر وجود چنین شرطی مشاهده میشود.
در سطر دوم و آخر که مربوط به باقیماندهها است، صفر بودن میانگین و برابر با ۱ بودن انحراف استاندارد یا واریانس مشاهده میشود. این مطلب هم دلیلی دیگر بر مناسب بودن مدل ایجاد شده خواهد بود.
نکته: از آنجایی که رابطه رگرسیونی بین ۳ متغیر مستقل با متغیر وابسته برقرار شده است، نمیتوان ترسیمی برای نمایش این رابطه ارائه کرد زیرا احتیاج به فضای چهار بُعدی خواهیم داشت.
اگر مطلب بالا برای شما مفید بوده است، آموزشهایی که در ادامه آمدهاند نیز به شما پیشنهاد میشوند:
- مجموعه آموزش های SPSS
- آموزش همبستگی و رگرسیون خطی در SPSS
- مجموعه آموزشهای نرمافزارهای آماری
- آموزش همبستگی و رگرسیون خطی در SPSS
- آموزش آنالیز واریانس با SPSS
- رگرسیون خطی — مفهوم و محاسبات به زبان ساده
- تحلیل واریانس (Anova) — مفاهیم و کاربردها
^^
سلام. وقت بخیر. ممنون بابت آموزش های عالی شما استاد عزیز.
میشه در خصوص نحو انجام و ارائه اطلاعات آنالیز رگرسیون در متغیر میانجی هم توضیح بدین.
سلام در مورد انجام رگرسيون به روش هايس مطلب و فيلم اموزشي در دسترس داريد؟ متشكر مي شوم در اختيارم قرار دهيد.
واقعا عالی و روان و روشن تفسیر رگرسیون رو آموزش دادید.ممنونم.
با سلام؛
برای بررسی فیلمهای آموزشی مختلف میتوانید به وبسایت فرادرس مراجعه کنید. البته این روش هایس در این آموزشها موجود نیست که احتمالا در بهروزرسانیهای بعدی اضافه شود. با وجود این، برخی از فیلمهای آموزشی مرتبط با رگرسیون در ادامه آورده شده است.
آموزش درس رگرسیون ۱ – رگرسیون خطی
آموزش درس رگرسیون ۲
با تشکر از همراهی شما با مجله فرادرس
سلام ممنون از مطالب خوبتون
یک سوال داشتم ممنون میشم راهنمایی کنید.
اگر یک متغیر پیش بین(مستقل) داشته باشیم و دو متغیر ملاک(وابسته) و بخواهیم همبستگی متغیر پیش بین رو با دو متغیر دیگر بسنجیم از چه روش آماری استفاده می کنیم؟ اسمش دقیقا چی هست؟
سلام
در اینگونه موارد از رگرسیون دو متغیره یا رگرسیون bivariate استفاده میکنیم که خود نوعی رگرسیون چند متغیره یا رگرسیون multivariate است البته در صورتی که دو متغیر وابسته توزیع های متفاوتی داشته باشند از مدل های joint نیز میتوان استفاده کرد. برای سنجیدن میزان همبستگی بین دو متغیر وابسته با توجه به نوع متغیر در صورت کمی بودن میتوان از ضریب همبستگی اسپیرمن و یا در صورت رتبه ای بودن نوع متغیر از ضریب همبستگی تاو کندال استفاده کرد.
سلام چطور میتوان مقدار n را محاسبه کرد . در صورتی که این مقدار مجهول باشد.
سلام روز خوش
اگر ما یک پیش بین و مثلا دو ملاک داشته باشیم باید از چند متغیره استفاده کنیم ممکنه دراین مورد آموزش بدهید
در رگرسیون همیشه متغیر ملاک یا همون وابسته یه دونه هست
سلام روزتان بخیر , این سوال را اگر پاسخ دهید ممنون میشم ,,در رگرسیون خطی چندجانبه اگر ضریب ثابت B0 (عرض از مبدا) منفی باشد مفهوم و تحلیلش چه است؟
سلام و وقت بخیر به شما
اگر در مورد نحوه محاسبهی متغیرهای تعدیلگر (با طیف لیکرت) هم توضیحاتی بفرمایید خیلی ممنون میشم.
سلام وقتتون بخیر
ببخشید من برای تحقیقم باید انحراف معیار باقیمانده های یک مدل رگرسیون چند متغیره بدست بیارم آیا اگه رگرسیون خطی را انتخاب کنم تو اس پی اس اس و بعد قسمت باقیمانده ها آناستانداردایز بزنم جوابی که میاره درسته ؟ یا باید بررسیهای نرمال بودن و غیره هم بکنم ؟میشه توضیح بدهید لطفا
با سلام و عرض خسته نباشید خدمت شما.
خواستم ببینم میزان خطای RMSE و RSE و همچنین ME رو چطوری میشه در خروجی روش رگرسیون حساب کرد؟
متشکرم
با درود و آرزوی بهروزی برای شما خواننده کوشا،
همانطور که در متن رگرسیون چند گانه در SPSS مطالعه کردید، یکی از جدولها به نام Model Summary به بررسی خصوصیات مدل میپردازد که در ستون Std. Error of the Estimate، خطای برآوردگر خطا را محاسبه میشود. نام دیگر این مقدار همان RMSE یا ریشه میانگین مربعات خطا (root mean square error) است.
برای مطالعه بیشتر در این زمینه میتوانید به متن REGRESSION ANALYSIS | SPSS ANNOTATED OUTPUT مراجعه کنید. البته به زودی نسخه فارسی این مطلب، در مجله فرادرس منتشر خواهد شد.
از همیاری و همگامی شما با مجله فرادرس بسیار خرسندیم.
تندرست و پیروز و همیشه شادکام باشید.
سلام آقای دکتر.
خیلی ممنون از آموزشهای بسیار کاربردی و خوبتون
من یه سوال داشتم از خدمتتون.آیا ممکنه رابطه غیر خطی بین چند متغیر مستقل، که یک عامل وابسته رو پیش بینی می کنند رو به دست آورد؟در واقع این رابطه ای ک شما در این آموزش به دست آوردین خطی هستش ولی متغیر های من رابطه غیر خطی دارند(cubic).
آیا همچین چیزی ممکن هست؟
سلام و درود
همانطور که در مدل رگرسیونی گفته شده، متغیرهای مستقل باید استقلال از یکدیگر داشته باشند. اگر بین آنها رابطه خطی (غیرخطی) وجود داشته باشد، شرایط رگرسیون خطی به روش (OLS) نقض شده است. بنابراین باید با تبدیل یا استفاده از روش PCA متغیرهای مستقل را ایجاد کرد. برای مطالعه بیشتر در این باره بهتر است مطالب هم خطی در مدل رگرسیونی — به زبان ساده یا تحلیل مولفه اساسی (PCA) در پایتون — راهنمای کاربردی را مطالعه کنید.
از این که همراه مجله فرادرس هستید، سپاسگزاریم
تندرست و پیروز و شاد باشید.
با سلام و تشکر از مطلب آموزشی خوبتون. میخواستم به یک نکته ای اشاره کنم اونم ترجمه اشتباه مفاهیم داخل چارت بود. یکیش Motivation که به معنای انگیزه هستش و اون یکی هم مفهوم Social support هست که به معنای حمایت اجتماعیه.
سلام و صد درود،
از این که همراه مجله فرادرس هستید و مطالب آن را با دقت دنبال میکنید، بسیار سپاسگزاریم.
نظر شما در رابطه با عنوانهای متغیرها کاملا صحیح است ولی شاید ترجمه تحت الفظی با رده شغلی مشاوران املاک در ایران همخوانی نداشته باشد، به این جهت از واژهها سازگارتر با این شغل استفاده کردهایم. البته چیزی که در متن مورد توجه قرار گرفته، نحوه اجرای رگرسیون چندگانه است و متغیرها میتوانند هر اسمی داشته باشند.
باز هم از همراهی شما با مجله فرادرس قدردانی میکنیم.
تندرست و پیروز و سربلند باشید.
سلام. عرض خسته نباشيد
تفاوت همبستگي تفكيكي و نيمه تفكيكي و ضريب ساختاري در رگرسيون چندگانه رو ميشه لطف كنين توضيح بدين؟
با سپاس
با سلام
برای تعیین ارتباط بین ابعاد پرسشنامه که هر کدام نمره جدا دارد و متغیرهای دموگرافیک چه نوع آزمونی مناسب است؟
با سلام. آیا برآورد تعداد مورد نیاز هر قطعه مصرفی یک تراکتور کشاورزی با توجه به دو متغیر مساحت کارکرد سالیانه دستگاه و همچنین جمع ساعت کارکرد سالیانه دستگاه با استفاده از رگرسیون چند متغیره قابل انجام است یا خیر؟ آیا برای یک مجموعه تراکتور نیز می توان آن را تعمیم داد؟
با سلام خدمت جناب آقای دکتر
در سوال امتحانی جدول رگرسیون چندگانه بر اساس ضریب بتا داده شده و نمودار تحلیل مسیر نیز رسم شده بود و از ما ضریب تعیین را می خواستند چگونه بر اساس ضریب بتا بین متغیرها می توانم ضریب تعیین چندگانه را به دست آورم؟؟؟
باتشکر
سلام و درود!
یکی از روشهایی که برای محاسبه ضریب تعیین وجود دارد محاسبه ضریب همبستگی بین متغیر وابسته مشاهده شده و برآورد شده است. در حقیقت باید براساس ضرایب حاصل، مقدار متغیر پاسخ (وابسته )را محاسبه کرده و همبستگی مقدار برآورد شده و مشاهده شده را بدست آورید. روشهای دیگر براساس جدول آنالیز واریانس و محاسبات مربوط به مجموع مربعات خطا و رگرسیون صورت می گیرد.!
از این که همراه مجله فرادرس هستید سپاسگزاریم.
تندرست و پیروز باشید.
سلام و وقت بخیر
بنده جهت تعیین میزان همبستگی و درصد تاثیرات متغیرهای مستقل بر متغیر وابسته به شرح ذیل عمل کردم. لازم به ذکر است کخ تعداد متغیرهای مستقل من 8 مورد همراه با یک متغیر وابسته هستند و مجموع تعداد داه های من برای هر متغیر برابر با 1868 مورد است.
1. ابتدا نرمال بودن متغیر وابسته با آزمون کلموگروف سنجیده و عدم نرمال بودن برآورد شد
2. با استفاده از ضریب همبستگی اسپیرمن رابطه خطی بین متغیرهای مستقل و وابسته سنجیده و مورد تائید قرار گرفت.
3. با اطلاع از اهمیت شرط عدم هم خطی چندگانه برای اجرای مدل رگرسیون چندگانه در همین مرحله متغیرهای مستقلی که ضریب همبستگی آنها بالای 0.7 تائید شد حذف شدند. چون یکبار با وجود تمامی 8 متغیر مستقل مدل رگرسیون اجرا و آماره tolerence بیانگر وجود هم خطی بین متغیرها بود. لذا متغیرهای مستقل حذف شده دقیقا همان متغیرهایی بودند که آماره تحمل آنها زیر 0.40 برآورد شد
4. در مرحله بعد مدل رگرسیون چندگانه به روش گام به گام با وجود 4 متغیر مستقل که همبستگی تقریبا ضعیفی با هم داشتن و نه صفر و یک متغیر وابسته اجرا شد
5. شرط استقلال باقی مانده ها از طریق دوربین واتسون تائید نشد چون آماره مربوطه 1.03 در آمد و شرط نرمال بودن باقی مانده های مستقل هم در جدول resitual تائید نشد . اما شرط عدم همخطی چندگانه آزمون تحمل با مقادیر بالای 0.9 تائید شد.
از طرفی نکویی برازش مدل در جدول ANOVA در سطح خطای 0.01 و با اطمینان 99% نیز مورد تائید قرار گرفت و ضریب همبستگی چندگانه متغیرهای مستقل نیز بالای 0.7 در آمدند.
6. در مرحله بعد برای برقراری شرط دوربین واتسون از طریق اجرای آزمونهای Leverage و DFfit داده های پرت تاثیرگذار شناسایی و حذف شدند و مدل مجدد با سری جدید داده ها اجرا شد. اما متاسفانه همچنان مقدار آماره دوربین واتسون در زیر 1.5 و برابر با 1.031 درآمد و تائید نشد.
حال با این توضیحات سئوال من از جنابعالی به عنوان یک فرد متخصص در این حوزه این است که آیا میتوان به شروط وجود رابطه خطی معنادار بین متغیرهای مستقل و وابسته و نیز عدم همخطی چندگانه بین متغیرهای مستقل و نیز معناداری توانمندی و برازش خوب مدل برای پیش بینی اکتفا کرد و کار گزارش داد. از طرفی همانطور که گفتم تعداد مجموع نمونه های من بسیار بالا و بیش از 1800 مورد هر 5 متغیر بوده و با توجه به این نظریه که آماره های رگرسیون برای داده های بالا به نرمال بودن داده ها حساسیت زیادی ندارند و از طرفی همبستگی بین متغیرهای مستقل اگرچه صفر نیست اما زیر 0.4 است لذا نتایج مدل آیا پذیرفته شده است و میتوان گزارش کار داد؟؟
پیشاپیش سپاس از صبوری شما و نظرات مفیدتان
درود و وقت بخیر به شما همراه فرادرس،
روندی که به کار بردهاید کاملا صحیح است و مراحل کار به خوبی اجرا شده است ولی در این بین باید به چند نکته اشاره کرد:
۱- اگر داده های مربوط به متغیر وابسته نرمال نیستند، بهتر است با تغییر متغیر (مثل لگاریتم یا جذر) آن ها را نرمال کنید تا فرضیات مدل رگرسیونی برقرار شود.
۲- محاسبه ضریب همبستگی اسپیرمن برای رابطه غیرخطی مناسب است. برای مشخص کردن رابطه خطی بین متغیرها بهتر است از ضریب همبستگی پیرسون استفاده گردد.
۳- اگر باقیمانده ها را ترسیم کرده و شرط تصادفی بودن و توزیع نرمال برایشان محقق نشود، شرط های مدل رگرسیونی صحت نداشته و ممکن است در پیش بینی دادههای دیگر مدل دچار لغزش شود.
به نظر من حوزه کاری شما بسیار مهم است که چه انتظاری برای مدل رابطه بین متغیرها دارید. حدسی که برای مدل رگرسیونی برقرار میکنید نیز از اهمیت ویژه ای برخوردار است. ممکن است داده های پرت در ناهمگونی نتایج مدل رگرسیونی نقش داشته باشند. روش بررسی و کشف داده های پرت و ناهنجار را در نوشتارهای فراردرس جستجو کنید و به کار بگیرید.
بررسی تغییر متغیر مناسب برای متغیر وابسته نیز در کار شما به نظر چاره ساز است. ولی با وسواس و دقت این کار را انجام دهید.تابعی مانند رادیکال، توان، لگاریتم و تابع نمایی روشهایی برای نرمال سازی محسوب میشوند. از آنها نیز استفاده کنید.
در انتها نیز بررسی تصادفی- مستقل و نرمال بودن باقیمانده ها بسیار اهمیت دارد. اگر این شرط برقرار نباشد، بهتر است از روش های دیگر رگرسیونی مانند رگرسیون ستیغی یا رگرسیون لاسو استفاده کنید. در مورد هر یک از این روش ها و نحوه پیاده سازی آنها در مجله فرادرس مطالبی وجود دارد.
در صورت وجود همخطی چندگانه معمولا از روش های PCA یا تحلیل مولفه اصلی استفاده می شود که ترکیبی خطی از متغیرهای مستقل که با یکدیگر کمترین همبستگی را داشته باشند تولید شده که به آنها مولفه اصلی می گویند. در نتیجه مدل رگرسیونی را برحسب این مولفه ها محاسبه می کنند. انتخاب نام برای این مولفه ها نیز به حوزه کاری شما بستگی دارد. برای مثال ممکن است حجم موتور- قدرت موتور – مصرف سوخت، تشکیل یک مولفه را بدهند که به آن خصوصیات موتوری می گوییم. به این ترتیب از خصوصیات موتوری در مدل رگرسیونی به عنوان متغیر مستقل استفاده خواهیم کرد. در مورد نحوه اجرای PCA نیز نوشتارهایی در مجله فرادرس اختصاص یافته است.
تندرست و پیروز باشید.
سلام ، بین دو متغیر مسقل شما یعنی ابتکار و کارگروهی همبستگی معنی دار وجود داشته است. چرا آنرا با رنگ آبی نشان دادید؟ در این شرایط به نظر شمانبایدیکی از متغیرهای مسقل را حذف کنید و آنرا از مدل خارج کنید؟ آیا وقتی بین متغیرهای مستقل شما همبستگی معنی داری وجود داشته باشد تفسیر نقش متغیرها دچار مشکل نمی شود؟
سلام و درود بر شما همراه گرامی!
حق با شما است. بین دو متغیر مستقل ابتکار و کارگروهی همبستگی معنیداری وجود دارد ولی میزان این همبستگی با توجه به آزمون فرض صورت گرفته حدود 0.36 است که برای وجود رابطه خطی خیلی ضعیف است. در حقیقت این آزمون نشان میدهد که صفر بودن همبستگی رد شده و به نظر میرسد که همبستگی ضعیف خطی (0.36) بین آن دو برقرار است. به همین دلیل میتوانیم اینطور در نظر بگیریم که میزان همبستگی ضعیف بوده و آنها را با فرض نرمال بودن، مستقل از یکدیگر بگیریم.
از توجه شما به مطالب مجله فرادرس بسیار خرسندیم.
شاد و تندرست باشید.
سلام وقت بخیر
ببخشید میشه یه توضیح درمورد ضریب تخمین (coefficient estimates) بدید که چی هست و چه کاربردی داره؟ممنون
سلام و درود به همراه مجله فرادرس!
به نظر می رسد که منظور شما برآورد ضرایب مدل رگرسیونی است. همانطو ر که در متن مربوطه مطالعه کردهاید، هر یک از متغیرها در رابطه خطی رگرسیونی دارای یک ضریب هستند. این ضرایب را به نام Coefficient میشناسیم. براساس نمونه تصادفی برای هر یک از متغیرها این ضرایب را برآورد میکنیم. به این ترتیب برآورد ضرایب مدل رگرسیونی یا همان Coefficient estimates حاصل میشود.
در برنامههای محاسبات آماری، این برآوردها به عنوان Coefficient شناخته میشوند.
از این که به مطالب مجله فرادرس توجه دارید بسیار سپاسگزاریم.
شاد و تندرست و پیروز باشید.
با سلام و تشکر از مطالب ارزشمندتان
Multiple Linear Regression در مقاله چگونه ارایه می شود. متشکر می شوم بفرمایید جدول تدوین شده شامل چه پارامترهایی باید باشد.
سپاس از شما
سلام و درود
از اینکه همراه مجله فرادرس هستید بسیار خرسندیم.
در رگرسیون خطی جندگانه، معمولا گزارش به صورت نمایش جدولی از مقادیر پارامترهای مدل (ضرایب متغیرها) به همراه آزمون آماری مربوط به صفر بودن (بی اثر) آن ها است. همچنین ضریب تعیین (شاخص عملکرد مدل) به همراه میزان تاثیر هر یک زا متغیرها گزارش می شود. معمولا یک جدول آنالیز وریانس نیز برای صحت مدل ارائه میشود.
پس آزمونها مدل رگرسیونی که شرایط اجرای رگرسیون خطی را آزمون میکنند نیز در چنین گزارشی وجود خواهد داشت. (مانند نرمال بودن باقی مانده)
با تشکر از همراهی شما
اگر بین یک گروه مستقل با وابسته همبستگی پیرسون برقرار نباشه و دو گروه دیگه مستقلم همبستگی ضعیفی با وابسته نشون بدن، تکلیف چیه؟
درود بر شما خواننده گرامی؛
اینطور که از سوال شما بر میآید، متغیرهای مورد استفاده با یکدیگر مرتبط نیستند یا حداقل بوسیله ضرب همبستگی پیرسون مشخص میشود که رابطه خطی بین آنها وجود ندارد. بهتر است به جای استفاده از ضریب همبستگی پیرسون از ضرایب همبستگی دیگر مثل اسپیرمن و کندال استفاده کنید. اگر متغیرهای مستقل و وابسته را نسبت به یکدیگر ترسیم هم کنید می توانید حدسی برای نوع رابطه آن ها بدست آورید. به این ترتیب ممکن است به جای رگرسیون از برازش غیرخطی استفاده شود.
از اینکه همراه مجله فرادرس هستید از شما سپاسگزاریم.
شاد و سلامت و پیروز باشید.