واریانس چیست؟ – به زبان ساده + مثال
امروزه دادههای متفاوت، نقش مهمی را در علوم مختلف ایفا میکنند. این دادهها ممکن است حاوی اطلاعاتی در مورد سن، میزان تحصیلات، ضریب هوشی، نمره و بسیاری از اطلاعات دیگر در مورد افراد جوامع مختلف باشد. برای جمعآوری این دادهها باید از کل جمعیت جامعه یا قسمتی از جمعیت استفاده شود. پس از جمعآوری دادهها، پژوهش روی آنها آغاز میشود. بر روی دادههای آماری جمعآوری شده عملیات مختلفی را میتوان انجام داد و کمیتهای مختلفی را محاسبه کرد. واریانس یکی از این کمیتها است که در این مطلب در مورد آن صحبت خواهیم کرد و تلاش میکنیم به پرسش واریانس چیست به زبانی ساده و گویا پاسخ دهیم.
با استفاده از واریانس میتوانیم میزان پراکندگی دادهها را در مجموعهای از دادهها اندازه بگیریم. همچنین، با استفاده از واریانس میتوانیم فاصله هر متغیر از میانگین و متغیرهای دیگر را بهدست آوریم. در بیشتر موارد واریانس با علامت نشان داده میشود. معاملهگران و تحلیلگران از این کمیت برای تعیین نوسانات و امنیت بازار استفاده میکنند. جذر واریانس، کمیت دیگری به نام انحراف معیار را به ما میدهد. در این مطلب از مجله فرادرس، ابتدا واریانس را تعریف میکنیم و با ذکر چند مثال ساده با مفهوم آن آشنا میشویم. سپس، در مورد انحراف معیار و تفاوت آن با واریانس صحبت میکنیم. در پایان، در مورد انواع واریانس و کاربردهای آن صحبت خواهیم کرد.
واریانس چیست؟
فرض کنید روبروی مدرسه ابتدایی ایستادهاید و از هر دانشآموزی که از مدرسه خارج میشود، سن او را میپرسید. از آنجا که این دانشآموزان در مدرسه ابتدایی درس میخوانند، محدوده سنی آنها بین ۶ تا ۱۱ سال خواهد بود. در ادامه، همین کار را با دانشجویان یکی از دانشگاههای شهر خود انجام میدهید.
در حالت کلی، سن دانشجویان بین ۱۸ تا ۳۰ سال قرار میگیرد. اما گاهی استثناهایی نیز وجود دارند و ممکن است سن دانشجویی کمتر از ۱۸ یا بیشتر از ۳۰ سال باشد. به اطلاعات جمعآوری شده مربوط به سن دانشآموزان ابتدایی و دانشجویان در تصویر زیر دقت کنید. کمینه و بیشینه سن دانشآموزان ابتدایی به ترتیب برابر ۶ و ۱۱ سال و بازه سنی آنها برابر ۵ سال است. اما کمینه و بیشینه سن دانشجویان در حالت کلی به ترتیب برابر ۱۸ و ۳۰ سال و بازه سنی آنها برابر ۱۲ سال است.
به دو عدد ۵ و ۱۲ سال واریانس گفته میشود. واریانس به ما میزان پراکندگی دادههای آماری جمعآوری شده را نشان میدهد. به بیان دیگر، واریانس اطلاعاتی را در مورد میزان تغییر مقدار دادههای آماری بیان میکند. هرچه مقدار واریانس بزرگتر باشد، میزان پراکندگی و تغییر دادههای آماری نیز بیشتر خواهد بود. سوال مهمی که ممکن است مطرح شود آن است که آیا میتوانیم عددی برای میزان تغییر و پراکندگی دادههای آماری خود بهدست آوریم یا خیر. پاسخ به این پرسش، بله است. با مثالی بسیار ساده نشان میدهیم که چگونه میتوان مقدار عددی برای واریانس بهدست آورد.
فرض کنید سه کودک با سنهای چهار، پنج و شش سال داریم. برای بهدست آوردن واریانس، ابتدا میانگین سنی این سه کودک را بهدست میآوریم. برای محاسبه میانگین سنی سه کودک، سن آنها را با یکدیگر جمع و عدد بهدست آمده را بر تعداد، یعنی سه، تقسیم میکنیم.
بنابراین، میانگین سنی سه کودک برابر ۵ بهدست میآید. در ادامه، سن هر کودک را به صورت جداگانه از میانگین سنی بهدست آمده کم میکنیم. سن کودک اول برابر ۴ سال و تفاضل آن از میانگین سنی برابر است با:
سن کودک دوم برابر ۵ سال و تفاضل آن از میانگین سنی برابر است با:
سن کودک سوم نیز برابر ۶ سال و تفاضل آن از میانگین سنی برابر است با:
در ادامه، هر یک از این تفاضلها را به صورت جداگانه به توان دو میرسانیم و آنها را با یکدیگر جمع میکنیم:
سپس، از حاصل جمع بهدست آمده میانگین میگیریم. از آنجا که سه کودک داریم، باید عبارت را بر سه تقسیم یا آن را در یکسوم ضرب کنیم.
حاصل عبارت فوق برابر بهدست میآید. در نتیجه، واریانس سن سه کودک برابر است.
فرمول واریانس چیست؟
در بخش قبل فهمیدیم واریانس چیست و با مثالی بسیار ساده مقدار آن را بهدست آوردیم. در این بخش با بیان فرمول ریاضی واریانس، مثالهای پیچیدهتری را با یکدیگر بررسی میکنیم. واریانس به صورت مربع حرف انگلیسی s یعنی نشان داده میشود. شاید از خود بپرسید s به چه معنا است. s، انحراف معیار نام دارد. بنابراین، خالی از لطف نیست که قبل از بیان فرمول ریاضی واریانس، کمی در مورد انحراف معیار و چگونگی محاسبه آن صحبت کنیم.
انحراف معیار چیست؟
انحراف معیار به ما نشان میدهد که چگونه دادههای آماری جمعآوری شده حول میانگین پراکنده شدهاند. همین تعریف ساده به احتمال زیاد سوال مهمی را در ذهن شما ایجاد کرده است. به هنگام تعریف واریانس گفتیم که این کمیت اطلاعاتی در مورد میزان تغییر یا پراکندگی دادههای آماری به ما میدهد. انحراف معیار و واریانس چه تفاوتی با یکدیگر دارند. در ادامه به این پرسش پاسخ خواهیم داد. انحراف معیار پراکندگی دادههای آماری را به ما نشان میدهد. فرض کنید قد تعدادی از دوستان خود را اندازه گرفتهاید. انحراف معیار به ما میگوید که مقدارهای بهدست آمده برای قد افراد چگونه حول میانگین قدی آنها پراکنده شده است.
ابتدا میانگین قدی را بهدست میآوریم. برای محاسبه میانگین قدی، مقدارهای اندازهگیری شده برای قد هر یک از افراد را با یکدیگر جمع و حاصل را بر تعداد افراد تقسیم میکنیم. در حالت کلی، میانگی تعدادی داده عددی را با استفاده از فرمول زیر بهدست میآوریم:
فرض کنید، مقدار میانگین قد برابر ۱۵۵ سانتیمتر بهدست میآید. اکنون میخواهیم بدانیم قدِ هر فرد چه مقدار از میانگین به دست آمده فاصله دارد. به قدِ نخستین فرد توجه میکنیم. او ۱۸ سانتیمتر از میانگین قدی بهدست آمده بلندتر است. فرد دوم نیز ۸ سانتیمتر از میانگین قدی کوتاهتر، فرد سوم ۱۵ سانتیمتر کوتاهتر، فرد چهارم ۸ سانتیمتر بلندتر، فرد پنجم ۹ سانتیمتر کوتاهتر و فرد ششم ۶ سانتیمتر بلندتر هستند. افرادی با قدِ بسیار کوتاه یا بسیار بلند فاصله یا انحراف بیشتری از میانگین قدی دارند. فاصله قد هر فرد از مقدار میانگین برای ما مهم نیست، بلکه میانگین انحراف قد افراد نسبت به مقدار میانگین برای ما مهم است. از اینرو، با محاسبه انحراف معیار میتوانیم مقدار میانگینِ انحراف قد افراد از مقدار میانگین را بهدست آوریم. انحراف معیار در این مثال ساده برابر ۱۲/۰۶ سانتیمتر است. انحراف معیار با استفاده از رابطه ریاضی زیر بهدست میآید:
در رابطه فوق:
- انحراف معیار است.
- n تعداد افراد یا تعداد نمونه بررسی شده است.
- مقدار هر نمونه است. به عنوان مثال، در مثال اندازهگیری قد، قد هر فرد را نشان میدهد.
- مقدار میانگین را نشان میدهد.
در نتیجه، برای بهدست آوردن انحراف میانگین، مرحلههای زیر را طی میکنیم:
- مقدار میانگین دادههای آماری را بهدست میآوریم.
- تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای تمام نمونهها انجام میدهیم.
- سپس، مربع تفاضلها را با یکدیگر جمع و بر تعداد نمونهها تقسیم میکنیم.
- در پایان، از حاصل کل، جذر میگیریم.
بنابراین، انحراف معیار را میتوانیم به صورت متوسط جذرِ مجموعِ مربعِ تفاضل هر مقدار از مقدار میانگین، تعریف کنیم. توجه به این نکته مهم است که انحراف معیار را میتوان با استفاده از دو فرمول بهدست آورد. یکی از فرمولها را کمی بالاتر نوشتیم:
فرمول دوم نیز به صورت زیر نوشته میشود:
تفاوت دو فرمول در چیست؟ در فرمول اول، مربع تفاضل از میانگین بر تعداد کل نمونهها، n، اما در فرمول دوم، مربع تفاضل از میانگین بر تعداد کل نمونهها منهای یک، n-1، تقسیم میشود. چرا؟ چرا دو رابطه برای محاسبه انحراف معیار وجود دارد؟ در حالت کلی، محاسبه انحراف معیار برای تعداد زیادی جمعیت یکی از محاسبات مهم در آمار است. به عنوان مثال، فرض کنید که میخواهید انحراف معیارِ قد تمام والیبالیستهای ایرانی را بهدست آورید. اگر قدِ تمام والیبالیستهای ایرانی را بدانیم از رابطه برای محاسبه انحراف معیار استفاده میکنیم.
اما گاهی نمیتوانید مطالعه آماری خود را روی تمام جمعیت موردنظر انجام دهید. بنابراین، تعدادی والیبالیست را به عنوان نمونه آماری انتخاب کنید. از این جامعه آماری انتخاب شده برای تخمین انحراف معیار کل جمعیت والیبالیستهای ایرانی و از رابطه برای محاسبه مقدار آن استفاده کنید.
تفاوت انحراف معیار و واریانس چیست؟
سوال مهم دیگری که ممکن است مطرح شود آن است که انحراف معیار چه تفاوتی با واریانس دارد:
- انحراف معیار مقدار فاصله اعداد را در مجموعه داده اندازه میگیرد. اما واریانس مقدار واقعی تفاوت اعداد از میانگین را در مجموعه داده میدهد.
- انحراف معیار، جذر واریانس و یکای آن مشابه یکای دادهها در مجموعه داده است. واریانس میتواند به صورت مجذور یا درصد بیان شود (در دادههای مالی این مورد مطرح میشود).
- انحراف معیار میتواند از واریانس بزرگتر باشد، زیرا جذر اعداد اعشاری کوچکتر از یک از عدد اصلی بزرگتر خواهد بود. به عنوان مثال، جذر ۰/۱ در حدود ۰/۳ است.
- اگر واریانس از یک بزرگتر باشد، انحراف معیار کوچکتر خواهد بود.
تفاوت این دو کمیت به صورت خلاصه در جدول زیر نوشته شدهاند.
انحراف معیار | واریانس | |
چیست؟ | جذر واریانس | متوسطِ مربعِ تفاضلِ هر مقدار از میانگین |
چه چیزی را نشان میدهد؟ | پراکندگی بین اعداد در مجموعه داده | میانگین تفاوت هر نقطه با میانگین دادهها |
چگونه بیان میشود؟ | با یکای مشابه دادهها | یکاهای مربع یا درصد |
چه معنایی دارد؟ | انحراف معیار کوچک (پراکندگی کوچک) به معنای نوسان کم و انحراف معیار بزرگ (پراکندگی بزرگ) به معنای نوسان بیشتر است. | تغییر میزان بازده برحسب زمان |
تا اینجا میدانیم انحراف معیار و واریانس چیست و چه تفاوتهایی با یکدیگر دارند. همچنین، با چگونگی محاسبه انحراف معیار آشنا شدیم. در تفاوت واریانس و انحراف معیار به این نکته اشاره کردیم که انحراف معیار از جذر واریانس بهدست میآید. در نتیجه، واریانس با استفاده از فرمول زیر محاسبه میشود:
از اینرو، واریانس مربع انحراف معیار و انحراف معیار، جذر واریانس است. از آنجا که واحد واریانس با دادههای مجموعه داده یکسان نیست، در بیشتر موارد از انحراف معیار برای توصیف نمونهها استفاده میشود.
محاسبه واریانس
همانطور که در مطالب بالا اشاره شد، واریانس با نشان داده میشود. با حل چند مثال ساده، واریانس مجموعه دادههای مختلف را با یکدیگر محاسبه میکنیم.
مثال اول محاسبه واریانس
واریانس دادههای زیر را حساب کنید.
پاسخ
برای محاسبه واریانس، مراحل زیر را طی میکنیم:
- مقدار میانگین دادههای آماری را بهدست میآوریم.
- تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای تمام نمونهها انجام میدهیم.
- سپس، مربع تفاضلها را با یکدیگر جمع و بر تعداد نمونهها تقسیم میکنیم.
بنابراین، در مرحله اول میانگین اعداد داده شده را بهدست میآوریم:
در مرحله دوم، تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای هر هفت عدد داده شده انجام میدهیم. این محاسبات در جدول زیر نوشته شده است.
عدد داده شده | مقدار میانگین | تفاضل عدد و مقدار میانگین | مربع تفاضل |
6 | 9 | ||
9 | 9 | ||
14 | 9 | ||
10 | 9 | ||
5 | 9 | ||
8 | 9 | ||
11 | 9 |
در ادامه، مربع تفاضل نوشته شده در ستون آخر را با یکدیگر جمع میکنیم:
در مرحله آخر، عدد بهدست آمده را بر تعداد نمونهها یعنی هفت تقسیم میکنیم:
به این نکته توجه داشته باشید که اگر اعداد داده شده بخشی از مجموعه داده بزرگتری باشند، عدد ۵۶ را بر ۶ () تقسیم میکردیم. اما برای این مثال فرض میکنیم که اعداد داده شده همان مجموعه داده مورد مطالعه است.
مثال دوم محاسبه واریانس
فرض کنید دو مجموعه داده یک و دو با اعداد زیر داریم:
واریانس کدام مجموعه داده بزرگتر است؟
پاسخ
برای پاسخ به این مثال، واریانس هر مجموعه داده را به صورت جداگانه بهدست میآوریم.
محاسبه واریانس مجموعه داده یک
جدولی را مشابه جدول مثال اول تهیه میکنیم:
عدد داده شده | مقدار میانگین | تفاضل عدد و مقدار میانگین | مربع تفاضل |
6 | 8 | ||
7 | 8 | ||
8 | 8 | ||
9 | 8 | ||
10 | 8 |
در ادامه، مربع تفاضل نوشته شده در ستون آخر را با یکدیگر جمع میکنیم:
در مرحله آخر، عدد بهدست آمده را بر تعداد نمونهها یعنی پنج تقسیم میکنیم:
محاسبه واریانس مجموعه داده یک
جدولی را مشابه جدول مثال اول تهیه میکنیم:
عدد داده شده | مقدار میانگین | تفاضل عدد و مقدار میانگین | مربع تفاضل |
4 | 8 | ||
6 | 8 | ||
8 | 8 | ||
10 | 8 | ||
12 | 8 |
در ادامه، مربع تفاضل نوشته شده در ستون آخر را با یکدیگر جمع میکنیم:
در مرحله آخر، عدد بهدست آمده را بر تعداد نمونهها یعنی پنج تقسیم میکنیم:
همانطور که مشاهده میشود واریانس مجموعه دادههای دوم از واریانس مجموع دادههای اول بزرگتر است. دادههای مجموعه داده یک و دو را به صورت نشان داده شده در تصویر زیر روی محور افقی رسم میکنیم. میانگین مجموعه داده یک و دو برابر ۸ بهدست آمد. این عدد با یکی از دادههای هر یک از مجموعهها برابر است. همانطور که در تصویر زیر دیده میشود، پراکندگی دادهها در مجموعه دو بیشتر از مجموعه یک است. از آنجا که پراکندگی دادهها در مجموعه داده دوم بیشتر از مجموعه داده اول است، انتظار داریم واریانس آن نیز بزرگتر از مجموعه داده اول باشد. انتظاری که بر طبق محاسبات انجام شده، برآورده شد.
مثال سوم محاسبه واریانس
تعداد رونویسیهای mRNA از ژن X در ۵ سلول متفاوت کبد شمارش شدهاند. به تصویر زیر توجه کنید. دایره سبزرنگ نشان داده شده در این تصویر سلول کبدی با ۳ رونویسی mRNA برای ژن X را نشان میدهد.
دایره سبزرنگ دوم در تصویر زیر نیز سلول کبدی با ۱۳ رونویسی mRNA را نشان میدهد.
همچنین، سه دایره باقیمانده سبزرنگ نیز به ترتیب ۱۹، ۲۴ و ۲۹ رونویسی mRNA را نشان میدهند. در صورت داشتن زمان و پولِ کافی میتوانستیم تعداد رونویسیهای mRNA را برای ژن X در تمام ۲۴۰ میلیارد سلولهای کبد بشماریم. در ادامه، نمودار هیستوگرام اندازهگیریهای انجام شده را رسم میکنیم.
اگر بخواهیم نمودار مناسبی را روی نمودار هیستوگرام بیندازیم، باید «میانگین جمعیت» (Population Mean)، «واریانس جمعیت» (Population Variance) یا «انحراف معیار جمعیت» (Standard Deviation Population) را محاسبه کنیم. محاسبه میانگین جمعیت راحت است. برای انجام این کار، تنها کافی است میانگین تمام ۲۴۰ میلیارد اندازهگیریهای انجام شده را بهدست آوریم.
سپس، میانگین جمعت بهدست آمده را در مرکز نمودار برازش شده به صورت نشان داده شده در تصویر زیر قرار میدهیم. به این نکته توجه داشته باشید که در اینجا میانگین را با استفاده از ۲۴۰ میلیارد اندازهگیری انجام شده بهدست آوردیم. بنابراین، عدد بهدست آمده تخمینی برای میانگین جمعیت نیست، بلکه مقدار دقیق میانگین را به ما میدهد. اما از آنجا که در بیشتر مواقع زمان و پول کافی برای اندازهگیری تمام نمونههای آماری موجود در جامعه آماری را نداریم، با استفاده از تعدادی نمونه انتخاب شده، میانگین جمعیت را به صورت تخمینی محاسبه میکنیم. در این مثال، تنها ۵ نمونه از تعداد ۲۴۰ میلیارد نمونه اندازهگیری شدهاند.
در این حالت، محاسبه میانگین جمعیت به صورت تخمینی بسیار ساده است. تنها کافی است میانگین ۵ نمونه اندازهگیری شده را بهدست آوریم.
به این نکته توجه داشته باشید که در جامعه آماری از f برای میانگین تخمینی و از نماد برای اشاره به میانگین جمعیت استفاده میشود. f و با یکدیگر تفاوت دارند. اما هر اندازه تعداد دادههای اندازهگیری شده بیشتر باشند، f و به یکدیگر نزدیکتر میشوند. در ادامه، با محاسبه واریانس و انحراف معیار میخواهیم مقدار عرض نمودار برازش شده را بهدست آوریم. به بیان دیگر، میخواهیم مقدار پراکندگی دادهها حول میانگین جمعیت را بهدست آوریم. همانطور که در بخشهای قبل اشاره کردیم، برای محاسبه واریانس جمعیت از رابطه زیر استفاده میکنیم:
توجه به این نکته مهم است که با استفاده از این فرمول واریانس جمعیت را به طور دقیق میتوانیم بهدست آوریم. در رابطه فوق، مقدار اندازهگیری شده برای هر داده است. با انجام محاسبات لازم، مقدار واریانس جمعیت، برابر ۱۰۰ بهدست میآید. با محاسبه واریانس به خود افتخار میکنیم، اما مسئلهای آزاردهنده وجود دارد. از آنجا که تفاضل مقدار هر نمونه از میانگین به توان دو رسیده است، یکای عدد بهدست آمده، ۱۰۰، برابر رونویسی mRNA به توان دو خواهد بود. به همین دلیل نمیتوانیم واریانس را روی نمودار نشان دهیم.
برای حل این مشکل میتوانیم، از واریانس جذر بگیریم و کمیتی به نام انحراف معیار را بهدست آوریم. از اینرو، مقدار انحراف معیار جمعیت برابر است. این عدد را میتوانیم روی نمودار رسم کنیم. نمودار رسم شده در تصویر زیر، مقدار میانگین، ۲۰، را همراه با به اضافه و منهای انحراف معیار، ۱۰ رونویس mRNA، نشان میدهد.
قبل از ادامه این مثال به این نکته توجه داشته باشید که ما هرگز دادههای مربوط به تمام نمونههای داخل جامعه آماری را نداریم. بنابراین، میانگین، واریانس و انحراف معیار جمعیت مورد مطالعه را نمیتوانیم به طور دقیق محاسبه کنیم. به جای محاسبه دقیق این کمیتها، با انتخاب جامعه آماری کوچکتری از جامعه آماری بزرگتر، مقدار آنها را تخمین میزنیم. برای تخمین واریانس از رابطه زیر استفاده میکنیم:
از آنجا که بیشتر مواقع با مجموعه کوچکی از جمعیت و نه کل جمعیت سروکار داریم، استفاده از این فرمول برای محاسبه واریانس رایجتر است. در این فرمول به جای تقسیم بر n، بر n-1 تقسیم میکنیم. همچنین، هر داده را از میانگین مجموعه انتخاب شده و نه از میانگین کل جمعیت کم میکنیم. مجموعه انتخاب شده از جمعیت کل از ۵ داده با میانگین ۱۷/۶ تشکیل شده است. واریانس این مجموعه به صورت زیر و به صورت تخمینی محاسبه میشود:
مقدار واریانس به صورت تقریبی برابر ۱۰۱/۸ بهدست میآید. برای بهدست آوردن مقدار تقریبی انحراف معیار، تنها کافی است که از این مقدار جذر بگیریم. در نتیجه، مقدار انحراف معیار نیز به صورت تقریبی برابر ۱۰/۱ بهدست میآید. پارامترهای جمعیت تقریبی به شکل نمودار بنفشِ نشان داده شده در تصویر زیر با مقدار میانگین ۱۷/۶ و انحراف معیار ۱۰/۱ است.
این نمودار تفاوت زیادی با نمودار رسم شده با مقدار میانگین و انحراف معیار دقیق ندارد.
هر چه تعداد دادههای انتخاب شده از مجموعه آماری کل بیشتر باشد، کمیتهای تقریبی به مقدار واقعی نزدیکتر خواهند بود. گرچه با انتخاب ۵ داده هم هنوز به مقدار واقعی نزدیک هستیم.
محاسبه واریانس در اکسل
برای محاسبه واریانس در اکسل ابتدا باید دادههای خود را در اکسل وارد کنیم. پس از وارد کردن دادهها در اکسل میتوانیم با توجه به نوع دادهها و نوع واریانسی که میخواهیم، فرمول موردنظر را در اکسل انتخاب کنیم. همانطور که میدانیم برای محاسبه واریانس گاهی از تمام دادهها استفاده میکنیم و گاهی مجموعه کوچکی از دادهها را انتخاب و واریانس را بهدست میآوریم. با استفاده از اکسل به راحتی میتوانیم هر دو کار را انجام دهیم. محاسبه واریانس توسط اکسل به اندازه دادهها مربوط میشود.
اگر مجموعه داده کوچک باشد از توابع VAR و VAR.S یا VARA استفاده میکنیم. همچنین، برای محاسبه واریانس جمعیت باید از فرمولهای VARP و VAR.P یا VARPA استفاده کنیم. بنابراین، در اکسل میتوانیم دو نوع واریانس را بهدست آوریم:
- واریانس جمعیت: در این حالت، واریانس تمام دادهها را با استفاده از VARP و VAR.P یا VARPA بهدست میآوریم.
- واریانس نمونه: در این حالت، واریانس قسمتی از دادهها را با استفاده از VAR و VAR.S یا VARA بهدست میآوریم.
از میان شش تابع فوق، دو تابع VAR و VARP منسوخ و به ترتیب با دو تابع VAR.S و VAR.P جایگزین شدهاند. توابع VAR و VAR.S تنها با متغیرهای عددی کار میکنند. اما اگر بخواهیم از رشتههای متنی یا منطقی استفاده کنیم، تابع VARA به کمک ما میآید. همچنین، برای محاسبه واریانس جمعیتِ رشتههای متنی یا منطقی باید از تابع VARPA استفاده کنیم. از واریانس برای تعیین میزان پراکندگی دادهها حول میانگین استفاده میشود. در این حالت، رشتههای متنی و نتایج منطقی به معادلهای عددی تبدیل میشوند. برای این تبدیل، رشته متنی به صورت صفر یا FALSE محاسبه خواهد شد. این کار میتواند بر نتایج کلی تاثیر داشته باشد. از اینرو، توابع باید با دقت انتخاب شوند.
این توابع در اکسل به صورت زیر استفاده میشوند:
فرمول اول:
= VAR \ ( value 1 , value 2 , ...)
فرمول دوم:
= VAR.S \ ( value 1 , value 2 , ...)
فرمول سوم:
VARP \ ( value 1 , value 2 , ...)فرمول چهارم:
VAR.P \ ( value 1 , value 2 , ...)فرمول پنجم:
VARA \ ( value 1 , value 2 , ...)فرمول ششم:
VARPA \ ( value 1 , value 2 , ...)
برای محاسبه واریانس در اکسل باید مرحلههای زیر را طی کنیم. اگر مجموعهای مشتکل از چند داده را از مجموعهای بزرگتر انتخاب کرده باشیم باید از توابع VAR و VAR.S یا VARA استفاده کنیم. در صورتی که بخواهیم واریانس تمام دادهها را بهدست آوریم از توابع VARP و VAR.P یا VARPA استفاده میکنیم. به این نکته توجه داشته باشید که دو تابع VAR و VAR.S قابل تعویض هستند. اما تابع VAR.S جدیدتر است. حالت مشابهی نیز برای دو تابع VARP و VAR.P وجود دارد. تابع VAR.P در نسخههای جدیدتر اکسل استفاده میشود.
مرحله اول
فایل اکسل حاوی دادههای خود را باز و سلولی خالی انتخاب میکنیم. سپس روی نوار فرمول به صورت نشان داده شده در تصویر زیر کلیک میکنیم.
مرحله دوم
در این مرحله، داخل نوار فرمول عبارت =VAR.S () یا = VARA () را مینویسیم. اگر بخواهیم از کل دادهها استفاده کنیم، باید داخل نوار فرمول عبارت = VAR. P () یا = VARPA () را بنویسیم.
در ادامه، باید دادهها را در فرمول قرار دهیم. برای قرار دادن دادهها در فرمول واریانس یا باید دادهها را انتخاب یا آدرس آنها را داخل فرمول بنویسیم. به عنوان مثال، در تصویر نشان داده شده در بالا، نمرههای دانشآموزان در ستون C از ردیف ۲ تا ۲۰ قرار گرفتهاند. در اینجا میتوانیم:
- از فرمول VAR.S استفاده کنیم و دادههای قرار گرفته از سلول C2 تا C10 را در آن قرار دهیم (= VAR.S ( C2:C10) ).
- از فرمول VAR.P استفاده کنیم و دادههای قرار گرفته از سلول C2 تا C20 را در آن قرار دهیم (= VAR.S ( C2:C20) ).
کوواریانس چیست؟
تا اینجا میدانیم واریانس چیست و چگونه محاسبه میشود. در این بخش در مورد کوواریانس صحبت میکنیم. در مثال سوم از بخش قبل در مورد مجموعهای از ۵ رونویس mRNA در ژن X از ۵ سلول متفاوت و دادههای آماری آنها صحبت کردیم. اکنون فرض کنید علاوه بر شمارش رونویسهای mRNA برای ژن X، رونویسهای ژن Y در ۵ سلول مشابه را نیز میشماریم.
همانطور که در تصویر فوق مشاهده میکنید نمودار ژن Y بر نمودار ژن X عمود است. چرا؟ در ادامه علت این موضوع را خواهید فهمید. میانگین دادههای ژن Y برابر ۲۴/۴ است و میانگین آنها را با نشان میدهیم. با داشتن میانگین دادهها، به راحتی میتوانیم واریانس را بهدست آوریم. این مقدار برابر ۱۶۰/۳ است. در مثال ۳ از بخش قبل و در این قسمت میانگین و واریانس دو ژن متفاوت در پنج سلول مشابه را به صورت تقریبی محاسبه کردهایم. از آنجا که این اندازهگیریها در سلولهای مشابهی انجام شده است، آنها را میتوانیم به صورت جفتی بررسی کنیم.
از آنجا که این دو اندازهگیری را میتوان به صورت جفت و با یکدیگر بررسی کرد، سوال مهمی که ممکن است مطرح شود آن است که آیا اندازهگیریهای جفتی اطلاعات بیشتری در مقایسه با اندازهگیریهای تکی به ما میدهند یا خیر؟ با استفاده از مفهومی به نام کوواریانس میتوانیم به این پرسش پاسخ دهیم. از آنجا که اندازهگیریها در سلولهای مشابهی انجام شدهاند، میتوانیم هر جفت را به صورت نقطهای تک و با ترکیب کردن مقدارهای x و y رسم کنیم. با توجه به نمودار نشان داده شده در تصویر زیر مشاهده میکنیم که سلولهایی با مقدارهای کوچک برای ژن X، مقدارهای کوچکی نیز برای ژن Y دارند.
به طور مشابه، سلولهایی با مقدارهای بزرگ برای ژن X، مقدارهای نسبتا بزرگی نیز برای ژن Y دارند. این رابطه، اندازهگیریهای کوچک برای دو ژن در برخی سلولها و اندازهگیریهای بزرگ برای دو ژن در سلولهای دیگر را میتوان به صورت خلاصه با خط رسم شده در تصویر زیر خلاصه کرد. شیب خطی که این ویژگی خاص را نشان میدهد، مثبت خواهد بود. با دنبال کردن این خط میبینیم که مقدارهای ژن X و ژن Y با یکدیگر افزایش مییابند. به بیان دیگر، اگر به شما گفته شود که رونویسهای بسیاری برای ژن X در سلولی وجود دارند، روند مشاهده شده از روی خط رسم شده پیشنهاد میکند که سلول مشابه باید تعداد زیادی رونویس برای ژن Y داشته باشد. به طور مشابه اگر مقدار ژن Y کوچک باشد، روند مشاهده شده برحسب خط رسم شده پیشنهاد میکند که سلول مشابه، تعداد کمی رونویس برای ژن X دارد.
اکنون فرض کنید دادههای بهدست آمده به شکل نشان داده شده در تصویر زیر هستند. در این حالت، مقدارهای نسبتا کم برای ژن X متناظر با مقدارهای نسبتا زیاد برای ژن Y و مقدارهای نسبتا زیاد برای ژن X متناظر با مقدارهای نسبتا کم برای ژن Y هستند. در این حالت، خط رسم شده برای دادههای اندازهگیری شده شیب منفی خواهد داشت. روند مشاهده شده در این حالت نشان میدهد که مقدارهای ژن X با کاهش مقدارهای ژن Y، افزایش مییابد.
دادههای اندازهگیری شده ممکن است به صورت نشان داده شده در تصویر زیر باشند. در این حالت هر مقدار برای ژن X با همان مقدار برای ژن Y جفت شده است. در این حالت، هیچ روندی، چه مثبت و چه منفی، مشاهده نمیشود.
به طور مشابه، دادههای اندازهگیری شده ممکن است به صورت نشان داده شده در تصویر زیر باشند. در این حالت هر مقدار برای ژن Y با همان مقدار برای ژن X جفت شده است. در این حالت نیز هیچ روندی، چه مثبت و چه منفی، مشاهده نمیشود.
ایده اصلی پنهان شده در کوواریانس آن است که این کمیت سه نوع رابطه را به ما میدهد:
- رابطهای با روند مثبت
- رابطهای با روند منفی
- رابطه و هیچ روندی وجود ندارد.
محاسبه کوواریانس
تاکنون با ایده اصلی پنهان شده در کوواریانس آشنا شدهایم. ایده دیگری نیز در کوواریانس وجود دارد، اما کمی آزاردهنده است. کوواریانس به تنهایی کمیت جالبی نیست. این بدان معنا است که هیچگاه با محاسبه این کمیت، روز خود را به راحتی به اتمام نمیرسانید. بلکه، کوواریانس پلهای محاسباتی برای کمیت جالب دیگری، مانند همبستگی، است. همچنین، برای مشخص کردن رابطه بین دو متغیر تصادفی، در اینجا دادههای ژن X و Y، از کوواریانس استفاده میکنند. این کمیت با استفاده از فرمول زیر محاسبه میشود:
در نتیجه، برای محاسبه کوواریانس، ابتدا باید میانگین دادههای ژنهای X و Y را محاسبه کنیم. مقدار متوسط دادههای ژن X را بهدست میآوریم و آن را روی نمودار افقی نشان میدهیم. سپس، خطی را موازی محور y از به صورت نشان داده شده در تصویر زیر رسم میکنیم.
در ادامه، مقدار متوسط دادههای ژن Y را بهدست میآوریم و آن را روی نمودار عمودی نشان میدهیم. سپس، خطی را موازی محور x از به صورت نشان داده شده در تصویر زیر رسم میکنیم.
در ادامه، دادههای سمت چپ و پایین نمودار را در نظر میگیریم. از آنجا که این دادهها در سمت چپ خط سبزرنگ () قرار گرفتهاند، مقدار آنها کمتر از است. همچنین، این دادهها پایین خط قرمزرنگ () قرار گرفتهاند. بنابراین، مقدار آنها کمتر از خواهد بود.
سپس، اندازهگیری انجام شده برای این دادهها را در رابطه قرار میدهیم. از آنجا که مقدار آنها از و کمتر است، حاصل عبارتهای و منفی بهدست میآیند. سپس، مقدارهای بهدست آمده برای هر تفاضل را در یکدیگر ضرب میکنیم. حاصل بهدست آمده برای اولین داده اندازهگیری به صورت زیر نوشته میشود:
در ادامه، کار مشابهی را برای دومین داده انجام میدهیم:
این دو داده در تصویر زیر نشان داده شدهاند.
سه داده باقیمانده، سمت راست نمودار قرار گرفتهاند. این سه داده بالای خط قرمزرنگ () و سمت راست خط سبزرنگ () قرار گرفتهاند. بنابراین، مقدار آنها بیشتر از و خواهد بود. مقدار این دادهها را نیز در رابطه قرار میدهیم.
عدد ۲۱۶/۴ را با عددهای ۱۸۱ و ۶۶/۲ جمع و حاصل بهدست آمده را بر تعداد اندازهگیریهای، ۵، منهای یک تقسیم میکنیم:
در نتیجه، مقدار کوواریانس برابر ۱۱۶ بهدست میآید. از آنجا که مقدار کوواریانس مثبت است، شیب بین ژن X و ژن Y نیز مثبت خواهد بود. به بیان دیگر، شیب مثبت به معنای روند مثبت بین دادههای اندازهگیری شده است. توجه به این نکته مهم است که تفسیر مقدار بهدست آمده برای کوواریانس ساده نیست و به زمینه موردمطالعه بستگی دارد. به عنوان مثال، مقدار کوواریانس به ما اطلاعاتی در مورد تندی شیب خط نمیدهد. این کمیت، تنها اطلاعاتی در مورد مثبت یا منفی بودن شیب خط به ما میدهد. همچنین، با دانستن مقدار کوواریانس نمیتوانیم بگوییم آیا دادهها به خط رسم شده نزدیک هستند یا دور. در ادامه، فرض کنید دادههای اندازهگیری شده برای ژن Y مقدارهای متفاوتی دارند. دادهها را با استفاده از مقدارهای اندازهگیری شده برای X و Y رسم میکنیم.
در این حالت مقدار میانگین بهدست آمده برای دادههای ژن X تغییر نمیکند، اما مقدار میانگین دادههای ژن Y به مقدار ۲۰/۲ تغییر میکند. همانطور که در تصویر زیر دیده میشود، دادهها به دو دسته تقسیم میشوند:
- دادههای بالای نمودار قرمزرنگ و سمت چپ نمودار سبزرنگ
- دادههای پایین نمودار قرمزرنگ و سمت راست نمودار سبزرنگ
با قرار دادن دادهها در رابطه ، مقدار کوواریانس برابر ۱۰۵/۱۵- بهدست میآید. از آنجا که کوواریانس بهدست آمده منفی است، شیب خط رسم شده منفی خواهد بود.
در ادامه، کوواریانس را برای حالتی محاسبه میکنیم که هیچ روندی وجود ندارد.
در این حالت، مقدار دادههای اندازهگیری شده برای ژن Y با یکدیگر برابر هستند. بنابراین، مقدار میانگین دادههای این ژن، ، با مقدار هر یک از دادهها برابر خواهد بود. از این رو مقدار برابر صفر است. حاصلضرب صفر در هر عددی نیز مقدار صفر را به ما میدهد. از اینرو، مقدار کوواریانس برابر صفر بهدست میآید. مقدار کوواریانس برای حالتی که دادههای اندازهگیری شده برای ژن X با یکدیگر برابر هستند نیز برابر صفر خواهد بود. به این نکته توجه داشته باشید که صفر شدن مقدار کوواریانس، تنها برای دادههای یکسان ژن X یا ژن Y برابر صفر نیست. بلکه دادههای اندازهگیری شده برای هر دو ژن ممکن است به گونهای تغییر کنند که باز هم مقدار کوواریانس برابر صفر بهدست آید.
به عنوان مثال، دادههای رسم شده در تصویر زیر به گونهای تغییر میکنند که با افزایش دادههای ژن X، مقدار دادههای ژن Y افزایش و کاهش مییابند.
همانطور که در مطالب بالا اشاره شد، تفسیر مقدار بهدست آمده برای کوواریانس سخت است. چرا؟ برای پاسخ به این پرسش، به دادههای اندازهگیری شده برای ژن X برمیگردیم. این دادهها را در امتداد محورهای x و y رسم و کوواریانس آنها را محاسبه میکنیم.
در این حالت، میانگین دادههای در راستای محورهای x و y برابر ۱۷/۶ است.
برای این حالت، رابطه را میتوانیم به شکل زیر بنویسیم:
به بیان دیگر، کوواریانس ژن X نسبت به خودش همانند واریانس تخمین زده شده برای ژن X است. پس از انجام محاسبات، مقدار کوواریانس ۱۰۲ بهدست میآید. از آنجا که مقدار بهدست آمده مثبت است، خط تعیینکننده رابطه بین ژن X و خودش، شیبی مثبت خواهد داشت. اگر مقدار دادههای ژن X را در دو ضرب کنیم، چه اتفاقی رخ میدهد؟ در این حالت، مقدار میانگین نیز دو برابر خواهد شد، اما موقعیت نسبی دادهها نسبت به یکدیگر تغییر نمیکند. بنابراین، هر داده باز هم روی خط مستقیم مشابهی با شیب مثبت میافتد. به بیان دیگر، تنها موردی که تغییر میکند مقیاسی است که دادهها با آن نمایش داده میشوند. مقدار کوواریانس پس از دو برابر کردن دادهها برابر ۴۰۸ بهدست میآید. این عدد، چهار برابر ۱۰۲ است.
بنابراین، مشاهده میکنیم که کوواریانس حتی با عدم تغییر موقعیت دادهها نسبت به یکدیگر، میتواند تغییر کند. به بیان دیگر، مقدار کوواریانس به مقیاسی که دادهها در آن قرار گرفتهاند وابسته است. از اینرو، به آسانی نمیتوانیم آن را تحلیل کنیم. همچنین، این حساسیت سبب میشود که نتوانیم اطلاعاتی در مورد فاصله داده از خط روند بهدست آوریم. اما با محاسبه کمیتی به نام همبستگی میتوانیم اطلاعاتی در مورد فاصله دادهها از خط روند با شیب مثبت یا منفی بهدست آوریم. محاسبه کوواریانس نخستین گام برای محاسبه همبستگی است.
همبستگی چیست؟
در بخش قبل با مفهوم کوواریانس آشنا شدیم. با استفاده از مقدار بهدست آمده برای کوواریانس نمیتوانیم اطلاعاتی در مورد فاصله دادهها از خط روند (خطی با شیب مثبت یا منفی) بهدست آوریم. همچنین، مقدار کوواریانس به مقیاس استفاده شده برای اندازهگیری وابسته است. در این بخش به اختصار با مفهوم دیگری به نام همبستگی آشنا میشویم. از دیدگاه آماری از همبستگی برای نشان دادن ارتباط بین دو متغیر کمی استفاده میکنیم. در حالت کلی این ارتباط را به صورت خطی در نظر میگیریم. مقدار ارتباط با کمیتی به نام ضریب همبستگی اندازه گرفته و با r نشان داده میشود. مقدار r میتواند از ۱- تا ۱- تغییر کند.
هنگامی که متغیری با افزایش متغیر دیگر، افزایش یابد، همبستگی مثبت است. اگر متغیری با افزایش متغیر دیگر، کاهش یابد، همبستگی منفی خواهد بود. اگر هیچ رابطهای بین متغیر وجود نداشته باشد، مقدار همبستگی برابر صفر است.
تحلیل واریانس چیست؟
فرض کنید به جای یک مجموعه داده، چند مجموعه داده داریم. سوال مهمی که ممکن است در این حالت مطرح شود آن است که چگونه میتوانیم دو یا بیش از دو مجموعه داده را با یکدیگر مقایسه کنیم. در مباحث مرتبط با تجزیه و تحلیل آماری، گزینههای زیادی وجود دارند. آزمون تحلیل واریانس یکی از راههایی است که به کمک آن میتوانیم به اختلافهای موجود در دادههای خود دست بیابیم. با استفاده از تحلیل واریانس در آمار میتوانیم تفاوت بین دو گروه داده را پیدا کنیم.
با استفاده از تحلیل واریانس تفاوت بین دادههای واقعی و برنامهریزی شده را تحلیل میکنیم. برای انجام این کار، دادهها در مجموعه داده به دو گروه تقسیم میشوند:
- عاملهای سیستماتیک: عاملهایی با تاثیر آماری بر مجموعه داده
- عاملهای تصادفی: عاملهایی بدون تاثیر آماری
با استفاده از تحلیل واریانس میتوانیم مقدار تاثیر متغیرهای مستقل بر متغیرهای وابسته را تعیین کنیم. این بررسی آماری را میتوانیم برای بسیاری از متغیرهای مختلف در دنیای تجارت اعمال کنیم. واریانس انواع مختلفی دارد:
- واریانس کار
- واریانس فروش
- واریانس بودجه
- واریانس مواد
- واریانس سربار متغیر
- واریانس سربار ثابت
از تحلیل واریانس در کسبوکارهای مختلف برای ارزیابی هر انحرافی در عملکرد مالی شرکت استفاده میشود. همچنین، مدیرها میتوانند بررسی بیشتری روی عملکرد عملیاتی شرکت انجام دهند و فرایندها را در محدوده بودجه شرکت نگه دارند.
بایاس و واریانس چیست؟
فرض کنید وزن و قد تعدادی موش را اندازه میگیریم و دادههای بهدست آمده را به صورت نشان داده شده در نمودار زیر رسم میکنیم. به طور معمول، موشهای سبک کوتاه و موشهای سنگینتر، بلندتر هستند. اما با توجه به دادههای رسم شده در نمودار زیر، پس از رسیدن وزن موشها به مقداری مشخص، قد آنها افزایش نمییابد. در این حالت، موشها چاقتر میشوند. با استفاده از این دادهها میخواهیم، با داشتن وزن موش، قد آن را حدس بزنیم.
به عنوان مثال، اگر وزن موشی، مقدار نشان داده شده با علامت x روی خط افقی باشد، قدِ آن مقدار نشان داده شده با علامت ستاره روی محور عمودی خواهد بود.
در حالت ایدهال، فرمول دقیق ریاضی رابطه بین قد و وزن موشهای را میدانیم. بنابراین، میتوانیم با قرار دادن مقدار داده شده برای وزن در فرمول، مقدار دقیق قد موش را بهدست آوریم. اما در اینجا این فرمول را نمیدانیم. بنابراین، با استفاده از دو روش یادگیری ماشین این رابطه را به صورت تقریبی بهدست میآوریم. ابتدا دادههای را به دو دسته تقسیم میکنیم:
- با استفاده از دسته اول به الگوریتمهای یادگیری ماشین آموزش میدهیم.
- از دسته دوم برای آزمایش الگوریتمها استفاده میکنیم.
دایرههای آبیرنگ در نمودار زیر، دستهای از دادهها هستند که برای آموزش و دایرههای سبزرنگ دستهای از دادهها هستند که برای آزمایش از آنها استفاده میشود.
نخستین الگوریتم یادگیری ماشین که از آن استفاده میکنیم «رگرسیون خطی» (Linear Regression) است. با استفاده از این الگوریتم، خطی مستقیم بر دادههای آموزشی برازش میکنیم. به این نکته توجه داشته باشید که خط مستقیم هرگز نمیتواند رابطه حقیقی بین قد و وزن موشها را مشخص کند.
به ناتوانی روش یادگیری ماشین (مانند رگرسیون خطی) در نشان دادن رابطه درست بین دادهها، بایاس گفته میشود. زیرا خط مستقیم نمیتواند همانند منحنی آبیرنگ، رابطه درست بین دادهها را نشان دهد. برازش خط مستقیم بر دادهها بایاس بسیار بزرگی دارد. در روش دیگر یادگیری ماشین میتوانیم خط خمیدهای را به صورت نشان داده در تصویر زیر بر دادههای آموزشی برازش کنیم. در این حالت، بایاس بسیار کوچک است.
با محاسبه مجموع مربعات دادههای آموزشی میتوانیم برازش خط مستقیم و خط خمیده را با یکدیگر مقایسه کنیم. به بیان دیگر، فاصله هر نقطه از نمودار برازش شده را بهدست میآوریم و پس از مربع فاصلهها، آنها را با یکدیگر جمع میکنیم. از آنجا که فاصلهها به توان دو میرسند، فاصلههای منفی توسط فاصلههای مثبت خنثی نخواهند شد. در خط خمیده، فاصله بین نقطهها و خط برابر صفر است. در مقایسه بین دو برازش، برازش خط خمیده پیروز میشود. تا اینجا به دادههای آموزشی توجه کردهایم. اما نباید از دادههای آزمایشی غافل شویم. در ادامه، مجموع مربعات دادههای آزمایشی را محاسبه میکنیم. در این حالت و در مقایسه بین دو برازش، برازش خط مستقیم پیروز خواهد شد.
بنابراین، گرچه خط خمیده به خوبی بر دادههای آموزشی برازش میشود، اما برازش آن بر دادههای آزمایشی اصلا جالب نیست. به تفاوت بین برازشهای انجام شده بر مجموعه دادهها، واریانس گفته میشود. بایاس خط خمیده کوچک، اما تغییرپذیری یا واریانس آن بزرگ است. به بیان دیگر پیشبینی عملکرد خط خمیده با مجموعه دادهها در آینده سخت خواهد بود. در مقابل، واریانس خط مستقیم تقریبا کوچک است، زیرا مجموع مربعات برای مجموعه دادههای مختلف بسیار مشابه یکدیگر هستند. بنابراین، خط مستقیم ممکن است در آینده پیشبینیهای خوبی انجام دهد، اما این پیشبینیها عالی نیستند.
نماد واریانس چیست؟
واریانس با نماد سیگما یا S نشان داده میشود. همانطور که در مطالب بالا فهمیدیم با استفاده از واریانس میتوانیم میزان پراکندگی مجموعهای از دادهها در اطراف میانگین را بهدست آوریم. هرچه مقدار واریانس بزرگتر باشد، میزان پراکندگی دادهها نیز بیشتر خواهد بود.
کاربرد واریانس چیست؟
همانطور که در مطالب بالا اشاره شد با استفاده از واریانس میتوانیم میزان پراکندگی دادهها را حول میانگین بررسی کنیم. سرمایهگذاران با استفاده از واریانس ریسک سرمایهگذاریهای مختلف و عملکرد آنها را بررسی میکنند. همچنین، از واریانس میتوانیم در امور مالی برای مقایسه عملکرد نسبی هر دارایی در سبد دارایی، برای دستیابی به بهترین تخصیص استفاده کنیم. به علاوه، با استفاده از واریانس میتوان فرضیههای ساخته شده را آزمایش کرد. یکی از کاربردهای مهم واریانس در بازار بورس است. واریانس تاریخی هر سهم تفاوت بین بازدههای سهم در زمانهای متفاوت و بازده متوسط آن را اندازه میگیرد.
بازده سهامی با واریانس کمتر به مقدار متوسط آن نزدیکتر است. همچنین، بازده سهامی با واریانس بزرگتر بسیار بیشتر یا کمتر از مقدار مورد انتظار خواهد بود. در این حالت، عدم قطعیت و ریسک از دست دادن سرمایه افزایش مییابد.
تبدیل واریانس به انحراف معیار
برای تبدیل واریانس به انحراف معیار باید از مقدار بهدست آمده برای واریانس، جذر بگیریم.
همگنی واریانس چیست؟
همگن به معنای مشابه و ناهمگن به معنای متفاوت است. بنابراین، همگنی واریانسها به معنای برابری آنها است. در آمار از دو عبارت برابر و همگنی واریانسها استفاده میشود. همانطور که در ابتدای بخش اشاره شد، واریانس با استفاده از فرمول زیر محاسبه میشود:
در تصویر زیر توزیع دو مجموعه داده با واریانس یکسان و برابر ۵ را مشاهده میکنید. این واریانسها همگن هستند.
واریانسهای ناهمگن نیز در تصویر زیر نشان داده شدهاند. در این حالت، واریانس دو مجموعه داده با یکدیگر تفاوت دارند. همانطور که در تصویر زیر مشاهده میکنید میزان پراکندگی دادهها با افزایش واریانس، افزایش مییابد.
به عنوان مثال، دو مجموعه داده شامل تست هوش از افراد مختلف با واریانسهای ۱۶۹ و ۲۸۹ را در نظر بگیرید که توزیع پراکندگی آنها روی یکدیگر رسم شدهاند. میانگین این دو مجموعه داده یکسان است. برای مشاهده تفاوت آنها خط عمودی را به صورت نشان داده شده در تصویر زیر رسم میکنیم. در نمودار با واریانس کمتر، تنها ۲/۵ درصد جمعیت موردمطالعه ضریب هوشی بالاتر از ۱۳۰ و در نمودار با واریانس بزرگتر، ۷/۵ درصد جمعیت مورد مطالعه ضریب هوشی بالاتر از ۱۳۰ دارند.
عامل تورم واریانس چیست؟
به اندازه همخطی چندگانه در تحلیل رگرسیون، «عامل تورم واریانس» (Variance Inflation Factor | VIF) گفته میشود. همخطی چندگانه هنگامی به وجود میآید که بین متغیرهای مستقل مختلف در مدل رگرسیون چندگانه، همبستگی وجود داشته باشد. با استفاده از عامل تورم واریانس میتوان میزان همخطی چندگانه را بررسی کرد. عامل تورم واریانس را میتوانیم با استفاده از فرمول زیر بهدست آوریم:
در رابطه فوق، ضریب تعیین تعدیل نشده برای رگرسیون iامین متغیر مستقل است. هرگاه برابر صفر باشد، عامل تورم واریانس برابر یک خواهد بود. از اینرو، iامین متغیر مستقل با مابقی متغیرها همبستگی نخواهد داشت. این بدان معنا است که همخطی چندگانه وجود ندارد. در حالت کلی اگر:
- VIF برابر یک باشد، هیچ همبستگی بین متغیرها وجود ندارد.
- VIF بین یک و ۵ باشد، متغیرها نسبتا به یکدیگر همبسته هستند.
- VIF بزرگتر از ۵ باشد، همبستگی بین متغیرها زیاد است.
هرچه عامل تورم واریانس بزرگتر باشد، همخطی چندگانه با احتمال بزرگتری به وجود میآید. اگر عامل تورم بزرگتر از ۱۰ باشد، همخطی چندگانه بسیار زیاد خواهد بود. بنابراین، نیاز به پژوهش بیشتری برای اصلاح دادهها است.
آزمون واریانس
در این قسمت به منظور درک بهتر مفهوم واریانس، تعدادی پرسش چهار گزینهای به صورت آزمون تهیه شده است.
نمرات درس ریاضی شش دانشآموز برابر است با:
۹۲، ۹۵، ۸۵، ۸۰، ۷۵، ۵۰
واریانس نمرات برابر کدام یک از گزینههای زیر است؟
۲۶۳/۶
۱۶/۲
۱۶۳/۶
۷۹/۵
واریانس با استفاده از رابطه ریاضی زیر بهدست میآید:
در رابطه فوق:
- واریانس است.
- n تعداد افراد یا تعداد نمونه بررسی شده است.
- مقدار هر نمونه است. به عنوان مثال، در این مسئله نمره هر دانشآموز را نشان میدهد.
- مقدار میانگین را نشان میدهد.
برای محاسبه واریانس، مراحل زیر را طی میکنیم:
- مقدار میانگین دادههای آماری را بهدست میآوریم.
- تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای تمام نمونهها انجام میدهیم.
- سپس، مربع تفاضلها را با یکدیگر جمع و بر تعداد نمونهها تقسیم میکنیم.
بنابراین، در مرحله اول میانگین نمرههای داده شده را بهدست میآوریم:
در مرحله دوم، تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای هر شش نمره داده شده انجام میدهیم. این محاسبات در جدول زیر نوشته شده است.
نمره داده شده | مقدار میانگین | تفاضل عدد و مقدار میانگین | مربع تفاضل |
92 | 79.5 | ||
95 | 79.5 | ||
85 | 79.5 | ||
80 | 79.5 | ||
75 | 79.5 | ||
50 | 79.5 |
در ادامه، مربع تفاضل نوشته شده در ستون آخر را با یکدیگر جمع میکنیم:
در مرحله آخر، عدد بهدست آمده را بر تعداد نمرات تقسیم میکنیم و واریانس را بهدست میآوریم؛
انحراف معیار دادههای زیر کدام است؟
۱-، ۲-، ۳-، ۴-، ۵-، ۶-، ۷-
۲
۴
۴-
هیچکدام
انحراف با استفاده از رابطه ریاضی زیر بهدست میآید:
برای محاسبه انحراف معیار، مراحل زیر را طی میکنیم:
- مقدار میانگین دادههای آماری را بهدست میآوریم.
- تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای تمام نمونهها انجام میدهیم.
- سپس، مربع تفاضلها را با یکدیگر جمع و بر تعداد نمونهها تقسیم میکنیم.
- در پایان، از نتیجه بهدست آمده در مرحله سوم جذر میگیریم.
بنابراین، در مرحله اول میانگین نمرههای داده شده را بهدست میآوریم:
در مرحله دوم، تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای هر هفت داده انجام میدهیم. این محاسبات در جدول زیر نوشته شده است.
داده | مقدار میانگین | تفاضل عدد و مقدار میانگین | مربع تفاضل |
1- | 4- | ||
2- | 4- | ||
3- | 4- | ||
4- | 4- | ||
5- | 4- | ||
6- | 4- | ||
7- | 4- |
در ادامه، مربع تفاضل نوشته شده در ستون آخر را با یکدیگر جمع میکنیم:
سپس، عدد بهدست آمده را بر تعداد دادهها تقسیم میکنیم و واریانس را بهدست میآوریم؛
با گرفتن جذر واریانس، انحراف معیار برابر ۲ بهدست میاید.
اگر انحراف معیار دادههای ۰، ۱، ۲، ۳، ...، ۹ برابر K باشد، انحراف معیار دادههای ۱۰، ۱۱، ۱۲، ۱۳، ...، ۱۹ برابر است با:
انحراف معیار با استفاده از رابطه ریاضی زیر بهدست میآید:
در رابطه فوق:
- انحراف معیار است.
- n تعداد افراد یا تعداد نمونه بررسی شده است.
- مقدار هر نمونه است.
- مقدار میانگین را نشان میدهد.
در نتیجه، برای بهدست آوردن انحراف میانگین، مرحلههای زیر را طی میکنیم:
- مقدار میانگین دادههای آماری را بهدست میآوریم.
- تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای تمام نمونهها انجام میدهیم.
- سپس، مربع تفاضلها را با یکدیگر جمع و بر تعداد نمونهها تقسیم میکنیم.
- در پایان، از حاصل کل، جذر میگیریم.
ابتدا انحراف معیار اعداد ۰، ۱، ۲، ۳، ...، ۹ را بهدست میاوریم. برای انجام این کار بنابراین ابتدا میانگین مقدارهای داده شده را بهدست میآوریم:
در مرحله دوم، تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای هر ۱۰ عدد داده شده انجام میدهیم و مربع تفاضل هر نمونه از میانگین تمام دادهها را با یکدیگر جمع میکنیم:
سپس، عدد بهدست آمده را بر تعداد دادهها تقسیم میکنیم و واریانس را بهدست میآوریم؛
در مرحله آخر، جذر ۸/۲۵ را بهدست میآوریم. بنابراین، انحراف معیار یا K دادههای قسمت اول برابر ۲/۸۷ است. برای مقایسه انحراف معیار دادههای ۰، ۱، ۲، ۳، ...، ۹ با دادههای ۱۰، ۱۱، ۱۲، ۱۳، ...، ۱۹ انحراف معیار اعداد ۱۰، ۱۱، ۱۲، ۱۳، ...، ۱۹ را نیز بهدست میآوریم. میانگین دادههای ۱۰، ۱۱، ۱۲، ۱۳، ...، ۱۹ برابر است با:
سپس، تفاضل مقدار هر نمونه را از میانگین محاسبه و حاصل را به توان دو میرسانیم. این کار را برای هر ۱۰ عدد داده شده انجام میدهیم و مربع تفاضل هر نمونه از میانگین تمام دادهها را با یکدیگر جمع میکنیم:
سپس، عدد بهدست آمده را بر تعداد دادهها تقسیم میکنیم و واریانس را بهدست میآوریم؛
در مرحله آخر، جذر ۸/۲۵ را بهدست میآوریم. بنابراین، انحراف معیار دادههای ۱۰، ۱۱، ۱۲، ۱۳، ...، ۱۹ نیز برابر انحراف معیار دادههای قسمت اول و برابر ۲/۸۷ است.
میانگین چهار عدد برابر ۳۷ و میانگین کوچکترین سه عدد برابر ۳۴ است. اگر محدوده این چهار عدد برابر ۱۵ باشد، میانگین بزرگترین سه عدد برابر است با:
۴۱
۳۸
۴۰
۳۹
فرض کنید چهار عدد داده شده برابر هستند با:
و و و به گونهای هستند که است. با توجه به صورت مسئله، میانگین کوچکترین سه عدد برابر ۳۴ است:
همچنین، میانگین چهار عدد برابر ۳۷ است:
با توجه به آنکه است، رابطه را میتوانیم به صورت زیر بنویسیم:
با توجه بهآنکه محدوده ۴ داده برابر ۱۵ است، کوچکترین عدد را میتوانیم به صورت زیر بهدست آوریم:
برای بهدست آوردن میانگین بزرگترین سه عدد باید مجموع را بهدست آوریم و حاصل را بر ۳ تقسیم کنیم. x_1 \frac { x _1 + x_ 2 + x_ 3 + x _ 4 } { 4 } = 37 \\ x_ 1 + x_ 2 + x_3 + x_ 4 = 148 \\ 31 + x_ 2 + x_3 + x_ 4 = 148 \\ x_ 2 + x_ 3 + x_ 4 = 148 - 31 = 117 \\ \frac { x _ 2 + x_ 3 + x_ 4 } { 3 } = \frac { 117 } { 3 } = 39 $$
فرض کنید واریانس N داده برابر A باشد، اگر تمام دادهها b برابر شوند، واریانس چه تغییری میکند؟ ( b عددی مثبت و مخالف صفر است)
اگر واریانس تعدادی داده برابر ۸۱ و ضریب تغییرات آنها برابر ۳۰٪ باشد، مقدار میانگین برابر است با:
۲۵
۳۰
۳۵
۴۰
اگر واریانس و میانگین ۱۰ عدد طبیعی اول به ترتیب برابر و باشند، حاصل برابر است با:
۴۹/۴۸
۳۹/۳۸
۱۵/۷۹
هیچکدام
واریانس و میانگین n داده به ترتیب ۴ و ۵ برابر است. اگر پنج داده ۳ و ۴ و ۵ و ۶ و ۷ به آنها اضافه شوند، مقدار واریانس برابر ۳ میشود، اما مقدار میانگین تغییر نمیکند. n برابر کدام یک از گزینههای زیر است؟
۶
۷
۵
۹
نمرات دانشآموزان کلاسی در دو درس زیستشناسی و ریاضی در جدول زیر داده شده است. عملکرد دانشآموزان در کدام درس بهتر است؟ (نمرات از ۴۰ هستند)
نمرات دانشآموزان در درس زیستشناسی | نمرات دانشآموزان در درس ریاضی |
۳۲ | ۳۰ |
۳۰ | ۳۶ |
۲۸ | ۲۶ |
۲۸ | ۳۰ |
۳۲ | ۲۸ |
۳۰ | ۳۲ |
۳۰ | ۳۰ |
۲۸ | ۳۰ |
۳۶ | ۳۲ |
۲۶ | ۲۶ |
زیستشناسی
ریاضی
عملکرد دانشآموزان در هر دو درس یکسان است.
اطلاعات داده شده برای مقایسه کافی نیست.
معلمی ورقه امتحانی ۸ دانشآموز خود را صحیح کرد و واریانس و میانگین نمرات آنها را پس از محاسبه به ترتیب برابر ۷ و ۴ بهدست آورد. پس از تصحیح دو ورقه دیگر، نمرات دو دانشآموز برابر ۵ و ۷ بهدست آمد. معلم بار دیگر میانگین و واریانس را محاسبه کرد. مقدار میانگین تغییری نکرد. مقدار واریانس پس از اضافه شدن دو نمره دیگر به هشت نمره اول برابر است با:
۶/۴
۳/۲
۵/۴
۴/۴
جمعبندی
در این مطلب از مجله فرادرس فهمیدیم واریانس چیست. واریانس به ما میزان پراکندگی دادههای آماری جمعآوری شده را نشان میدهد. به بیان دیگر، واریانس اطلاعاتی در مورد میزان تغییر مقدار دادههای آماری به ما میدهد. هرچه مقدار واریانس بزرگتر باشد، میزان پراکندگی و تغییر دادههای آماری نیز بیشتر خواهد بود.
با زبان ساده و شیوا چه خوب و عالی توضیح دادید
ممنون از شما
سپاسگزارم مفید بود
خیلی کامل و جامع توضیح داده شده و به خوبی مفهوم را رسانده
خیلی مختصر و مفید بود
بسیار مفید بود
سپاسگزارم
عالی بود. خیلی ممنون
ممنون بسیار عالییییی
خیلی ممنون
واریانس مقیاسی است که نشان میدهد که دادهها حول میانگین چگونه پخش شدهاند هرچه این عدد کوچکتر باشد نشاندهنده ی پراکندگی کمتر و برعکس است
بسیار عالی بود. سپاس
سلام. متوجه نشدم چطور نتیجه گرفتین که وقتی انحراف معیار شده 1 (در حالتی که معلم با دانش آموزانش تمرین کرده)، از 30 درصد باقیمانده «احتمال بسیار زیاد» نفرات کمتری نمره زیر 10 گرفتن؟
توضیحاتتون بسیار عالی و قابل فهم بود
ممنون
فوق العاده بود ، سپاسگزارم
چرا زمانی که سگ ها 5 تا هستند بر 4 تقسیم می شوند؟
وقتی N داده وجود داشته باشد، هنگام محاسبه واریانس مجموع مربعات اختلاف از میانگینها بر N تقسیم میشوند. اما هنگامی که قرار باشد این محاسبات بر روی نمونهای از یک جامعه آماری انجام یابد مجموع مربعات اختلاف از میانگینها بر N-1 تقسیم میشود. در این حالت باقی محاسبات از جمله روش محاسبه میانگین به همان شکل میماند.
سلام و ممنون از ارائه بسیار عالی مفاهیم اماری به زبان ساده . یه سوال :
میانگین یک مجموعه داده از نمرات ارزیابی عملکرد کارکنان که سقف آن 100 می باشد رو با اکسل محاسبه کردم شد : 96.34
واریانس : 32.72572
انحرف معیار : 5.72
به نظر شما کجای محاسباتم اشتباه بوده که مجموع انحراف معیار و میانگین از سقف امتیاز 100 بالاتر می شه
عالیییییییییی
بسیارخوب توضیح دادین!
فنرای مغزم زد بیرون
😅😅😅😅😅😅😅😅😅😅😅😅😅😆😅
بسیار عالی و در خور فهم بود متشکرم
سلام
عالی عالی بخاطر توضیح با شکل و درصد تفهیم بالا
لطفا منابع را ذکر کنید / با تشکر
با سلام؛
منابع تمامی مطالب مجله فرادرس، در صورتی که ترجمه باشند، در انتهای مطلب و قبل از بخش نظرات، ذکر شدهاند.
با تشکر از همراهی شما با مجله فرادرس
سلام
در داده های زیست شناسی در محاسبات آماری، نتایج بصورت میانگین + – انحراف معیار (Data were presented as the mean ± standard deviation) بیان میشود. علت این کار چیست؟
سلام چرا واریانس قابل جمعه اما انحراف استاندارد نه؟
سلام و خسته نباشید این دو سوم در اولین مثال شما از کجا اومده چطور با واریانس 2.5 تشخیص دادین که دو سوم یا 68 درصد نمرات در بازه 2.5+-12.5 قرار داره
سلام دوست عزیز،
اگر داده ها دارای توزیع نرمال باشند، میتوان براساس فاصله مقادیر از میانگین بر حسب انحراف معیار، درصد احتمال رخداد آنها را مشخص کرد. برای مثال حدود ۶۸ درصد دادهها در چنین توزیعی در بین یک انحراف معیار فاصله از میانگین قرار گرفتهاند. به تصویر مربوط به متن شناسایی داده پرت در SPSS — راهنمای کاربردی که برای توزیع نرمال کشیده شده و درصدهای مورد نظر را نشان میدهد، دقت کنید. همانطور که می بینید تقریبا دو سوم (۶۷ یا ۶۸ درصد) دادهها در بازه یک انحراف معیار از میانگین دیده میشوند. این درصد بستگی به مقدار انحراف استاندارد یا میانگین ندارد، بلکه از خصوصیات اصلی توزیع نرمال محسوب میشود.
از این که به مطالب مجله فرادرس علاقمند هستید و مشکلات و مسائلتان را با ما در میان میگذارید بسیار خرسندیم.
تندرست و پایدار باشید.
سلام وقت بخير
توضيحات خوب بود. بسيار ممنونم .
اما لطفا موزيك نذاريد روي ويديو هنگام تدريس استاد.
سلام خیلی مفید بود چون مفهوم را رساند من همیشه مفهوم اینها رو نمیدونستم و دلیل این فرمولها را خیلی خوب توضیح دادین
بسیار بسیار عالی.
ممنون از شما.
بسیار مفید و ساده و روان
سلام و خسته نباشید
من سوالی داشتم، در کتاب ریاضی ۲ دبیرستانی فرمولی نوشته که گفته اگه داده ها دنباله حسابی تشکیل بدن،از اون فرمول استفاده می کنیم که با توجه به شرایط محدود تایپ نمی توانم تایپ کنم
میشه بگید از کجا آمده است؟
بسیار عالی ممنون از شما
امیدوارم همیشه ودر هرزمان موفق باشید
واقعا دمت گرم …احسنت
سلام خیلی عالی و روان تفاوت nوn_1روهم همینطور مثل مثال توشیح بدید ممنون میشم
سلام و درود،
برای آشنایی بیشتر با مفاهیم پراکندگی و اندازه آنها، پیشنهاد میکنیم متن اندازههای پراکندگی و درجه آزادی را مطالعه کنید.
از همراهی شما با مجله فرادرس، سپاسگزاریم.
تندرست و پیروز باشید.
تمام استاد های فرادرس فوق العاده هستند
بسیار تشکر از اموزش خوبتون
توضیحات بسیار عالی . خدا خیرتون بده فرادرسی ها . همیشه برای تخفیف های زیاد و هزینه ارزان دوره ها و مطالب خوبتون دوستتون داشتم . موفق باشید
عاااااااالی ، مرسی از تیم فرادرس، حق بزرگی بر جامعه ی علمی و دانشگاهی کشور دارن، خدا خیرتون بده
عالی
بسیار متشکرم
بسیار شیوا و قابل فهم توضیح دادید
???
فوق العاده مفهوم رو رسوندید سپاسگزارم
عالی بود. مهندس نرم افزار در سیلیکون ولی هستم و نیاز داشتم مفهوم standard variation را مرور کنم. که به سایت شما رسیدم و واقعا لذت بردم. عالی عالی!
سلام خسته نباشید استادم به من یه تمرین داده که در مورد خطا یا انحراف drift توضیحاتی بدم شما اطلاعاتی دارین؟
دلیل منفی یک کردن واریانس نمونه را یک تو ضیح مختصر میدین لطفا n-1
مفید بود؛ ممنون
عالی بود ساده و روان ممنونم
خیلی ممنون عالی بود
ممنون ، بسیار عالی ،ساده و کاربردی
سلام توضیحات خوبن ولی آهنگ پس زمینه ویدیو تمرکز آدم رو از بین میبره ، مخصوصا توی این ویدیو که صدای آهنگ بلند هم هست .
گویا و قابل فهم
عالی بود ممنون
من با مطالعه معلومات شما واقها لذت بردم چون به زبان ساده وسلیس مطلب را بیان کردید وهم چنان منطقی وبا مثال زیبا از معلومات شما سپاسمندیم
سلام : مممنون واقعا مطالبتون مفید و عالی بود از زحمات جناب عالی نهایت تشکر را دارم.
با سلام . بعد از این همه سال ، تازه مفهوم و کاربرد انحراف معیار یا انحراف استاندارد را فهمیدم . واقعا که سطح تدریس در دانشگاه های کشور زیر صفر است و همه اساتید صرفا بدنبال رفع تکلیف و انتقال لغات و کلمات هستند و نه مفاهیم و کاربردها .
یکی دیگه از چیزهایی که فهمیدم این بود که چرا برای تعیین محدوده داده های پرت در یک توزیع نرمال ، از فرمول میانگین مثبت و منفی 3 برابر انحراف استاندارد استفاده میشه .
سپاس از شما .
سلام، میشه معنی تقریب رو هم توضیح بدین. و اینکه آیا اسمی برای میزان فاصله ی کوچکترین و بزرگترین داده با میانگین وجود داره؟
توضیح شما بسیار مفید بود نسبت به بعضی فیلم های آموزشی
عالی . ممنون
امیدوارم همیشه اینقدر پر انرژی و خوب باشید
با تشکر از فرادرس و توضیحات واضح و شفاف
دست شما درد نکنه واقعا مفید بود.
باسللام عالی بود با زبان ساده وقابل فهم توضیح داده بودید همیشه موفق باشید
خیلی سطح بالا توضیح دادین من در حد یه دانش آموز راهنمایی میخواستم اصلا هیچ نفهمیدم??
باسلام. اگر برای یک سری داده، میانگین نطری و میانگین تجربی را داشته باشیم، چگونه انحراف معیار را محاسبه کنیم؟
Nice
بسیار بسیار ممنونم از بیان ساده شما
سلام ممنون خیلی ساده و قابل فهم بود
انصافا ساعت 3 صبح نشستم دارم تمرین آمار حل میکنم هرچی به جزوه استاد نگاه میکنم چیزی نمیفهمم :\ این مطلب خیلی کمک کرد یکی از مشکلاتم حل شد:D خلاصه مرسی که هستین???
انحراف معیار خطا چیه؟
با سلام و تشکر بابت توجه شما به مطالب فرادرس
منظور از انحراف معیار خطا، که با SE نشان داده می شود، محاسبه انحراف معیار میانگین نمونه تصادفی است. هنگام برآورد میانگین جامعه آماری بوسیله نمونه تصادفی، دقت یا خطای برآورد با واریانس یا انحراف معیار میانگین نمونهای بدست میآید. به این ترتیب اگر چندین بار نمونه گیری تکرار شود و میانگین جامعه برآورد شود، انحراف معیار میانگین های حاصل شده، ملاکی برای برآورد انحراف معیارخطا است. برای محاسبه آن کافی است که انحراف استاندارد یک نمونه تصادفی را بر جذر تعداد آن نمونه تقسیم کنیم. (SE=stdv/(sqrt(n
از اینکه با فرادرس همراه هستید متشکریم
خيلي خوب و عالي مفاهيم توضيح داده شده بود بسيار ممنون
عالی بود
من بعنوان عضو این جامعه ایرانی از زحمات بی نظیر شما کمال تشکر را دارم
کار شما اجر اخروی دارد.
من بعد از چندین و چند سال تازه فهوم اینا رو درک کردم…تا قبل از این اشتباه متوجه شده بودم
خوب بود
با سلام و سپاس فراوان،خداوند به شما و خانواده محترم سلامتی بده انشاالله،ذکات علم در نشر علم است که شما به نظر بنده حقیر عالی ادا فرمودید.و من الله توفیق
ممنون عالی بود.
سلام-ببخشین یکی میتونه بگه خطای محاسبه انحراف معیار در روش طبقه بندی داده ها رو چجور بدست میاریم میخواستم فرمولش رو بهم بگین فکر کنم از فرمول جذر استفاده میشه ولی نمیدونم چیه.مرسی
مرسیتم
حقیقتا نمیشه این مطلب رو خوند و کامنتی نذاشت،منم مثل مابقی دوستان از شما ممنونم.متاسفانه مشکلی که در کتاب های آماری هستش مثال ملموسی نمیزنن تا اون مفهوم آماری رو به خوبی یاد بگیریم که خب شما زحمت این مبحث کشیدین، واقعا ممنون.
خسته نباشید ?
سلام.آموزش عالی بود. سپاسگزارم.
سلام.بی نهایت ساده و عالی سپاسگزارم.
بسیار ساده و مفید مطرح کردید ممنون
فکر نمیکنم بهتر از این میشد این مطلب رو توضیح داد . به نظر من که عالی بود !
عالی بود..بسیار عالی بود..صد هزاران آفرینها بر شما باد
واقعا عالي بود مفهوم رو خيلي ساده بيان كرديد خيلي مفيد بود بسيار متشكرم
مگه واریانس تقسیم بر n-1 نمیشه؟ با فرمون شما واریانس اعداد 1 تا 5 میشه ۲ توی آموزش php فرادرس که توسط آقای کلامی هریس منتشر شده، واریانس اعداد 1 تا 5 میشه 2.5 جریان چیه؟
به نظر میرسد سوال شما معطوف به اختلاف بین واریانس جامعه و واریانس نمونه آماری باشد. در بخشی از متن پس از معرفی واریانس به این سوال پاسخ داده شده است: «وقتی N داده وجود داشته باشند، هنگام محاسبه واریانس مجموع مربعات اختلاف از میانگینها بر N تقسیم میشوند. اما هنگامی که قرار باشد این محاسبات بر روی نمونهای از یک جامعه آماری انجام یابد مجموع مربعات اختلاف از میانگینها بر N-1 تقسیم میشود. در این حالت باقی محاسبات از جمله روش محاسبه میانگین به همان شکل میماند.»
خیلیییییی خیلیییییییی عالی و با بیان ساده.ممنونم از شماا☺☺☺
ممنون خیلی ساده و جالب
با سلام در توضیح انحراف معیار مثال معلم شما چطور نتیجه گرفتید که پنجاه درصد دانش آموزان نمرهٔ ۱۰ تا ۱۵ دارند. طبق تابع توزیع نرمال باید ۶۸ درصد دانشمزن در محدودهٔ ۱۰ تا ۱۵ باشند.
دقت کنید که در متن جایی عنوان نشده بود که توزیع نمرت به صورت نرمال است و نیمی از نمرات به عنوان مقدار حداقلی که به احتمال بسیار زیاد در فاصله یک انحراف معیار از میانگین قرار دارد ذکر شده بود. با این حال جهت جلوگیری از ابهام در متن صراحتاً قید شد که در صورت وجود توزیع نرمال بیش از دوسوم (68.2%) از نمرات در بازه یک انحراف معیار از میانگین قرار دارند. با تشکر
بسیار عالی ممنون از مطلب خوبتان
ضمن تشکر از مطلب خوبتان با این احتساب اینکه قدر مطلق تفاضلها در محاسبه واریانس به توان چند برسد تا حدودی تجربی- کاربردی می تواند باشد. مثلا در مثال آخر اگر توان سه را برای قدرمطلق تفاضلها بکار بریم بزرگنمایی انحراف از میانگین بیشتری را نمایش می دهد
ممنون.مفهوم انحراف معیار رو اعلامکردید ولی از مفهوم واریانس صحبتی نشد با توجه به مثالی که زدید اگه توضیح بفرمایید ممنون میشم
متشکر
با عرض سلام و خسته نباشید خدمت تمام عزیزان فرادرس و تشکر بابت توضیح ساده و مفهومی
بسیار عالی؛ سپاس
با تشکر از شما مطلب بسیار ساده و کاربردی بیان شد
عالي!
عالی
ممنون
ممنون خیلی خوب بود
عالی تشکر
man vaghan mamnoonam,,tozihateton fogholade ravan va aali bood, kheyly komakam kard.. khoshhalm ke in page ro peyda kardam ;)))) khoob bashid….
با درود، در مورد به توان رساندن و سپس جذر واريانس، سوال من اينه كه چرا تعداد رو به توان نرسومديم و فقط جذر گرفتيم؟ وقتي تعداد رو جذر ميگيريم و به توان نميرسونيم مسلما مقدار عدد بدست امده خود به خود بيشتر ميشود. ميتونين يه توضيح راجب اين قضيه بدين لطفا
دقت کنید که هنگام محاسبه واریانس ابتدا مقادیر اختلاف از میانگین به صورت تک به تک به توان دو می رسند و سپس در نهایت یک جذر از کل نتیجه نهایی گرفته می شود تا این تاثیری که فرمودید خنثی شود.
سلام بسیار عالی ،تشکر
بسیار عالی
تشکر
عالي و ساده بود مرسي
عالي و ساده بود مرسي
ممنون و عالی بود. متشکرم