روش‌های استاندارد سازی داده ها

۱۴۸۳۶

۱۴۰۲/۰۳/۱

۷ دقیقه

PDF

آموزش متنی جامع

امکان دانلود نسخه PDF

قبل از انجام هر گونه تحلیلی روی داده‌ها، باید آن‌ها را استاندارد کرد. بخصوص زمانی که داده‌ها چند بُعدی باشند. استفاده از داده‌های استاندارد نشده ممکن است روی نتایج حاصل از تحلیل‌ها اثر نامناسبی داشته باشد. به همین جهت در این نوشتار به روش‌های استاندارد سازی داده ها خواهیم پرداخت.

فهرست مطالب این نوشته

نمره‌های استاندارد Z4 و Z5

استاندارد سازی داده

استاندارد سازی داده‌ کمک می‌کند که اهمیت آن‌ها به واحد اندازه‌گیری‌شان بستگی نداشته باشد. در نتیجه در مواردی مانند داده‌کاوی و تحلیل داده‌های چند متغیره از داده‌های استاندارد شده استفاده می‌شود.

فیلم آموزش مت کد Mathcad برای استانداردسازی محاسبات و طراحی مهندسی در فرادرس

کلیک کنید

شایان ذکر است که استاندارد‌سازی برای داده‌های کمی و کیفی قابل اجرا است ولی در این نوشتار به بررسی روش‌های استانداردسازی برای داده‌های کمی می‌پردازیم و چند روش استانداردسازی را با هم مقایسه می‌کنیم.

نمره استاندارد Z₁

برای تبدیل داده‌ها از توزیع نرمال به نرمال استاندارد از «نمره استاندارد» (Z-Score) استفاده می‌شود. حتی اگر داده‌ها توزیعی شبیه نرمال نیز داشته باشند باز هم تبدیل آن‌ها به نمره استاندارد می‌تواند مفید باشد. رابطه‌ بین نمره استاندارد و مقدار واقعی به صورت زیر است:

$Z_i=\frac{X_i-\mu}{\sigma}$

لازم به ذکر است در فرمول بالا $Z_i$ ‌ نمره استاندارد برای داده $X_i$ است و $\mu$ ‌ میانگین و $\sigma$ انحراف معیار برای داده‌ها است. با این کار $Z_i$ ها دارای میانگین ۰ و واریانس ۱ می‌شوند.

اگر داده‌ها یک نمونه از جامعه آماری باشند، نمره استاندارد، براساس میانگین و انحراف استاندارد نمونه‌ای محاسبه می‌شود.

$Z_i=\frac{X_i-\bar X}{S}$

در فرمول بالا $Z_i$ ‌ نمره استاندارد برای داده $X_i$ است و $\bar X$ ‌ میانگین و S انحراف معیار نمونه محسوب می‌شود. با این کار $Z_i$ ها باز هم دارای میانگین ۰ و واریانس ۱ می‌شوند.

normal-distribution-and-sampling-distribution

پس با این تبدیل می‌توانید مقدارهایی تولید کنید که خصوصیات اصلی آن‌ها مانند مرکز (میانگین) و مقیاس (واریانس) ثابت باشند. نمره‌های استاندارد در بیشتر مواقع بین دو مقدار $-3$ تا 3 قرار می‌گیرند.

به این ترتیب بعضی از نمره‌های استاندارد، منفی (کوچکتر از میانگین) و بعضی مثبت (بزرگتر از میانگین) خواهند بود. اگر نمره‌ استاندارد برای مقداری برابر با ۰ باشد،‌ معلوم می‌شود که آن مقدار با میانگین برابر است.

همچنین از نمرات استاندارد برای مقایسه مقادیری استفاده می‌شود که ممکن است دارای واحد‌های متفاوتی باشند.

مثال

امتیاز «مدرس الف» در دانشکده ریاضی برابر با 13 است. میانگین و انحراف استاندارد امتیازات در این دانشکده نیز به ترتیب برابر با ۱۰ و ۳ است. «مدرس ب» در دانشکده برق نیز دارای امتیاز ۱۵ است. ولی میانگین و انحراف استاندارد امتیازات در این دانشکده به ترتیب ۱۷ و ۴ است. برای مقایسه این دو مدرس توجه به امتیاز هر یک به تنهایی کافی نیست. باید مشخص شود که این امتیازات بر مبنای میانگین و انحراف استاندارد به چه ترتیب قرار می‌گیرند. برای آنکه بتوان تفاوت امکانات در هر دو دانشکده را نادیده گرفت (واحد اندازه امتیازات را از بین برد) از نمره استاندارد هر یک از مدرسین برای مقایسه استفاده می‌شود.

برای «مدرس الف» نمره استاندارد برابر با $\frac{13-10}{3}=1$ و برای «مدرس ب» نمره استاندارد برابر با $\frac{15-17}{4}=-0.5$ است. با توجه به نمره استاندارد این دو مدرس مشخص است که «مدرس الف» از کارایی بیشتری برخوردار است.

مثال

داده‌های مربوط به امتیاز 5 استاد دانشکده ریاضی و ۴ استاد دانشکده فیزیک در سطر دوم جدول قرار دارند. نمره‌های استاندارد Z₁ آن‌ها نیز در سطر سوم جدول محاسبه شده است.

دانشکده	استاد ۱- ریاضی	استاد ۲- ریاضی	استاد ۳- ریاضی	استاد ۴- ریاضی	استاد ۵- ریاضی	استاد ۱-فیزیک	استاد ۲- فیزیک	استاد ۳- فیزیک	استاد ۴-فیزیک
امتیاز	12	13	11.5	10	8	12	5	8	9
Z1	0.84	1.23	0.65	0.06	-0.71	0.84	1.88	-0.71	-0.32

نکته: محاسبه میانگین و انحراف استاندارد برای Z_۱باید براساس مقدار امتیازات همه استادها انجام شود.

همانطور که دیده می‌شود استادهای دانشکده ریاضی دارای میانگین نمرات استاندارد بزرگتری هستند، پس استادهای این دانشکده توانمندتر هستند.

برای آشنایی بیشتر با نحوه محاسبه و خصوصیات میانگین، مطلب روش یافتن میانگین – به زبان ساده و برای انحراف معیار، مطلب واریانس و انحراف معیار — یک راهنمای جامع به زبان کاملاً ساده را مطالعه نمایید.

نمره استاندارد Z₂

نمره استاندارد Z₁ هم مرکز و هم مقیاس داده‌ها را ثابت می‌کند. ولی اگر هدف از استاندارد‌سازی فقط یکسان‌سازی مقیاس باشد، می‌توان از یک نمره بدون واحد به نام Z₂استفاده کرد که گاهی با عنوان «انحراف استاندارد اصلاح نشده وزنی» (Weighted Uncorrected Standard Deviation- USTD) نیز نامیده می‌شود. شیوه محاسبه آن‌ها در ادامه آمده است.

$Z_2=USTD= \frac{X}{S}$

می‌بایست اشاره کنیم که در این روش محاسباتی S‌ انحراف استاندارد نمونه است.

فیلم آموزش درس رگرسیون ۲ – جامع و کاربردی در فرادرس

کلیک کنید

از آنجایی که در مخرج کسر، انحراف معیار قرار دارد، این نسبت نشان می‌دهد که هر مقدار چند برابر انحراف معیار است، بدون آنکه نسبت به میانگین یا مرکز داده‌ها اصلاحی در نظر گرفته شود.

با این تبدیل، میانگین نمرات USTD‌ یا Z₂ برابر با $\frac{\bar X}{S}$ و انحراف معیار آن‌ها برابر با ۱ خواهد بود.

data standardization

مثال

برای مثال مربوط به مدرس‌ها با توجه به انحراف استاندارد هر دانشکده،‌ نمره USTD‌ «مدرس الف» برابر با $\frac{13}{3}=4.33$ ‌ و برای «مدرس ب» $\frac{15}{4}=3.75$ خواهد بود. باز هم به این ترتیب مشخص می‌شود که «مدرس الف» دارای امتیاز بیشتری است.

همچنین برای مثالِ استادان، نمرات استاندارد Z_۲ در جدول زیر دیده می‌شود.

دانشکده	استاد ۱- ریاضی	استاد ۲- ریاضی	استاد ۳- ریاضی	استاد ۴- ریاضی	استاد ۵- ریاضی	استاد ۱- فیزیک	استاد ۲- فیزیک	استاد ۳- فیزیک	استاد ۴- فیزیک
امتیاز	12	13	11.5	10	8	12	5	8	9
نمره استاندارد Z۲	4.66	5.05	4.47	3.89	3.11	4.66	1.94	3.11	3.50

نکته: محاسبه انحراف استاندارد برای Z₂باید براساس مقدار امتیازات همه استادها انجام شود.

با توجه به بزرگتر بودن متوسط نمرات دانشکده ریاضی، کارایی این دانشکده از دانشکده فیزیک بیشتر است.

ضمناً بر حسب نحوه محاسبه برای نمره استاندارد $Z_1$ و $Z_2$ می‌توان مشاهده کرد که یک رابطه خطی به صورت زیر بین این دو برقرار است. در نتیجه می‌توان یکی را بر مبنای دیگری محاسبه کرد.

$Z_1=Z_2+\frac{\bar X}{S}$

نمره استاندارد Z₃

بر اساس روش نمره استاندارد Z₃، می‌توان میزان نزدیکی هر یک از مقدارها را به حداکثر آن‌ها به صورت نسبی بیان کرد. شکل محاسباتی برای آن نیز به صورت زیر است:

$Z_3=\frac{X}{Max(X)}$

با این کار کران بالا برای نمره‌های استاندارد Z₃ برابر با ۱ خواهد بود.

اگر همه مقدارها مثبت باشند، این نسبت را به صورت درصدی نیز می‌توان نشان داد. البته باید توجه داشت که برای مقدارهای منفی نمره استاندارد Z₃ باید به شکلی محاسبه شود که درصد منفی ظاهر نشود. برای این کار کافی است مقدار مناسبی به همه داده‌ها بطور یکسان اضافه شود تا محاسبات منجر به تولید درصدهای مثبت شود. با این کار حدود نمره‌های استاندارد بین ۰ تا ۱ خواهند بود.

مثال

با توجه به داده‌های مثال استادهای دانشکده ریاضی و فیزیک، نمره‌های استاندارد Z₃ آن‌ها در سطر سوم جدول محاسبه شده است.

دانشکده	استاد ۱- ریاضی	استاد ۲- ریاضی	استاد ۳- ریاضی	استاد ۴- ریاضی	استاد ۵- ریاضی	استاد ۱- فیزیک	استاد ۲- فیزیک	استاد ۳- فیزیک	استاد ۴- فیزیک
امتیاز	12	13	11.5	10	8	12	5	8	9
نمره استاندارد Z3	0.92	1.00	0.88	0.77	0.62	0.92	0.38	0.62	0.69

با توجه به این اعداد مشخص است که در دانشکده ریاضی متوسط نمره‌های استاندارد بیشتر از دانشکده فیزیک است. پس کارایی دانشکده ریاضی بهتر از دانشکده فیزیک محسوب می‌شود.

نکته: محاسبه مقدار حداکثر باید براساس مقدار امتیازات همه استادها انجام شود.

میانگین نمره‌های استاندارد در این حالت برابر با $\dfrac{\bar X}{Max(X)}$ و انحراف معیار آن نیز برابر با $\dfrac{S}{Max(X)}$ خواهد بود.

نکته: مقدار پراکندگی نسبی $\frac {Max(X)-Min(X)}{Max (X)}$ برای داده‌های اصلی و نمره‌های استاندارد Z₃ تغییر نمی‌کند.

استفاده از نمره استاندارد Z₃ باید با احتیاط انجام شود زیرا وجود یک مقدار خیلی بزرگ در مشاهدات، این نمره را برای بیشتر مقدارها کوچک می‌کند. این مقدار خیلی بزرگ، اغلب به «نقطه دور افتاده» (Outlier) معروف است.

نکته: از نمره استاندارد Z₃ فقط در مواردی باید استفاده شود که داده‌های کمی از نوع نسبی هستند. داده‌های کمی از نوع نسبی در مقابل نوع فاصله‌ای قرار دارند. در این نوع داده صفر به معنی هیچ است در حالیکه داده فاصله‌ای، داده‌ای است که در آن صفر به صورت قراردادی در نظر گرفته می‌شود و به معنی هیچ نیست.

نمره‌های استاندارد Z₄ و Z₅

اگر برای برآورد انحراف معیار از «دامنه تغییرات» (Range) در محاسبه نمره استاندارد Z₂ استفاده شود، شکل محاسبه به صورت زیر خواهد بود.

$Z_4= \frac{X}{Max(X)-Min(X)}$

فیلم آموزش آمار و احتمال مهندسی – جامع و با مثال های مختلف در فرادرس

کلیک کنید

همچنین اگر به جای فاصله از مرکز در رابطه Z₁، فاصله از حداقل نمرات ملاک قرار گیرد، نمره استاندارد جدیدی به نام نمره استاندارد Z₅ بوجود خواهد آمد.

$Z_5= \frac{X-Min(X)}{Max(X)-Min(X)}$

با فرض اینکه مقدارها همگی مثبت باشند، نمره استاندارد Z₅ بین ۰ تا ۱ تغییر خواهد کرد. البته یکی از نمره‌های استاندارد حتما برابر با ۰ (برای مقدار حداقل) و یکی هم برابر با ۱ (برای مقدار حداکثر) خواهد بود.

میانگین نمرات استاندارد Z₄ برابر $\dfrac{\bar X}{Max(X)-Min(X)}$ و برای Z₅ نیز برابر با $\dfrac{\bar X - Min(X)}{Max(X)-Min(X)}$ خواهد بود. همچنین انحراف معیار هر دو نیز برابر‌ است با $\dfrac{S}{Max(X)-Min(X)}$ .

مثال

برای داده‌های مربوط به مثال استادها نمرات استاندارد Z₄ و Z₅ در سطر سوم و چهارم قرار گرفته‌اند.

دانشکده	استاد ۱- ریاضی	استاد ۲- ریاضی	استاد ۳- ریاضی	استاد ۴- ریاضی	استاد ۵- ریاضی	استاد ۱-فیزیک	استاد ۲- فیزیک	استاد ۳- فیزیک	استاد ۴-فیزیک
امتیاز	12	13	11.5	10	8	12	5	8	9
Z۴	1.50	1.63	1.44	1.25	1.00	1.50	0.63	1.00	1.13
Z۵	0.88	1.00	0.81	0.63	0.38	0.88	0.00	0.38	0.50

نکته: محاسبه مقدار حداکثر و حداقل باید براساس مقدار امتیازات همه استادها انجام شود.

درست به مانند نمره استاندارد Z₃، نمرات استاندارد Z₄ و Z₅ نیز تحت تاثیر مقدارهای دور افتاده قرار خواهند گرفت. بنابراین هنگام استفاده از آن‌ها باید وجود نقاط دور افتاده را بررسی کرد.

نکته: بین نمره‌های استاندارد Z₄ و Z₅ یک رابطه‌ خطی وجود دارد. بطوری که می‌توان به شکل زیر یکی را برحسب دیگری محاسبه کرد.

$Z_5=Z_4 - \dfrac{Min(X)}{Max(X)-Min(X)}$

نمره استاندارد Z₆

اگر هر مقدار به حاصل جمع مقدارها تقسیم شود، یک نمره استاندارد شده بدست می‌آید که مجموع آن‌ها برابر با یک و میانگینشان نیز برابر با $\frac{1}{n}$ است ولی واریانس این نمره‌ها مقدار ثابتی نیست. شکل محاسباتی برای Z₆ به صورت زیر است:

$z_6= \dfrac{X}{\sum X}$

مثال

براساس امتیاز استادها در مثال قبل، جدول زیر برای مقایسه نمرات استاندارد Z₆ آن‌ها تهیه شده است. (مجموع برای هر دانشکده به تفکیک محاسبه شده.)

دانشکده	استاد ۱- ریاضی	استاد ۲- ریاضی	استاد ۳- ریاضی	استاد ۴- ریاضی	استاد ۵- ریاضی	استاد ۱- فیزیک	استاد ۲- فیزیک	استاد ۳- فیزیک	استاد ۴-فیزیک
امتیاز	12	13	11.5	10	8	12	5	8	9
Z6	0.35	0.38	0.34	0.29	0.24	0.35	0.15	0.24	0.26

با توجه به این مقدارها به نظر می‌رسد که استادهای دانشکده ریاضی از متوسط امتیازات بیشتری نسبت به استادهای دانشکده فیزیک برخوردارند.

نکته: محاسبه مجموع باید براساس مقدار امتیازات همه استادها انجام شود.

رتبه Z₇

روش دیگر برای از بین بردن واحد اندازه‌گیری مقدارها، استفاده از رتبه داده‌ها است. اگر به جای استفاده از داده‌ها،‌ رتبه‌ آن‌ها به کار گرفته شود، امکان مقایسه بین مقدارها با واحدهای اندازه‌گیری متفاوت بوجود می‌آید. چنانچه داده‌ها را از کوچک به بزرگ مرتب کنیم، مکان قرارگیری مقدارها، نشان دهنده رتبه آن‌ها است.

مثال

براساس رتبه Z₇ برای استادها در مثال قبل، جدول زیر برای مقایسه آن‌ها تهیه شده است.

دانشکده	استاد ۱- ریاضی	استاد ۲- ریاضی	استاد ۳- ریاضی	استاد ۴- ریاضی	استاد ۵- ریاضی	استاد ۱- فیزیک	استاد ۲- فیزیک	استاد ۳- فیزیک	استاد ۴-فیزیک
امتیاز	12	13	11.5	10	8	12	5	8	9
Z۷	7	9	6	5	2	7	1	2	4

با توجه به این مقدارها به نظر می‌رسد که استادهای دانشکده ریاضی از متوسط رتبه‌های بزرگتری نسبت به گروه فیزیک برخوردارند. پس دانشکده ریاضی دانشکده بهتری است.

نکته: محاسبه رتبه‌ها باید براساس همه امتیازات انجام شود.

این روش برای استاندارد‌سازی داده‌ها در مقابل نقاط دورافتاده مقاوم است و بیشتر در زمینه‌های آمار ناپارامتری به کار گرفته می‌شود. میانگین Z_7‌ برابر با $(n+1)/2$ است و واریانس آن برابر با $\dfrac{n+1}{\dfrac{(2n+1)}{6}-\dfrac{(n+1)}{4})‌}$ محسوب می‌شود.

اگر مطلب بالا برای شما مفید بوده است، احتمالاً آموزش‌هایی که در ادامه آمده‌اند نیز برایتان کاربردی خواهند بود.

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۲۲ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

Wikipedia

آرمان ری بد (+)

«آرمان ری‌بد» دکتری آمار در شاخه آمار ریاضی دارد. از علاقمندی‌های او، یادگیری ماشین، خوشه‌بندی و داده‌کاوی است و در حال حاضر نوشتارهای مربوط به آمار و یادگیری ماشین را در مجله فرادرس تهیه می‌کند.

مطالب مرتبط

SPSS چیست و چه کاربرد و ويژگی‌هایی دارد؟

توزیع توانی چیست؟ – به زبان ساده

ضریب تعیین چیست؟ – ضریب تشخیص به زبان ساده

آمار توصیفی چیست؟ – هر آنچه باید بدانید

ضریب پراکندگی چیست؟ – به زبان ساده + فرمول محاسبه

ضریب همبستگی پیرسون چیست؟ – نحوه محاسبه با مثال و تمرین

رگرسیون چیست؟ – توضیح به زبان ساده

توزیع احتمال چیست؟ – توضیح به زبان ساده با مثال

چارک چیست؟ – توضیح به زبان ساده با مثال

انحراف معیار چیست؟ – به زبان ساده با مثال

۷ دیدگاه برای «روش‌های استاندارد سازی داده ها»

محمد حسین ساکت

۱۱ دی، در ۱۴۰۰ ۲:۱۴ ب.ظ

سلام در معادلات ساختاری مدل اندازه گیری با استفاده از داده های استاندارد داریم.محاسبه این استانداردبا فرمول زد معمولی است؟ممنونم

پاسخ

ربنا

۰۷ اردیبهشت، در ۱۴۰۰ ۵:۴۴ ب.ظ

سلام و تشکر . چه فرقی بین استاندارد سازی دادهها و نرمال سازی دادهها وجود دارد ؟ سپاس

پاسخ

آرمان ری بد

۰۸ اردیبهشت، در ۱۴۰۰ ۸:۵۱ ق.ظ

سلام دوست عزیز،

اغلب این دو واژه با یکدیگر و به یک معنی به کار می‌روند. منظور از استاندارد سازی و یا نرمال سازی، تغییر مقادیر به شکلی است که در یک بازه دلخواه تغییر کنند. برای مثال اگر به متن توجه کرده باشید، روش Z5 داده‌ها را در بازه ۱- تا ۱ قرار می‌دهد. از طرفی این روش‌های استاندارد سازی، مقیاس اندازه‌گیری را از بین می‌برند. برای مثال اگر داده ها براساس واحد کیلوگرم اندازه‌گیری شده باشند، زمانی که مقدار امتیاز Z score را برایشان محاسبه می‌کنید، واحدی برای نمایش بزرگی مقادیر وجود ندارد. این کار امکان مقایسه داده‌ها یا مقیاس‌های مختلف (مانند کیلوگرم-تن و انس) را می‌دهد.
از طرفی نرمال سازی گاهی به همان معنی استاندارد سازی تعبیر شده و گاهی به معنی تبدیل توزیع داده‌ها به توزیع نرمال است. تبدیل کاکس باکس یکی از همین روش‌ها محسوب می‌شود که داده‌های چوله را به توزیع نرمال نزدیک می‌کند.

از این که همراه مجله فرادرس هستید سپاسگزاریم.
پیروز و تندرست باشید.

mohammad

۱۴ آذر، در ۱۳۹۹ ۵:۳۰ ب.ظ

سلام
آیا می توان از مفهوم تئوری اطلاعات و آنتروپی شانون برای نرمال سازی داده ها استفاده کرد؟

پاسخ

آرمان ری بد

۱۵ آذر، در ۱۳۹۹ ۹:۳۳ ق.ظ

سلام و درود به شما همراه مجله فرادرس،

همانطور که در مطلب نظریه اطلاع و بی نظمی — مفاهیم اولیه می‌توانید بخوانید، ارتباط نزدیکی بین واریانس و اطلاع شانون وجود دارد. اگر از این جنبه به آنتروپی نگاه کنیم، می‌توانیم برای استاندارد سازی در مخرج کسر مربوط به مقدار Z از اطلاع شانون (یا عکس آن) استفاده کنیم تا داده‌ها را استاندارد کنیم.
البته به نظر من باید هدف از انجام این کار مشخص باشد. در اکثر مواقع، استاندارد سازی باعث از بین رفتن واحد اندازه‌گیری شده و در نتیجه امکان مقایسه بین مقدارها با واحدهای متفاوت میسر می‌شود.

از اینکه به مطالب مجله فرادرس توجه دارید سپاسگزاریم.
تندرست و پیروز باشید.