داده چیست؟ — به زبان ساده + توضیح اهمیت و کاربرد
به احتمال زیاد کلمه «داده» (دیتا | Data) را بارها شاید در مدرسه، دانشگاه، محل کار یا در اخبار شنیدهاید؛ شاید هم در اینترنت با آن مواجه شده باشید. اگر دانشمند داده هستید یا قصد دارید در حوزههای مهم ریاضی و علوم کامپیوتر مثل رشته علم داده، داده کاوی، تحلیل داده، پایگاه داده و بسیاری از موارد دیگر فعالیت کنید، قطعاً تمام حرفه شما به داده ها بستگی دارد. داده منبعی نامحدود و بیکران است و در همه جای جهان یافت میشود. اما به هر حال، استفاده از اصطلاح «داده» گاهی میتواند سردرگمی ایجاد کند و تقریباً هر شخصی ممکن است در خصوص اینکه داده چیست نظر متفاوتی داشته باشد.
از زمان اختراع کامپیوتر، اصطلاح داده برای اشاره به اطلاعات کامپیوتری به وفور مورد استفاده قرار گرفته است. این اطلاعات یا در حال انتقال هستند یا ذخیره میشوند. اما این تنها تعریف داده و تنها مفهوم آن نیست. انواع داده دیگری هم وجود دارد. داده میتواند متن باشد یا شامل اعدادی شود که روی کاغذ نوشته میشوند. همچنین داده میتواند بایتها و بیتهای داخل حافظه دستگاهای الکترونیکی باشد. حتی حقایق ذخیره شده در ذهن انسان را هم میتوان داده نامید. در ادامه، به صورت دقیقتر به سوال داده چیست پاسخ میدهیم.
داده چیست ؟
داده انواع مختلفی از اطلاعات خام است که معمولاً به شکل خاصی قالببندی (فرمتبندی) میشود. گاهی به موارد جمعآوری شدهای که هنوز هیچ تغییری روی آنها انجام نشده است داده میگویند و گاهی هم پس از انجام برخی تغییرات، سازماندهیها و ساختاردهیها همچنان به آنها داده گفته میشود. در اصل مفهوم «داده» و «اطلاعات» با هم تفاوت دارند، اما معمولاً این دو اصطلاح را به جای هم استفاده میکنند. تمام نرمافزارها به دو بخش اصلی «برنامهها» (Program) و «داده» (Data) تقسیم میشوند. برنامهها مجموعههایی از دستورالعملهایی هستند که از آنها برای تغییر دادن و کار روی دادهها استفاده میشود.
«علم داده» (Data Science) برای آسانتر شدن کار با دادهها به کار میرود. علم داده رشتهای است که در آن دانش ریاضی، مهارتهای برنامه نویسی، حوزههای تخصصی، روشهای علمی، الگوریتمها، فرایندها و سیستمها برای استخراج دانش قابل اجرا و «بینشهایی» (Insight)، هم از دادههای ساختارمند و هم از دادههای بدون ساختار استخراج میشود و سپس، دانش گرد آمده از آن دادهها در بازه وسیعی از کاربردها و دامنهها به کار گرفته میشود. در ادامه بیشتر به علم داده پرداخته خواهد شد، اما پیش از آن لازم است بیشتر و دقیقتر به چیستی داده و تعریف دقیقتر آن پرداخته شود.
تعریف داده چیست ؟
در محاسبات، داده میتواند به صورت متنها، سندها، تصاویر، صوت یا صدا ویدیو و سایر موارد باشد. در سطح ابتدایی، دیتا یا داده گروهی از صفرها و یکها به حساب میآید. در علم آمار، دادهها به عنوان حقایق یا پیکرههایی تعریف میشوند که میتوان از آنها جمعبندیها و نتیجهگیریهایی را بدست آورد. افراد حرفهای در حوزه فناوری اطلاعات دادهها را به عنوان موجودیتها و صفتها تعریف میکنند.
به زبان عامیانه، داده یا دیتا، یک شخص، مکان، شی، رویداد یا مفهوم را در بافت کاربر یا محیط تعریف میکند که معنای آن به سازمان آن وابستگی دارد. برای درک بهتر این موضوع، در ادامه چند مثال ارائه شده است:
- در محاسبات، سازمانهای متفاوتی از یکها و صفرها به معنی موجودیتهای متفاوتی است. مثلاً 0001 برابر با عدد یک و 0010 نیز برابر با عدد ۲ است.
- در زیستشناسی، توالیهای متفاوت ژنوم، مثل G ،C ،A و T به کدهای ژنتیکی متفاوتی منجر میشود که نماینده اشخاص و گونههای مختلف هستند.
- فهرست تاریخچه خرید به همراه شناسه مشتری نشان دهنده عادتهای خرید آن شخص خاص است.
- توییتهای شما میتوانند چینش تصادفی از هر یک از ۲۶ کاراکتر به انگلیسی به همراه فضاهای خالی باشند، اما انتخاب با کاربر است که چینش این کاراکترها چگونه باشد و این چینش بازتاب دهنده معنی و مفهوم خاصی خواهد بود.
در صورتی که با داده به طور مجزا و بدون در نظر گرفتن تمام عوامل مرتبط با آن برخورد شود، هیچ ارزشی برای انسان یا کامپیوتر نخواهد داشت. بحث «Context» که میتوان آن را «بافت»، «زمینه» یا «بستر معنایی» ترجمه کرد، در مورد داده بسیار کلیدی و مهم است.
- بر بستر محاسبات (در Context محاسبات)، 0001 نمایش یا بازنمایی باینری عدد 1 است.
- بر بستر ایتالیایی، توییت انگلیسی با وجود اینکه ممکن است حاوی دنباله کاراکترهای مشترکی باشد، هیچ معنا و مفهومی ندارد.
برخی میگویند «حقایق» به آنچه گفته میشود که میتوان نشان داد صحیح و درست هستند، موجودیت دارند یا اتفاق افتادهاند.
در شرایط ایدهآل، میتوان دادهها را به عنوان نمایش حقیقی صفات هر چیزی در نظر گرفت.
به این دلیل میگوییم «در شرایط ایدهآل» چون دادهها همیشه درست و مبتنی بر واقعیت نیستند. به بیان ساده، گاهی ممکن است دادهها صحت نداشته باشند. بخشی از داده یا تمام آن گاهی ممکن است چیزی را نمایش بدهد که کاملاً نسبت به آنچه متفاوت است که انتظار داریم یا قصد داریم محاسبه کنیم. مثلاً، دانشآموزی نقص و عیبی را در دادههای ناسا پیدا میکند و خطای ریاضی پیدا میشود که برای مریلند ۳۱ میلیون دلار هزینه در بر داشته است.
به دادههایی که مبتنی بر واقعیت (درست و صحیح) هستند یا نیازهای مسئله را برطرف میکنند، گاهی «داده خوب» یا «سیگنال خوب» گفته میشود. دادههایی که غلط یا نامعتبر هستند یا نیازهای دامنه مسئله را برطرف نمیکنند، گاهی «داده بد» یا «نویز» (Noise) نامیده میشوند. دادهای که توصیفگر و معرف یک مجموعه (بیش از یک) داده است را «فراداده» (Metadata) مینامند و مجموعهای از دادهها را اغلب «مجموعه داده» (Dataset) خطاب میکنند. مفهومی به نام «داده پرت» (Outlier) هم وجود دارد که در بخشهای بعدی این مطلب به شرح چیستی آن پرداخته شده است.
داده در آمار چیست ؟
برای پاسخ به پرسش داده چیست در آمار باید گفت که داده، اندازهگیریها یا مشاهداتی است که به عنوان منبع اطلاعات جمعآوری میشوند. انواع مختلفی از دادهها در علم آمار وجود دارد و همچنین راههای مختلفی برای نمایش داده قابل استفاده هستند. همچنین داده علاوه بر اطلاعات میتواند خصوصیتهایی باشد. در آمار معمولاً دادهها عددی هستند و از طریق مشاهدات جمعآوری میشوند.
به بیان فنیتر، داده در آمار مجموعهای از مقادیر متغیرهای کیفی یا کمی است که درباره یک یا بیش از یک شخص یا شی گردآوری میشوند. کلمه دیتا (Data) در واقع حالت جمع کلمه «Datum» است. یعنی Datum حالت مفرد Data به حساب میآید. یک Datum مقداری واحد از متغیری واحد است. بنابراین داده در آمار اجزای واحدی از اطلاعات واقعی است که به ثبت رسیدهاند و برای مقاصد تجزیه و تحلیل و پردازش دادهها مورد استفاده قرار میگیرد. تحلیل دادهها در واقع همان تفسیر و نمایش دادهها است.
داده پرت چیست ؟
در علم آمار، وقتی راجع به «داده پرت» (Outlier Data) صحبت میکنیم، معمولاً به عنوان مفهومی دارای بار منفی تفسیر میشود. به بیان ساده، یک مقدار داده را در صورتی داده پرت به حساب میآوریم که در مجموعه داده ما به طور قابل ملاحظهای نسبت به دیگر مقادیر کمتر یا بیشتر باشد. اما به وسیله چه معیاری مشخص میشود که این اختلاف قابل ملاحظه است یا خیر؟
میتوان از تعدادی ابزار گرافیکی برای بصریسازی اینکه آیا دادهای به میزانی قابل توجه پرت هست یا خیر استفاده کرد. برای این کار، نمودارهای مختلفی از جمله نمودار احتمالاتی، نمودار پراکندگی، هیستوگرام و سایر موارد وجود دارد. در ادامه مثالی از نمودار احتمالاتی آمده که در آن داده پرت کاملاً مشخص است.
اهمیت داده در دنیای امروز و به ویژه در سازمان ها
اهمیت داده در دنیای امروز را میتوان از جنبههای مختلفی مورد بررسی قرار داد. امروزه دادهها در تمام جوانب زندگی بشر نقشی بسیار حیاتی و مهم دارند. اما یکی از مهمترین جنبههای اهمیت داده در دنیای امروز، نقش آن در کسب و کارهای تجاری است. در عصر کنونی، بخش بسیار مهمی از اداره سازمانی موفق، جمعآوری دادههایی را شامل میشود که میتوان آنها را تجزیه و تحلیل کرد تا بینشهایی عمیقتر در کسب و کار و مشتریان آن بدست آیند.
بسیاری از بزرگترین شرکتها در جهان، مثل آمازون، گوگل و نتفلیکس از دیرباز دادهها را برای مقاصد تجاری به کار گرفتهاند. اگرچه، پیشرفتهای حاصل شده در حوزههایی مثل پردازش داده و بصریسازی دادهها، باعث شده است تا اهمیت داده روشنتر شود و به واسطه آنها بهرهمندی از مزایای دادههای حجیم (کلان داده) برای همگان دسترسپذیرتر شده است.
اما اگر داده کافی در اختیار نداشته باشیم چطور؟ مسئله این است که امروزه داده به وفور در دسترس قرار دارد و حجم دادههای تولید شده روز به روز به صورت تصاعدی در حال افزایش است. برخی عقیده دارند که جمعاً نزدیک به ۲.۵ کوئینتیلیون (عدد یک با ۱۸ صفر به توان ۲) بایت داده در روز تولید میشود.
به بیان دیگر، داده به میزان زیادی برای رهبران کسب و کارها و آنهایی که مایل باشند دادهها را استخراج کنند، آماده و در دسترس قرار دارد. به همین دلیل که روزانه حجم داده بسیار زیادی در حال تولید شدن است، آنچه بیشتر اهمیت دارد این است که بتوان تشخیص داد چه دادههایی ارزش استخراج را دارند و چه دادههایی بیفایده هستند.
در هر صورت، در قرن ۲۱ داده دارایی بسیار ارزشمندی برای کسب و کار به حساب میآید. در سال ۲۰۰۶ «Clive Humby» ریاضیدان بریتانیایی عبارت «داده نفت جدید است» را بنیان نهاد. این عبارت به نوع در دسترس بودن این دو دارایی ارزشمند اشاره دارد. یعنی هیچ یک از این دو در حالت خام ارزشی ندارند، بلکه ارزش زمانی برای داده حاصل میشود که جمعآوری سریع، کامل و دقیق آن اتفاق بیوفتد و به دیگر دادههای مرتبط متصل شود.
معرفی فیلم های آموزش داده کاوی و یادگیری ماشین فرادرس
در مجموعه فرادرس دورههای آموزشی که موضوع اصلی آنها مشترک است در مجموعههای آموزشی قرار داده شدهاند تا علاقهمندان بتوانند راحتتر به آنها دسترسی داشته باشند. مثلاً تمام دورههای آموزشی مرتبط با هوش مصنوعی در مجموعه آموزشهای هوش مصنوعی و در صفحهای مشخص و جداگانه گردآوری شدهاند. مجموعههای آموزشی بسیاری با موضوعات مختلف به ویژه برای برنامه نویسی، علوم کامپیوتر، هوش مصنوعی و سایر موارد در سایت فرادرس موجود و در دسترس است.
یکی از این مجموعههای آموزشی که بیشترین ارتباط را با مبحث داده یا همان دیتا دارد، مجموعه دورههای داده کاوی و یادگیری ماشین فرادرس است که در آن تقریباً همه دورههای آموزشی مربوط به داده کاوی و یادگیری ماشین فرادرس قابل دسترسی هستند. برای ساختمان داده، پایگاه داده و سایر موضوعات مرتبط با این مطلب هم مجموعههای آموزشی جامع و کاربردی در پلتفرم فرادرس وجود دارند که برای دسترسی به آنها کافی است در گوگل عبارت «مجموعه آموزش ...» را جستجو کنید. در تصویر فوق تنها برخی از دورههایی معرفی شدهاند که بیشتر با داده کاوی در ارتباط هستند.
- برای دسترسی به همه فیلم های آموزش داده کاوی و یادگیری ماشین فرادرس + اینجا کلیک کنید.
آناتومی داده چیست؟
سناریویی (پیشامد یا آزمایش خاصی) را فرض میکنیم که در آن قصد داریم راجع به انواع مسافرانی بدانیم که سوار یک اتوبوس یا قطار در ایستگاه شدهاند. بنابراین، اطلاعاتی را در مورد هر شخص جمعآوری میکنیم که تبدیل به مجموعه داده یا همان دیتاست ما میشوند. همانطور که در ادامه ملاحظه میشود، مجموعه دادهها معمولاً به صورت جدول نمایش داده میشوند.
«مجموعه داده» (دیتاست) به مجموعهای از دادهها گفته میشود که آزمایش، سناریو، موضوع یا پیشامد خاصی برای آنها در نظر گرفته شده است. در جدول بالا، سطرها اشخاص را نشان میدهند و ستونها نمایانگر متغیرها هستند.
طبق آنچه در تصویر فوق نشان داده شده است، میتوان گفت:
دادهها بخشهایی از اطلاعات راجع به اشخاصی هستند که در متغیرهایی سازماندهی شدهاند. البته داده تنها به افراد مربوط نمیشود و ممکن است شیٔ هم باشد. در این سناریوی خاص، مسافران همان اشخاص در دادهها هستند. علاوه بر شخص یا شیٔ، گاهی به این موجودیتها «مشاهدات» (Observation)، «مورد» (Case)، «بردار» (Vector) یا «بردار ویژگی» (Feature Vector) هم میگویند. منظور از متغیر، در واقع خصوصیتی خاص از یک شخص است. در اینجا، متغیرها شامل سن، قد، شماره صندلی، جنسیت و سایر موارد میشوند. گاهی به متغیرها، «مشاهدهپذیر» (Observable) یا «ویژگی» (Feature) گفته میشود.
هر سطر تمام اطلاعات مربوط به یک شخص خاص را به ما ارائه میدهد (در این مورد، منظور هر مسافر است). هر ستون هم اطلاعاتی را راجع به خصوصیتی مشخص از تمام مسافران در اختیار ما قرار میدهد.
اکنون که کمی درک بیشتری نسبت به پرسش داده چیست بدست آمده است و آشنایی ابتدایی با علم داده هم حاصل شده، بهتر است در ادامه به برخی از مفاهیم مهم مرتبط با داده پرداخته شود. اما پیش از آن باید بدانیم اطلاعات چیست و «Information» به چه معنا است. در واقع لازم است کمی به عقب برگردیم و به اصول و مبانی مرتبط با داده بپردازیم.
اطلاعات چیست ؟
اصطلاح «اطلاعات» (Information) به عنوان دادههای طبقهبندی شده یا سازماندهی شدهای تلقی میشوند که برای کاربر دارای ارزشی معنادار هستند. همچنین، اطلاعات، دادههای پردازش شدهای به حساب میآیند که برای تصمیمگیری و اقدام عملی مورد استفاده قرار میگیرند. دادههای پردازش شده برای اینکه بتوانند برای تصمیمگیری مفید واقع شوند، باید با معیارهای زیر مطابقت داشته باشند.
- دقت (Accuracy): اطلاعات باید دقیق باشند.
- کامل بودن (Completeness): اطلاعات باید کامل باشند.
- بههنگام بودن (Timeliness): اطلاعات باید در زمان نیاز در دسترس باشند.
انواع داده چیست و داده ها چه کاربردهایی دارند؟
رشد حاصل شده در حوزه فناوری، خصوصاً برای گوشیهای هوشمند به این مسئله منجر شده است که متن، ویدیو و صوت جزئی از دادهها محسوب شوند و همچنین «سوابق» (اسناد | رکوردهای) وب و ثبت وقایع در آن هم به عنوان داده تلقی شوند. اکثر این دادهها بدون ساختار هستند. در این بخش به این پرسش پاسخ میدهیم که انواع داده چیست و همچنین به سایر مباحثی همچون «کلان داده» (Big Data)، نحوه ذخیرهسازی داده و غیره پرداختهایم.
انواع داده چیست ؟
دادهها را میتوان به روشهای مختلف و از دیدگاههایی متفاوت طبقهبندی کرد و این موضوع بسیار گسترده است و میتوان راجع به آن مطلب جداگانه نوشت. اما به طور خلاصه، انواع داده میتواند در دستههای زیر قرار بگیرد:
- «داده خام» (Raw Data)
- «پردازش شده» (Processed)
- «ساختارمند» (Structured)
- «بدون ساختار» (Unstructured)
همچنین انواع داده را میتوان در دو دسته «کیفی» (Qualitative) و «کمی» (Quantitative) هم جای داد.
داده خام چیست ؟
داده خام معمولاً به دادههای اولیهای گفته میشود که جمعآوری شدهاند و بعداً بیشتر پردازش خواهند شد تا بتوان آنها را به اطلاعاتی قابل درک تبدیل کرد. دادههایی به عنوان داده خام در نظر گرفته میشوند که مستقیماً از منبع جمعآوری شدهاند و تاکنون پردازشی روی آنها انجام نشده است، سازماندهی و پاکسازی هم نشدهاند و هنوز به صورت بصری هم نمایش داده نشدهاند.
در مورد دادههای خام، درک اینکه دقیقاً با چه چیزی مواجه هستیم بسیار دشوار است، اما پس از آنکه دادهها پاکسازی و سازماندهی میشوند، به ما کمک خواهند کرد تا بتوانیم تصمیمهای ارزشمندی بگیریم. در ادامه مثالهایی از دادههای خام برای درک بهتر این مفهوم فهرست شدهاند:
- نظرات ثبت شده در مورد یک کسب و کار یا محصول خاص
- فهرستی از اقلام خریداری شده در یک شرکت تجاری
- پاسخهای ارسالی در یک نظرسنجی
- فهرستی از قیمتها برای ماشینها، هتلها و املاک
- دیدگاههای صنعت
- فیلمهای ویرایش نشده دوربین
سوال دیگری که به طور رایج پیرامون پرسش داده چیست مطرح میشود، چیستی ساختمان داده است. بنابراین در ادامه به طور خلاصه به این موضوع پرداختهایم.
ساختمان داده چیست ؟
ساختمان داده قالبهایی برای سازماندهی انواع مختلف داده در حافظه به حساب میآید. به بیان دیگر، ساختمان داده به راههای مختلف سازماندهی داده در حافظه به شیوهای بهینه برای اجرای عملیات مختلف گفته میشود. از ساختمان داده برای مدیریت، پردازش و دریافت دادههای مرتبط استفاده میشود.
در هر ساختمان داده، ۲ جزء اصلی شامل دادهها و عملیات مختلف برای کار روی آنها وجود دارد. داده به نوعی همان اطلاعات به حساب میآید و منظور از عملیات هم الگوریتمهایی است که روی دادهها اجرا میشوند تا بینشهایی دارای ارزش حاصل شوند.
بیگ دیتا یا کلان داده چیست ؟
اصطلاح بیگ دیتا یا همان کلان داده در خصوص پرسش داده چیست برای توصیف دادههایی استفاده میشود که حجم آنها در بازه «پتابایت» (Petabyte | میلیون گیگابایت) یا بیشتر جای میگیرد. همچنین، کلان داده با ۵ ویژگی شناخته میشود که به 5V معروف هستند. این ۵ ویژگی در ادامه فهرست شدهاند:
- «Variety» (تنوع)
- «Volume» (حجم)
- «Value» (ارزش و مقدار)
- «Veracity» (اعتبار)
- «Velocity» (سرعت و شتاب)
امروزه تجارت الکترونیک مبتنی بر وب به طور گستردهای فراگیر شده است. مدلهای کسب و کار مبتنی بر کلان داده نیز تحول پیدا کرده و داده در دنیای امروزی به خودی خود دارایی به حساب میآید. بیگ دیتا مزیتهای بسیار زیادی دارد هم دارد که از جمله میتوان به کاهش هزینهها، بهینگی افزوده، افزایش فروش و سایر موارد اشاره کرد.
در حوزه برنامهها و کاربردهای کامپیوتری، مفهوم داده یا همان دیتا تنها به پردازش داده محدود نمیشود و رشدی بسیار فراتر از آن داشته است. برای نمونه، میتوان به حوزه بسیار مهم «علم داده» (Data Science) اشاره کرد.
بر این اساس، در حوزههای بازارهای مالی، جمعیتشناسی، سلامت و بازاریابی، تعریفهای متفاوتی از داده وجود دارد که در نهایت منتج به پاسخهای متفاوتی برای پرسش کلی داده چیست میشود. اما سوال دیگری که در این خصوص مطرح میشود این است که به طور معمول دادهها چگونه ذخیره میشوند؟
داده چگونه ذخیره سازی می شود؟
کامپیوترها داده را که میتواند شامل متن، تصویر، صدا، ویدیو و غیره باشد به صورت مقادیر «دودویی» (باینری | Binary) نمایش میدهند. در سیستم باینری، تنها ۲ عدد ۰ و ۱ به کار گرفته میشود. کوچکترین واحد دادهها را «بیت» (Bit) مینامیم که تنها نماینده یک مقدار واحد (صفر یا یک) است. علاوه بر آن، واحد «بایت» (Byte) هم وجود دارد که از ۸ بیت تشکیل شده است و بنابراین میتواند ۸ عدد صفر و یک را در خود جای دهد. حجم حافظهها و ذخیرهگاهها براساس واحدهایی مثل موارد زیر اندازهگیری میشود:
- «مگابایت» (Megabyte)
- «گیگابایت» (Gigabyte)
- «ترابایت» (Terabyte)
- «پتابایت» (Petabyte)
- «اگزابایت» (Exabyte)
با ادامه رشد میزان دادههایی که توسط جوامع بشری تولید میشوند، «دانشمندان داده» (Data Scientist) دائماً واحدهای اندازهگیری جدیدتر و بزرگتری را معرفی میکنند.
پایگاه داده چیست ؟
حوزه ذخیرهسازی داده با توسعه «بانکهای اطلاعاتی» یا همان «پایگاههای داده» (Database) بسیار تخصصیتر شده است. همچنین سیستمهای مدیریت پایگاه داده و اخیراً فناوری پایگاه داده رابطهای، همگی در پیشرفت صنعت داده نقش بسزایی داشتهاند و به وسیله آنها راههای جدیدی برای سازماندهی اطلاعات ابداع شده است. در خصوص مفهوم پایگاه داده یا همان بانک اطلاعاتی، پیش از این مطالب جامعی منتشر شدهاند که مطالعه آنها برای کسب معلومات بیشتر به علاقهمندان توصیه میشود. برای یادگیری مفاهیم پایگاه داده نیز میتوان از دوره آموزش دیتابیس فرادرس استفاده کرد.
چرخه پردازش داده چیست ؟
پردازش داده به عنوان مرتبسازی مجدد یا ساختاردهی مجدد داده به وسیله افراد یا ماشینها برای افزایش سودمندی آن و افزودن ارزش برای یک کارکرد یا مقصود خاص تعریف میشود. پردازش استاندارد داده از ۳ گام اساسی، شامل «ورودی» (Input)، «پردازش» (Processing) و «خروجی» (Output) تشکیل شده است. این ۳ مرحله به همراه یکدیگر، چرخه پردازش داده را تشکیل میدهند. در ادامه هر یک از این سه مرحله در چرخه پردازش دادهها به طور خلاصه شرح داده شدهاند.
- ورودی: دادههای ورودی برای پردازش به شکلی مناسب که به ماشین اجرا کننده پردازش وابسته است آمادهسازی میشوند.
- پردازش: سپس در مرحله پردازش، شکل دادههای ورودی به چیزی کاربردیتر تغییر پیدا میکند. برای مثال، اطلاعات مربوط به کارتهای ثبت زمان ورود و خروج در ادارات برای محاسبه حقوق پرداختی مورد استفاده قرار میگیرند.
- خروجی: در آخرین گام، نتایج پردازش به عنوان دادههای خروجی جمعآوری میشوند و بسته به اینکه برای چه کاری استفاده میشوند، در این مرحله قالب و شکل نهایی را به خود میگیرند. در مثال قبلی، دادههای خروجی در این مرحله اکنون تبدیل به فیش پرداخت حقوق شدهاند.
بنابراین سوال مهمی که در اینجا مطرح میشود این است که در وهله اول، دانشمندان داده و تحلیلگران داده چگونه دادهها را تجزیه و تحلیل میکنند؟ در ادامه به این موضوع پرداختهایم.
تحلیل داده چیست و چگونه داده را تجزیه و تحلیل می کنیم؟
در این بخش ابتدا به این پرسش پاسخ میدهیم که تحلیل داده چیست و سپس به روشهای تحلیل داده خواهیم پرداخت. نظریهپردازی بدون در اختیار داشتن داده بسیار اشتباه است. وقتی بتوانیم از داده معنا و مفهوم استخراج کنیم، این باعث میشود برای تصمیمگیری بهتر مجهز شویم. خوشبختانه در دورانی زندگی میکنیم که به وفور داده در دسترس قرار دارد.
تحلیل داده چیست ؟
«تحلیل داده» (Data Analysis) شیوه و روشی از کار با داده است تا در نتیجه آن، اطلاعات مفید و کاربردی گردآوری شوند. از این اطلاعات مفید میتوان برای تصمیمگیری آگاهانه استفاده کرد. مثلاً یک بانک میتواند به کمک تحلیل داده تعاملهای خود را با مشتریانش شخصیسازی کند. نظام سلامت میتواند با استفاده از تحلیل داده نیازهای بهداشتی و مرتبط با سلامت را برای هر فرد در آینده پیشبینی کند.
مجمع جهانی اقتصاد آینده مشاغل در گزارش سال ۲۰۲۰ شغل تحلیلگر داده و دانشمند داده را به عنوان برترین شغل در حال ظهور معرفی کرده است. به دنبال آن هم بلافاصله عنوانهای شغلی متخصص هوش مصنوعی، یادگیری ماشین و متخصص کلان داده در این گزارش معرفی شده است.
تحلیل داده چگونه انجام می شود؟
به طور ایدهآل، ۲ راه برای همان تجزیه و تحلیل داده وجود دارد که در ادامه فهرست شدهاند:
- دادهکاوی یا تحلیل دادهها در تحقیقات «کیفی» (Qualitative)
- دادهکاوی یا تحلیل دادهها در تحقیقات «کمی» (Quantitative)
اکنون در ادامه هر یک از این دو روش در زیربخشهای جداگانهای شرح داده شدهاند.
تحلیل داده در تحقیقات کیفی چیست؟
دادهکاوی یا تحلیل داده و تحقیقات در اطلاعات موضوعی به نوعی نسبت به اطلاعات عددی بهتر عمل میکنند، زیرا کیفیت اطلاعات شامل کلمهها، تجسمها، تصاویر، اشیا و گاهی تصاویر میشوند. دریافت دانش از چنین دادههای درهم و مرکب، کاری بسیار طاقتفرسا است، بنابراین، این روش علاوه بر به کارگیری در تحلیل دادهها یا همان دادهکاوی، معمولاً در تحقیقات اکتشافی هم مورد استفاده قرار میگیرد.
یافتن الگو در داده های کیفی چگونه است؟
اگرچه راههای مختلفی برای کشف الگو در دادههای چاپ شده وجود دارند، یک خط مشی مبتنی بر کلمه، قابل اتکاترین روش جهانی است که به طور وسیعی مورد استفاده قرار میگیرد.
فرایند تحلیل داده در تحقیقات کیفی به طور قابل توجهی به صورت دستی انجام میشود. در اینجا، متخصصان به عنوان یک قانون، اطلاعات در دسترس و کلمههای تکراری و پر استفاده را میخوانند.
تحلیل داده در تحقیقات کمی
اصلیترین مرحله در تحقیقات و تحلیل دادهها این است که این کار را برای آزمایش با این هدف انجام دهیم که اطلاعات اسمی و کمی میتوانند به چیزی مهم تبدیل شوند.
آماده سازی داده برای تجزیه و تحلیل
آمادهسازی دادهها از مراحل زیر تشکیل میشود.
- «اعتبارسنجی داده» (Data Validation)
- «ویرایش داده» (Data Editing)
- «کدگذاری داده» (Data Coding)
برای تحقیقات کمی آماری، استفاده از تجزیه و تحلیل توصیفی به طور منظم اعداد مطلق را خروجی میدهد. اگرچه، تجزیه و تحلیل هرگز برای نشان دادن توجیه نهفته در آن اعداد کافی نیست. همچنان، تفکر راجع به بهترین روش مورد استفاده برای تحقیق و تحلیل داده بسیار مهم است و نتیجه باید با بررسیها و آنچه متخصصان لازم است بیان کنند مطابقت داشته باشد.
در نتیجه، سازمانهایی که آماده فعالیت در جهان فوق رقابتی امروزی هستند، باید ظرفیت قابل توجهی برای بررسی و تحلیل اطلاعات تحقیقاتی پیچیده داشته باشند. بیتهای دانش ارزشمند را استنتاج کنند و خود را با نیازمندیهای جدید بازار مطابقت دهند.
داده کاوی چیست ؟
داده کاوی فرایندی است که توسط سازمانها و شرکتها برای تبدیل کردن دادههای خام به اطلاعات کاربردی و مفید انجام میشود. این کار با استفاده از نرمافزارهایی صورت میگیرد که به دنبال یافتن الگوهایی در دستههای بزرگ دادهها هستند.
کسب و کارها میتوانند با استفاده از داده کاوی، بیشتر در مورد مشتریان خود بدانند و به این وسیله، استراتژیهای بازاریابی مؤثرتری را توسعه دهند. همچنین به وسیله داده کاوی، امکان افزایش میزان فروش و کاهش هزینهها هم فراهم میشود. داده کاوی به جمعآوری موثر داده، انبارداری اصولی دادهها و پردازشهای کامپیوتری مناسب وابسته است.
نکات مهم پیرامون چیستی داده کاوی
در ادامه برخی از نکات کلیدی و مهم پیرامون چیستی داده کاوی فهرست شده است.
- داده کاوی فرایند تجزیه و تحلیل دستههای بزرگی از اطلاعات و تشخیص روندها و الگوها تعریف میشود.
- داده کاوی توسط سازمانها و شرکتها بهکارگیری میشود تا بتوان متوجه شد که مشتریان چه علایقی دارند یا دوست دارند چه چیزهایی بخرند. همچنین از داده کاوی برای تشخیص کلاهبرداری و پالایش هرزنامهها هم استفاده میشود.
- نرمافزارهای داده کاوی الگوها و ارتباطهای موجود در دادهها را تشریح و توصیف میکنند و این کار بر اساس اطلاعاتی انجام میشود که کاربران این برنامههای فراهم میسازند.
- شرکتهای شبکه اجتماعی از فناوریهای داده کاوی به منظور کالاسازی برای کاربران استفاده میکنند تا بتوانند سود بدست آورند.
- این نوع استفاده از داده کاوی اخیراً مورد انتقاداتی قرار گرفته است، زیرا اغلب کاربران هیچ اطلاعی از داده کاوی انجام شده روی دادههای خود توسط شرکتها ندارند، خصوصاً وقتی که از این دادهها برای تأثیرگذاری روی خواستهها و علایق کاربران استفاده میشود.
پس از شرح چیستی تحلیل داده و چیستی داده کاوی، اکنون مشخص شده است که شباهت زیادی در تعریف این دو وجود دارد و به احتمال زیاد این سوال به وجود میآید که تفاوت داده کاوی با تحلیل داده چیست و آیا اصلاً تفاوت بارزی بین این دو اصطلاح وجود دارد؟ بنابراین در ادامه به این موضوع میپردازیم.
تفاوت داده کاوی با تحلیل داده چیست ؟
امروزه برای تصمیمگیریهای بهتر، از «داده کاوی» (Data Mining) و «تحلیل داده» (Data Analysis) به میزان گستردهای و با تعاریف مختلفی استفاده میشود. در ظاهر به نظر میرسد این دو اصطلاح با هم یکسان هستند و میتوان در انجمنهای فعالان حوزه داده این دو اصطلاح را به جای هم استفاده کرد.
اما، تحلیل داده فرایندی اکتشافی است که به طور مرتب با پرس و جوها یا همان کوئریهای صریح و آشکار آغاز میشود، اما اصطلاح داده کاوی خصوصاً در تحقیقات در اصل به جای دادههای بدست آمده و کسب شده، برای دادههای از قبل موجود مطرح میشود.
تفاوت های کلیدی داده کاوی با تحلیل داده
به طور کلی تفاوت تحلیل داده با داده کاوی از ۴ جنبه قابل طرح است که در ادامه فهرست شدهاند.
- به لحاظ هدف
- ساختار داده
- از منظر پیشبینی
- به لحاظ ابزارهای بصریسازی
حال در ادامه به طور خلاصه تفاوت تحلیل داده با داده کاوی برای هر یک از موارد بالا شرح داده میشود.
تفاوت تحلیل داده با داده کاوی به لحاظ هدف
در تحلیل داده، الزاماتی در خصوص بهکارگیری فناوریهایی برای تجزیه و تحلیل و رسیدن به نظریههایی وجود دارند که به گرفتن تصمیمهای منتج از دادهها کمک میکنند. از طرف دیگر، داده کاوی فرایند کشف الگوهای پنهان در دادههای خام با استفاده از الگوریتمهای پیچیده یادگیری ماشین است تا تصمیمگیریهای دقیق حاصل شوند.
تفاوت داده کاوی با تحلیل داده به لحاظ ساختار داده
عمده تحقیقات داده کاوی اکثراً روی دادههای ساختارمند انجام میشود. این بسیار حیاتی است، چراکه متخصص داده کاوی الگوریتمهایی را برای پیدا کردن الگوهایی در دادهها خلق میکند و بعداً میتوان این الگوها را تجزیه و تحلیل کرد.
داده کاوی براساس ایدههای ریاضیاتی و علمی انجام میشود، بنابراین در اختیار داشتن دادههای ساختاریافته، شفافیت داده و دقت آن را برای تحقیقات بیشتر تضمین میکند. داده ممکن است به سادگی تعدادی مقدار عددی باشد یا مثل ماتریسی حاوی میلیونها مشاهده و صدها متغیر پیچیده باشد. هدف قایی داده کاوی این است که احتمالاً یافتههای ارزشمندی را بدست آوریم که بعداً تحلیلگران روی آنها عملیات لازم را انجام خواهند داد.
از طرف دیگر، تحلیل داده را میتوان هم روی دادههای ساختاریافته، هم شبهساختارمند و هم بدون ساختار انجام داد. همچنین تحلیلگران داده هم مثل متخصصان داده کاوی، مسئولیت توسعه الگوریتمها را بر عهده ندارند. در عوض، آنها باید الگوهای دادهها را تجزیه و تحلیل کنند و به استنباطهایی دست یابند. بینشهای بدست آمده بعداً در برنامههای آینده سازمانی مورد استفاده قرار خواهند گرفت.
تفاوت تحلیل داده با داده کاوی از منظر پیش بینی
داده کاوی به کسب و کارها کمک میکند تا چشماندازی تاریخی و درکی از شرایط فعلی بدست آورند. اما، تحلیل داده در پیشبینی نتایج و تعیین راهحلهای پیشگیرانه برای بسیاری از سناریوهای گوناگون آینده ضمن جلوگیری از بلایا، نقشی فعالانه دارد.
بسیار حیاتی است که بدانیم، با وجود تفاوتها، داده کاوی و تحلیل داده فرایندهایی مرتبط با هم و دارای تکنولوژی بالا هستند. انجام تحلیل داده بدون داده کاوی به هیچوجه امکانپذیر نیست، زیرا در غیر اینصورت هیچ راهی به منظور بدست آوردن الگوهای داده برای پیشبینیهای متعاقب وجود نداشت. داده کاوی هم بدون تحلیل داده هیچ فایدهای ندارد، چراکه در دسترس بودن دادههای ساختارمند به صورت خالص و بدون هیچ برنامه عملیاتی مشخص، اصلاً قابلیت مفیدی نخواهد بود.
تفاوت تحلیل داده با داده کاوی از جنبه ابزارهای بصری سازی
ابزارهای بصریسازی مثل نمودارهای میلهای و ستونی، گرافها و سایر موارد معمولاً در داده کاوی وجود ندارند. اما در طرف مقابل، تحلیل داده همیشه به وسیله بصریسازی نتایج هدایت میشود، زیرا بدون ارائه و بازنمایی درست و حسابی دادهها، تمام تلاشهای به کار رفته در تحلیل دادهها به هیچ دردی نخواهند خورد.
به این ترتیب پیرامون تفاوت تحلیل داده با داده کاوی بحث شد، اما مفهوم و اصطلاح دیگری هم به نام «Data Analytics» (واکاوش داده | فراکافت داده) هم وجود دارد که اغلب به دلیل شباهت املایی زیاد آن با Data Analysis یا همان تحلیل داده، تصور میشود این دو مفهوم یکسان هستند و اغلب به جای یکدیگر استفاده میشوند. بنابراین لازم است در ادامه به این پرسش پاسخ بدهیم که فراکافت داده چیست و چه تفاوتی با تحلیل داده دارد.
فراکافت داده چیست و چه تفاوتی با تحلیل داده دارد؟
تفاوت اصلی میان تحلیل داده و فراکافت داده به رویکرد این دو وابسته است. در واقع تحلیل داده بیشتر سمت و سویی رو به گذشته دارد، در حالی که فراکافت داده به آینده مربوط میشود. «تحلیل داده» (Data Analysis) فرایند مطالعه، پالایش، تبدیل و آموزش دادههای «گذشته» برای بدست آوردن اطلاعات کارآمد، پیشنهادات، نتیجهگیریها و تصمیمگیریها است. «فراکافت داده» (Data Analytics) به استفاده از داده، ابزارهای یادگیری ماشین، تجزیه و تحلیل آماری و الگوهای مبتنی بر کامپیوتر برای بدست آوردن بینش بهتر و طراحی استراتژیهای بهتر گفته میشود.
فراکافت یا واکاوش داده فرایند مدلسازی مجدد دادههای گذشته و تبدیل آنها از طریق تحلیلها و بینشها به عملیاتی برای کمک به تصمیمگیری سازمانی و حل مسئله است. در واقع در فراکافت داده، کاری بیشتر از تحلیل انجام میشود و تحلیل داده به نوعی زیرمجموعه فراکافت به حساب میآید.
به لحاظ لغوی و واژهشناسی، کلمه «Analysis» که در اینجا معادل «تحلیل» یا «تجزیه و تحلیل» را میتوان برای آن در نظر گرفت به معنی تقسیم یک کلیت به اجزای کوچک است؛ واژه «Analytics» (فراکافت | واکاوش) به علم تجزیه و تحلیل منطقی گفته میشود. در حالی که در تجزیه و تحلیل به لحاظ زمانی به عقب مینگریم و روی حقایق و اشکالی از آنچه در گذشته رخ داده کار میکنیم، در فراکافت یا واکاوش داده به سمت و سوی مدلسازی آینده یا پیشبینی وقوع یک نتیجه پیش میرویم. به بیان دیگر در تحلیل داده ساختار اطلاعات یا دادههای در دسترس فعلی تغییر داده میشود، اما در فراکافت از اطلاعات تحلیل شده و آنالیز شده برای پیشبینی آنچه استفاده میشود که ممکن است در آینده اتفاق بیوفتد.
علم داده چیست ؟
به بیان ساده و به طور خلاصه، علم داده به تجزیه و تحلیل داده و استخراج بینشهای معنادار از آن به وسیله ترکیب کردن علم آمار، ریاضیات، مهارتهای برنامه نویسی و تخصص موضوعی گفته میشود.
اهمیت علم داده چیست ؟
در خصوص اهمیت علم داده باید گفت که امروزه سازمانها را دریایی از داده احاطه کرده است؛ در این بین، علم داده در استخراج بینشهای دارای معنا و مفهوم برای سازمانها از طریق ترکیب روشها، فناوریها و ابزارهای مختلف نقش بسزایی دارد. در حوزه تجارت الکترونیک، بازارهای مالی، پزشکی، منابع انسانی و سایر موارد، سازمانها و شرکتها با حجمهای وسیعی از داده در ارتباط هستند و ابزارهای علم داده و فناوریهای مربوطه به آنها کمک میکنند تا بتوانند تمام این دادهها را پردازش کنند.
مشاغل مرتبط با داده چیست و برترین دلایل برای تبدیل شدن به دانشمند داده چه هستند؟
در ابتدای این بخش، کاربردهای علم داده شرح داده شدهاند که به نوعی مشخص میکنند چقدر تبدیل شدن به دانشمند داده انتخاب و تصمیم مناسبی است.
کاربردهای علم داده چیست ؟
- یکی از کاربردهای مهم علم داده یا همان دیتا ساینس، شناسایی خطرات و کلاهبرداریها است. در ابتدا از علم داده در بخش بازارهای مالی استفاده میشد و همین کاربرد، همچنان به عنوان برجستهترین کاربرد آن محسوب میشود.
- دومین کاربرد مهم علم داده به بخش سلامت مربوط میشود. در این حوزه، دیتا ساینس برای تجزیه و تحلیل تصاویر پزشکی، ژنتیک و ژنومشناسی استفاده میشود. همچنین علم داده در توسعه و ساخت دارو هم کاربرد دارد. در آخر از علم داده برای توسعه دستیار مجازی بیماران نیز استفاده میشود و این حوزه تاثیرات بسزایی را در این خصوص به همراه داشته است.
- یکی دیگر از کاربردهای علم داده نیز به جستجوی اینترنتی مربوط میشود. امروزه تمام موتورهای جستجو از الگوریتمهای علم داده برای نشان دادن نتایج مطلوب و مناسب استفاده میکنند.
- بسیاری از سایر کاربردهای علم داده یا هوش مصنوعی نیز در ادامه فهرست شدهاند:
- تبلیغات هدفمند
- بازشناسی پیشرفته تصاویر
- تشخیص سرعت
- برنامهریزی مسیرها و خطوط هوایی
- واقعیت افزوده
- بازیهای رایانهای
- سایر موارد
برترین مشاغل در رابطه با داده چیست؟
در این بخش، تعدادی از برتقاضاترین مشاغل مرتبط با داده به طور خلاصه معرفی میشوند. مشاغلی که در این بخش معرفی میکنیم شامل موارد زیر میشوند.
- «دانشمند داده» (Data Scientist)
- «تحلیلگر هوش تجاری» (BIA | Business Intelligence Analyst)
- «توسعهدهنده پایگاه داده» (Database Developer)
- «مدیر پایگاه داده» (Database Administrator)
- «مدیر واکاوش داده» (Data Analytics Manager)
دانشمند داده کیست؟
همانطور که در بخش قبل با شرح کاربردهای مهم آن مشخص شد، دانشمند داده یکی از پرتقاضاترین مشاغل حال حاضر به حساب میآید. دانشمندان داده متخصصان واکاوش و تحلیل دادهها هستند که از مهارتهای خود هم در فناوری و هم در علوم اجتماعی استفاده میکنند تا الگوهایی را در دادهها پیدا کنند و به مدیریت دادهها بپردازند.
دانشمند داده از دانش صنایع، درک زمینهای و شک و تردید در فرضیههای موجود استفاده میکند تا راهکارهایی را برای چالشهای کسب و کار کشف کند.
تحلیلگر هوش تجاری کیست؟
تحلیلگر هوش تجاری که به اختصار BIA خطاب میشود به شرکتها کمک میکند تا با استفاده از داده تصمیمات مثمر ثمر بگیرند و توصیههای مورد نیاز را ارائه دهند.
توسعه دهنده پایگاه داده کیست؟
سومین شغل رایج در فهرست برترین مشاغل مرتبط با داده یا همان دیتا، توسعه دهنده بانک اطلاعاتی است. متخصصان در این شغل اصولاً روی بهبود و ارتقای بانکهای اطلاعاتی و توسعه اپلیکیشنهای جدید برای استفاده از بهتر از دادهها متمرکز هستند.
مدیر پایگاه داده کیست ؟
شغل مدیر پایگاه داده این است که پایگاه دادههای مورد نیاز را راهاندازی و سپس در تمام مواقع از آنها نگهداری کند و امنیت این بانکهای اطلاعاتی را برقرار سازد.
مدیر واکاوش داده کیست ؟
امروزه شرکتهای بیشتری به مدیران داده نیاز دارند تا بتوانند مفیدترین دادهها را از مقادیر عظیم داده استخراج کنند.
چالش وجود نام های مختلف برای مفاهیم یکسان در حوزه علم داده و برنامه نویسی
اگر کمی دقت کنیم، متوجه میشویم که راههای مختلفی برای نامگذاری یک مفهوم یکسان در حوزه داده، علم داده، برنامه نویسی و به طور کلی در علوم کامپیوتر وجود دارد. این اصطلاحات و نامهای متفاوتی که به یک چیز اشاره دارند، از حوزه مطالعاتی مختلف، ترجیحها و تمایلات افراد فعال در این حوزهها یا قراردادهای نانوشته میان آنها نشأت میگیرند. این مسئله میتواند برای یک فرد تازهکاری که به تازگی وارد یک عرصه شده است غافلگیر کننده باشد.
اما این موضوع نباید باعث نا امیدی افراد شود. ممکن است فرد بداند که یک اصطلاح چه معنایی دارد، اما چون نام متفاوتی برای آن به کار گرفته شده است، احتمال بروز سردرگمی وجود خواهد داشت. تنها به وسیله آشنا شدن با نامها و اصطلاحات مختلف میتوان از این چالش به سلامت عبور کرد. بنابراین همیشه باید در اینترنت جستجو کرد و نباید برای انجام این کار احساس بدی داشت. هیچکس همهچیزدان نیست و اینترنت و گوگل برای همین منظور ساخته شده است.
جمعبندی
حوزه داده، پردازش داده و علم داده بسیار وسیع است. در این مطلب، تنها ۵ حرفه شغلی معرفی شدند، اما تعداد مشاغل مرتبط با داده بسیار بیشتر از این تعداد هستند. برای نمونه میتوان گواهینامههای رسمی برای تخصصهای مختلف مرتبط با داده، مثل عنوان «مهندس داده» (Data Engineer) یا «مدیر امنیت داده» (Data Security Administrator) را کسب کرد. هر زمینهای در حیطه علم داده و واکاوش کسب و کار بسیار پر رونق است و بنابراین ارتقای دانش و مهارت خود در این خصوص میتواند بسیار مفید باشد و آینده شغلی افراد بدین وسیله تضمین خواهد شد.
در این مقاله سعی شد تا حد امکان به طور جامع و به بیان ساده به این پرسش پاسخ داده شود که داده چیست و همچنین سایر مباحث و موضوعات مهم پیرامون مفهوم داده یا همان دیتا نیز شرح داده شدند و مورد بررسی قرار گفتند. امید است این مقاله مفید واقع شود.