سه روش سریع برای مقایسه داده ها با پایتون – راهنمای کاربردی

۸۳۴ بازدید

آخرین به‌روزرسانی: ۳۰ آبان ۱۴۰۲

زمان مطالعه: ۳ دقیقه

دانلود PDF مقاله

همه افرادی که در مشاغل مرتبط با تحلیل داده کار می‌کنند، به طور مکرر درخواست‌هایی برای مقایسه داده‌ها دریافت می‌کنند. این درخواست‌ها می‌توانند شامل بررسی یکپارچگی داده‌ها، تحویل موفق داده‌ها یا صرفاً تلاش برای درک تفاوت بین دو فایل یا مجموعه داده باشند، اما فرایند کار همواره تقریباً یکسان است. در این نوشته به بررسی سه روش مختلف برای مقایسه داده ها با پایتون می‌پردازیم.

فهرست مطالب این نوشته

بررسی یکپارچگی داده‌ها

بررسی محتوای داده‌ها با SQL

بررسی داده‌ها با استفاده از Pandas

برخی اوقات که داده‌ها نسبتاً کوچک هستند، قرار دادن هر مجموعه داده در یک ورک‌شیت و سپس اجرای مقایسه بین سلول‌ها کفایت می‌کند.

مقایسه داده ها با پایتون

اگر به چیزی قدرتمندتر نیاز دارید، چند نرم‌افزار مقایسه داده موجود است که می‌توانند این کار را برای شما انجام دهند. یکی از بهترین گزینه‌ها نرم‌افزار Beyond Compare است.

در این مقاله به بررسی چیزی بین دو سناریوی فوق می‌پردازیم. شاید موقعیتی برای شما پیش آمده باشد که می‌خواهید یک مقایسه سریع داشته باشید و یا شاید مجموعه داده‌ها برای این که اکسل بتواند یک diff به شما بدهد بیش از حد بزرگ هستند. بنابراین در ادامه 3 روش جایگزین را مورد بررسی قرار می‌دهیم.

بررسی یکپارچگی داده‌ها

در این مقاله منظور از بررسی یکپارچگی داده‌ها، بررسی داده‌ها در کلیتشان است و نتیجه این تست یکی از حالت‌های موفقیت یا شکست خواهد بود. در این روش امکان این که بدانیم چرا تست ناموفق بوده است وجود ندارد، اما روش بسیار سریعی محسوب می‌شود. دو الگوریتم جایگزین را مورد بررسی قرار می‌دهیم.

فیلم آموزش برنامه نویسی پایتون + مثال های عملی در Python + گواهینامه در فرادرس

کلیک کنید

بررسی با MD5 Checksum

الگوریتم MD5 Checksum اساساً الگوریتمی است که یک عدد هگزادسیمال برای محتوای یک فایل بازگشت می‌دهد. با استفاده از کد زیر می‌توانیم از آن بهره بگیریم:

نتیجه اجرای کد فوق چنین است:

مقایسه داده ها با پایتون

بررسی با الگوریتم SHA1

الگوریتم SHA1 یک الگوریتم هگزادسیمال دیگر است که محتوای فایل ما را به یک رشته تبدیل می‌کند. این همان الگوریتمی است که بیت‌کوین برای فرایند ماین کردن بلاک چین استفاده می‌کند.

از کد زیر استفاده می‌کنیم:

نتیجه به صورت زیر خواهد بود:

مقایسه داده ها با پایتون

بررسی محتوای داده‌ها با SQL

خوشبختانه با استفاده از چند کتابخانه پایتون می‌توانیم فایل‌های خود را وارد یک پایگاه داده SQL بکنیم و از عملگر Except برای هایلایت کردن تفاوت‌ها بهره بگیریم. تنها نکته‌ای که باید توجه داشت این است که Except نیاز دارد که داده‌ها مرتب باشند، چون در غیر این صورت همه چیز را به عنوان تفاوت هایلایت می‌کند. برای استفاده سریع از این روش از کد زیر بهره بگیرید:

نتیجه اجرای کد فوق به صورت زیر است:

مقایسه داده ها با پایتون — برای نمایش تصویر در اندازه اصلی روی آن کلیک کنید.

بررسی داده‌ها با استفاده از Pandas

با استفاده از پکیج مشهور Pandas می‌توانیم به سرعت فایل‌های خود را که در دیتافریم‌ها قرار گرفته‌اند مورد بررسی قرار دهیم. در ادامه چند مشخصه کتابخانه Pandas را که امکان انجام این مقایسه را به ما می‌دهند، بررسی می‌کنیم.

فیلم آموزش پانداس pandas برای تحلیل اطلاعات در پایتون در فرادرس

کلیک کنید

استفاده از پارامتر ()equals.

با به‌کارگیری همان تنظیمات مثال‌های قبلی از کد زیر استفاده کنید:

خروجی به صورت زیر است:

مقایسه داده ها با پایتون

استفاده از پارامتر ()any.

این کار را می‌توانیم به صورت زیر به سرعت اجرا کنیم:

خروجی به صورت زیر است:

مقایسه داده ها با پایتون

استفاده از پارامتر ()Eq.

اسکریپت زیر را اجرا کنید:

نتیجه آن چنین است:

مقایسه داده ها با پایتون

بدین ترتیب به پایان این راهنما می‌رسیم.

اگر این مطلب برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۳ نفر

آیا این مطلب برای شما مفید بود؟

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

ثبت نظر

منابع:

financeexplained

میثم لطفی (+)

«میثم لطفی» در رشته‌های ریاضیات کاربردی و مهندسی کامپیوتر به تحصیل پرداخته و شیفته فناوری است. وی در حال حاضر علاوه بر پیگیری علاقه‌مندی‌هایش در رشته‌های برنامه‌نویسی، کپی‌رایتینگ و محتوای چندرسانه‌ای، در زمینه نگارش مقالاتی با محوریت نرم‌افزار با مجله فرادرس همکاری دارد.