سه روش سریع برای مقایسه داده ها با پایتون – راهنمای کاربردی

۹۱۸
۱۴۰۲/۰۸/۳۰
۳ دقیقه
PDF
آموزش متنی جامع
امکان دانلود نسخه PDF

همه افرادی که در مشاغل مرتبط با تحلیل داده کار می‌کنند، به طور مکرر درخواست‌هایی برای مقایسه داده‌ها دریافت می‌کنند. این درخواست‌ها می‌توانند شامل بررسی یکپارچگی داده‌ها، تحویل موفق داده‌ها یا صرفاً تلاش برای درک تفاوت بین دو فایل یا مجموعه داده باشند، اما فرایند کار همواره تقریباً یکسان است. در این نوشته  به بررسی سه روش مختلف برای مقایسه داده ها با پایتون می‌پردازیم.

سه روش سریع برای مقایسه داده ها با پایتون – راهنمای کاربردیسه روش سریع برای مقایسه داده ها با پایتون – راهنمای کاربردی
997696

برخی اوقات که داده‌ها نسبتاً کوچک هستند، قرار دادن هر مجموعه داده در یک ورک‌شیت و سپس اجرای مقایسه بین سلول‌ها کفایت می‌کند.

مقایسه داده ها با پایتون

اگر به چیزی قدرتمندتر نیاز دارید، چند نرم‌افزار مقایسه داده موجود است که می‌توانند این کار را برای شما انجام دهند. یکی از بهترین گزینه‌ها نرم‌افزار Beyond Compare است.

در این مقاله به بررسی چیزی بین دو سناریوی فوق می‌پردازیم. شاید موقعیتی برای شما پیش آمده باشد که می‌خواهید یک مقایسه سریع داشته باشید و یا شاید مجموعه داده‌ها برای این که اکسل بتواند یک diff به شما بدهد بیش از حد بزرگ هستند. بنابراین در ادامه 3 روش جایگزین را مورد بررسی قرار می‌دهیم.

بررسی یکپارچگی داده‌ها

در این مقاله منظور از بررسی یکپارچگی داده‌ها، بررسی داده‌ها در کلیتشان است و نتیجه این تست یکی از حالت‌های موفقیت یا شکست خواهد بود. در این روش امکان این که بدانیم چرا تست ناموفق بوده است وجود ندارد، اما روش بسیار سریعی محسوب می‌شود. دو الگوریتم جایگزین را مورد بررسی قرار می‌دهیم.

بررسی با MD5 Checksum

الگوریتم MD5 Checksum اساساً الگوریتمی است که یک عدد هگزادسیمال برای محتوای یک فایل بازگشت می‌دهد. با استفاده از کد زیر می‌توانیم از آن بهره بگیریم:

نتیجه اجرای کد فوق چنین است:

مقایسه داده ها با پایتون

بررسی با الگوریتم SHA1

الگوریتم SHA1 یک الگوریتم هگزادسیمال دیگر است که محتوای فایل ما را به یک رشته تبدیل می‌کند. این همان الگوریتمی است که بیت‌کوین برای فرایند ماین کردن بلاک چین استفاده می‌کند.

از کد زیر استفاده می‌کنیم:

نتیجه به صورت زیر خواهد بود:

مقایسه داده ها با پایتون

بررسی محتوای داده‌ها با SQL

خوشبختانه با استفاده از چند کتابخانه پایتون می‌توانیم فایل‌های خود را وارد یک پایگاه داده SQL بکنیم و از عملگر Except برای هایلایت کردن تفاوت‌ها بهره بگیریم. تنها نکته‌ای که باید توجه داشت این است که Except نیاز دارد که داده‌ها مرتب باشند، چون در غیر این صورت همه چیز را به عنوان تفاوت هایلایت می‌کند. برای استفاده سریع از این روش از کد زیر بهره بگیرید:

نتیجه اجرای کد فوق به صورت زیر است:

مقایسه داده ها با پایتون
برای نمایش تصویر در اندازه اصلی روی آن کلیک کنید.

بررسی داده‌ها با استفاده از Pandas

با استفاده از پکیج مشهور Pandas می‌توانیم به سرعت فایل‌های خود را که در دیتافریم‌ها قرار گرفته‌اند مورد بررسی قرار دهیم. در ادامه چند مشخصه کتابخانه Pandas را که امکان انجام این مقایسه را به ما می‌دهند، بررسی می‌کنیم.

استفاده از پارامتر ()equals.

با به‌کارگیری همان تنظیمات مثال‌های قبلی از کد زیر استفاده کنید:

خروجی به صورت زیر است:

مقایسه داده ها با پایتون

استفاده از پارامتر ()any.

این کار را می‌توانیم به صورت زیر به سرعت اجرا کنیم:

خروجی به صورت زیر است:

مقایسه داده ها با پایتون

استفاده از پارامتر ()Eq.

اسکریپت زیر را اجرا کنید:

نتیجه آن چنین است:

مقایسه داده ها با پایتون

بدین ترتیب به پایان این راهنما می‌رسیم.

اگر این مطلب برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

==

بر اساس رای ۸ نفر
آیا این مطلب برای شما مفید بود؟
اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.
منابع:
financeexplained
PDF
مطالب مرتبط
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *