برنامه نویسی پایتون (Python) با کتابخانه NumPy – به زبان ساده

۲۷۲۹

۱۴۰۴/۱۰/۱۴

۴ دقیقه

PDF

آموزش متنی جامع

کتابخانه «NumPy» یک ابزار قدرتمند برای زبان برنامه‌نویسی پایتون (Python) است که می‌تواند سرعت و کارایی را در پردازش داده‌های عظیم به شدت افزایش دهد. چندین «چارچوب» (framework) «علم داده» (Data Science) و «یادگیری ماشین» (Machine Learning) با کتابخانه NumPy کار می‌کنند یا بر مبنای آن ساخته شده‌اند. برای نشان دادن مزایای استفاده از NumPy، در ادامه برخی مثال‌های مرتبط با وظایف علم داده و داده‌کاوی ارائه و با بهره‌گیری از لیست‌های پایتون و عملگرهای موجود در NumPy پیاده‌سازی شده‌اند.

فهرست مطالب این نوشته

لیست‌های پایتون و آرایه‌ها در کتابخانه NumPy

ضرب ماتریس‌ها

چرا NumPy سریع‌تر است؟

نتیجه‌گیری

لیست‌های پایتون و آرایه‌ها در کتابخانه NumPy

«لیست‌ها» (Lists) در پایتون آرایه‌هایی با اندیس صفر هستند که می‌توانند شامل داده‌هایی از انواع گوناگون باشند.

فیلم آموزش NumPy و Matplotlib در پایتون در فرادرس

کلیک کنید

داده‌هایی که در لیست‌های پایتون قرار می‌گیرند به طور مجزا با اندیس‌گذاری یا تکرار در لیست قابل دسترسی هستند.

لیست‌ها در کتابخانه NumPy، با عنوان «ndarrays» نامیده می‌شوند (سرنامی برای n-dimensional arrays به معنای آرایه‌ای n بُعدی است) و مشابه لیست‌های پایتون در پایه‌ای‌ترین سطح هستند، اما کارکرد عملکردی برداری را فراهم می‌کنند که لیست‌ها در پایتون ندارند. اکنون، فرض می‌شود که یک مجموعه از اعداد «صحیح» (Integers) به صورت [4,3,my_int_list = [1, 2 ساخته شده است و هدف تغییر دادن هر عنصر مجموعه با ضرب کردن هر عدد صحیح در مقدار ۲ است. کد زیر نحوه پیاده‌سازی این کار را با لیست‌ها در پایتون نشان می‌دهد.

این کد به سرعت روی سه آیتم موجود در لیست اجرا می‌شود، اما حلقه به ترتیب هر آیتم موجود در لیست را می‌بینید و جایگزین می‌کند. این روش به لحاظ محاسباتی هنگام کار با مجموعه داده‌های بزرگ بسیار پر هزینه خواهد بود. همچنین، هنگام کار با مجموعه داده‌هایی که در لیست‌های چندبُعدی سازمان یافته‌اند نیز به دلیل آنکه تکرار در این لیست‌ها نیازمند حلقه‌های تو در تو است کارایی را به صورت نمایی کاهش می‌دهد و همچنان عملکرد این روش زیر سوال است. اکنون، عمل مشابهی با استفاده از آرایه NumPy انجام می‌شود.

ضرب ماتریس‌ها

علم داده و «یادگیری ماشین» (Machine Learning) به شدت بر «ریاضیات ماتریس‌ها» (Matrix Arithmetic) تکیه دارند، اما داده‌ها همیشه به شیوه‌ای که امکان محاسبات عنصر به عنصر روی آن‌ها وجود داشته باشد سازمان نیافته‌اند. برنامه نویسان این حوزه‌ها باید توانایی لازم برای انجام محاسبات ضرب ماتریس در پایتون را داشته باشند.

فیلم آموزش محاسبات ماتریسی و برداری در پایتون در فرادرس

کلیک کنید

افرادی که با ضرب ماتریس‌ها آشنا نیستند، به تصویر زیر توجه کنند که در آن نحوه انجام ضرب یک ماتریس 2×4 و 4×3 قابل مشاهده است.

هیچ مساله ریاضیاتی پیچیده‌ای پیرامون ضرب ماتریس‌ها وجود ندارد، اما واضح است که نیاز به جا‌به‌جایی‌های زیادی در هر ٰآرایه وجود دارد. اکنون، ضرب دو ماتریس با استفاده از پایتون انجام می‌شود. در این راستا، ابتدا باید اطمینان حاصل کرد که کار با ماتریس‌های صحیحی آغاز می‌شود. برای ضرب دو ماتریس A و B با ابعاد به ترتیب m×n و k×e، عدد n باید برابر با k باشد. به عبارت دیگر، تعداد سطرها در A باید با تعداد ستون‌ها در B برابر باشد. همچنین، نیاز به دانستن آن است که ماتریس نتایج باید از سایز m×e باشد و بنابراین باید یک آرایه خالی با ابعاد مذکور ساخته شود.

مطلب پیشنهادی:

ضرب در پایتون – نحوه انجام به زبان ساده

شروع مطالعه

در ادامه، راهکار پایتون برای ضرب دو ماتریس که شامل ۶۰۰۰۰ و ۸۰۰۰۰ عدد صحیح هستند نمایش داده شده است.

کد بالا اصطلاحا بسیار کثیف (Dirty Code) محسوب می‌شود. خواندن این کد دشوار است و راهکاری که بر اساس آن بنا شده نیازمند حلقه‌های تو در توی دوگانه و سه‌گانه است که هر یک دارای پیچیدگی زمانی بالا و برابر با (O(n² و (O(n³ هستند. اکنون عمل ضرب دو ماتریس با استفاده از کتابخانه NumPy انجام می‌شود.

(numpy.arange(start, stop یک آرایه NumPy با مقادیر ترتیبی بین مقادیر پاس داده شده به پارامترهای start و stop به جز خود مقدار stop می‌سازد.
(reshape(x, y. یک راهکار آسان برای کاربر جهت بیان اینکه آرایه (matrix) به چه صورت باشد فراهم می‌کند.
(np.matmul(array_1, array_2 کاری را انجام می‌دهد که پیش از این توسط سه حلقه تو در توی سنگین انجام می‌شد.

راهکار Numpy نشان می‌دهد که سه خط کد، کاری را انجام می‌دهد که با استفاده از خود پایتون (بدون استفاده از کتابخانه‌ها) با ۲۲ خط کد امکان‌پذیر بود. زمان اجرا با استفاده از Numpy برابر با ۰.۰۹ درصد زمان اجرای کد پایتون و همچنین دارای قابلیت خوانایی بسیار بالایی است.

چرا NumPy سریع‌تر است؟

بسیاری از ویژگی‌های NumPy به زبان C نوشته شده‌اند. این موضوع به NumPy این امکان را می‌دهد تا آرایه‌هایی از یک نوع را به شدت بسته‌بندی کند، در حالیکه لیست‌های پایتون دارای اشاره‌گرهایی به اشیای منفرد هستند. این یعنی داده در یک آرایه NumPy باید دارای نوع مشابهی باشند، اما در عین حال دسترسی به داده‌ها سریع‌تر است زیرا داده‌های مرتبط با هم در حافظه محلی شده‌اند.

فیلم آموزش برنامه‌نویسی پایتون – پیشرفته در فرادرس

کلیک کنید

پایتون به عنوان یک زبان مفسری با نوع پویا، دارای سربار قابل توجهی حتی برای یک حلقه ساده است، در حالیکه کتابخانه NumPy با پیاده‌سازی C راهکاری برای این مشکل فراهم می‌کند.

نتیجه‌گیری

Numpy ابزاری برای پردازش مجموعه داده‌های عظیم فراهم می‌کند که برای آموزش هر مدل پیش‌بینی حیاتی هستند. ابزارهایی برای یادگیری ماشین و «شبکه‌های عصبی» (Neural Networks) مانند کتابخانه‌های Scikit-learn ،TensorFlow و Pandas به شدت بر کتابخانه Numpy تکیه دارند. بنابراین، به کلیه افرادی که تمایل به فراگیری داده‌کاوی، علم داده و یا یادگیری ماشین دارند، آموختن این کتابخانه اکیدا توصیه می‌شود.

فیلم مجموعه آموزش داده کاوی و یادگیری ماشین – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

اگر مطلب بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۱۳ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

Medium

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

مطالب مرتبط