بازشناسی تصویر با Keras و شبکه های عصبی پیچشی — راهنمای کاربردی

۲۹۳ بازدید
آخرین به‌روزرسانی: ۱۷ تیر ۱۴۰۲
زمان مطالعه: ۴ دقیقه
بازشناسی تصویر با Keras و شبکه های عصبی پیچشی — راهنمای کاربردی

«بازشناسی تصویر» (Image Recognition) و «دسته‌بندی» (classification) زمینه‌های در حال رشد در حوزه «یادگیری ماشین» (Machine Learning) محسوب می‌شوند. به طور کلی، «بازشناسی شی» (Object Recognition)، یک ویژگی کلیدی در دسته‌بندی تصاویر به شمار می‌آید و فرصت‌های تجاری برای این حوزه بسیار گسترده است. برای مثال، از دسته‌بندی تصاویر با اهداف زیر استفاده خواهد شد.

  • جایگزینی «گذرواژه» (Password) با «بازشناسی چهره» (Facial Recognition)
  • فراهم آوردن امکان تشخیص مانع برای وسایل نقلیه خودکار
  • شناسایی ویژگی‌های جغرافیایی از تصاویر ماهواره‌ای

موارد بیان شده تنها برخی از مثال‌های متعددی هستند که نشان می‌دهد دسته‌بندی تصاویر چگونه آینده جهانی که بشر در آن زندگی می‌کند را تغییر خواهد داد. در ادامه، نحوه ساخت یک «دسته‌بند» (Classifier) تصاویر آموزش داده می‌شود.

دسته‌بندی تصاویر: خودروها و هواپیماها

در این مثال، دسته‌بندی تصاویر با استفاده از کتابخانه Keras انجام شده است. به طور مشخص، Keras برای ایجاد تمایز بین خودرو و هواپیما آموزش داده می‌شود. در ادامه، دو تصویری که انتظار می‌رود مدل بتواند آن‌ها را از هم تفکیک کند ارائه شده‌اند.

تشخیص تصویر با کتابخانه Keras
(Car (7813125.jpg
تشخیص تصویر با Keras
(Plane (56315795.jpg

این مثال نسبتا ساده است و بنابراین از ۱۰۰ تصویر برای آموزش مدل استفاده شده است (۸۰ داده آموزش، ۲۰ داده آزمون). اگر هدف ساخت یک برنامه کاربردی باشد که بتواند چهره‌ها را با درجه بالایی از صحت شناسایی کند، نیاز به تصاویر بیشتری (صدها یا هزاران تصویر) دارد، زیرا شناسایی اشخاص از روی چهره آن‌ها نسبت به شناسایی دو شی (در اینجا یک خودرو و یک هواپیما) کار دشوارتری است.

در راستای حل مساله مطرح شده، ابتدا کتابخانه‌های مورد نیاز «وارد» (Import) می‌شوند.

1from keras.layers import Conv2D
2from keras.layers import Dense
3from keras.layers import Flatten
4from keras.preprocessing import image
5from keras.layers import MaxPooling2D
6from keras.models import Sequential
7import numpy as np

اکنون، آنچه «شبکه عصبی پیچشی» (convolutional neural network | CNN) نام دارد، راه‌اندازی می‌شود.

شبکه عصبی پیچشی چیست؟

«شبکه عصبی پیچشی» (Convolutional Neural Network) نوع خاصی از شبکه‌های عصبی است که برای تحلیل تصاویر بصری مورد استفاده قرار می‌گیرد.

  • ابتدا، «پیچش» (Convolution) امکان استخراج ویژگی‌های مناسب را از تصاویر ورودی فراهم می‌کند.
  • در ادامه، «تجمع» (Pooling) امکان کاهشی ابعاد نقشه ویژگی‌ها را به منظور حفظ مهم‌ترین اطلاعات فراهم می‌کند.
  • «مسطح کردن» (ٰFlattening) امکان سازمان‌دهی حجم‌های سه‌بُعدی را در یک‌بُعد فراهم می‌کند.
  • شکل دادن لایه‌های کاملا متصل امکان حصول اطمینان از اتصال به همه فعال‌سازی‌ها در لایه پیشین را فراهم می‌کند.

در ادامه، فرایند بیان شده پیاده‌سازی می‌شود.

1classifier = Sequential()
2classifier.add(Conv2D(32, (3, 3), input_shape=(64, 64, 3),
3               activation='relu'))
4classifier.add(MaxPooling2D(pool_size=(2, 2)))
5
6classifier.add(Conv2D(32, (3, 3), activation='relu'))
7classifier.add(MaxPooling2D(pool_size=(2, 2)))
8classifier.add(Flatten())
9
10classifier.add(Dense(units=128, activation='relu'))
11classifier.add(Dense(units=1, activation='sigmoid'))

اکنون، می‌توان CNN را کامپایل کرد و دسته‌بند را آموزش داد. در اینجا از binary_crossentropy به عنوان «تابع زیان» (Loss Function) استفاده می‌شود. دلیل انتخاب «آنتروپی متقاطع دودویی» (Binary Crossentropy)، آن است که تصاویر بر پایه صفر و یک هستند، برای مثال  0 = car و 1 = plane. هنگامی که به «زیان» (Loss) ارجاع داده می‌شود، منظور درجه خطا در مدل است، شایان ذکر است که زیان بیشتر به معنای وجود خطای دسته‌بندی بیشتر است.

آموزش دسته‌بندی

اکنون زمان آن رسیده که CNN را کامپایل و دسته‌بند را آموزش داد. در اینجا، ۲۰ دوره (۲۰ پاس رو به عقب و رو به جلو که برای آموزش وزن‌های شبکه عصبی مورد استفاده قرار می‌گیرد) در طول ۸۰ گام انتخاب می‌شود.

1classifier.compile(optimizer='adam', loss='binary_crossentropy',
2                   metrics=['accuracy'])
3from keras.preprocessing.image import ImageDataGenerator
4train_imagedata = ImageDataGenerator(rescale=1. / 255, shear_range=0.2,
5        zoom_range=0.2, horizontal_flip=True)
6test_imagedata = ImageDataGenerator(rescale=1. / 255)
7training_set = \
8    train_imagedata.flow_from_directory('/home/directory/image classification/data/training_set'
9        , target_size=(64, 64), batch_size=32, class_mode='binary')
10test_set = \
11    test_imagedata.flow_from_directory('/home/directory/image classification/data/test_set'
12        , target_size=(64, 64), batch_size=32, class_mode='binary')
13history=classifier.fit_generator(training_set, steps_per_epoch=80, epochs=20,
14                         validation_data=test_set,
15                         validation_steps=80)

اکنون که مدل آموزش دید، می‌توان زیان و صحت مدل را در طول ۲۰ دوره ترسیم کرد.

1import matplotlib.pyplot as plt
2print(history.history.keys())
3# Loss
4plt.plot(history.history['loss'])
5plt.plot(history.history['val_loss'])
6plt.title('model loss')
7plt.ylabel('loss')
8plt.xlabel('epoch')
9plt.legend(['loss', 'val_loss'], loc='upper left')
10plt.show()
11# Accuracy
12plt.plot(history.history['acc'])
13plt.plot(history.history['val_acc'])
14plt.title('model accuracy')
15plt.ylabel('accuracy')
16plt.xlabel('epoch')
17plt.legend(['acc', 'val_acc'], loc='upper left')
18plt.show()

در ادامه، تصویر نمودار ارائه شده است.

تشخیص تصویر با شبکه عصبی پیچشی
صحت مدل
زیان مدل
زیان مدل

در این مثال، می‌توان مشاهده کرد که زیان و صحت، بین دوره دو و سه، به ترتیب کمینه و بیشینه شده‌اند. بنابراین، مدل مجددا با دو دوره به جای بیست دوره، آموزش داده می‌شود.

با توجه به آنکه در اینجا با داده‌های کاملا ساده‌ای کار می‌شود، تنها نیاز به دو دوره برای آموزش دادن مدل به صورت موفقیت‌آمیز است. شایان توجه است که دوره‌های بیشتر منجر به بیش برازش می‌شوند.

1classifier.compile(optimizer='adam', loss='binary_crossentropy',
2                   metrics=['accuracy'])
3from keras.preprocessing.image import ImageDataGenerator
4train_imagedata = ImageDataGenerator(rescale=1. / 255, shear_range=0.2,
5        zoom_range=0.2, horizontal_flip=True)
6test_imagedata = ImageDataGenerator(rescale=1. / 255)
7training_set = \
8    train_imagedata.flow_from_directory('/home/directory/image classification/data/training_set'
9        , target_size=(64, 64), batch_size=32, class_mode='binary')
10test_set = \
11    test_imagedata.flow_from_directory('/home/directory/image classification/data/test_set'
12        , target_size=(64, 64), batch_size=32, class_mode='binary')
13history=classifier.fit_generator(training_set, steps_per_epoch=80, epochs=2,
14                         validation_data=test_set,
15                         validation_steps=80)

دسته‌بندی تصویر

پس از آموزش مجدد، می‌توان از تصاویر دیده نشده یک خودرو و یک هواپیما برای آزمودن مدل استفاده کرد.

در این مثال، هنگامی که تصویر خودرو به مدل داده می‌شود، مدل به درستی آن را به عنوان «۰» (خودرو) تشخیص می‌دهد.

1>>> test_image = \
2...     image.load_img('/home/directory/image classification/data/7813125.jpg'
3...                    , target_size=(64, 64))
4>>> test_image = image.img_to_array(test_image)
5>>> test_image = np.expand_dims(test_image, axis=0)
6>>> result = classifier.predict(test_image)
7>>> training_set.class_indices
8{'cars': 0, 'planes': 1}
9>>> result
10array([[0.]], dtype=float32)

اکنون، تصویر هواپیما به مدل داده می‌شود تا از این جهت نیز ارزیابی شود.

1>>> test_image = \
2...     image.load_img('/home/directory/image classification/data/56315795.jpg'
3...                    , target_size=(64, 64))
4>>> test_image = image.img_to_array(test_image)
5>>> test_image = np.expand_dims(test_image, axis=0)
6>>> result = classifier.predict(test_image)
7>>> training_set.class_indices
8{'cars': 0, 'planes': 1}
9>>> result
10array([[1.]], dtype=float32)

این بار، دسته‌بند به درستی تصویر هواپیما را تشخیص داد.

نتیجه‌گیری

در این راهنما چگونگی ساخت یک شبکه عصبی پیچشی و آموزش دادن آن برای دسته‌بندی تصاویر بیان شد. همچنین، روش ارزیابی صحت دسته‌بندی نیز مورد بررسی قرار گرفت.

اگر نوشته بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۲ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *