هوش مصنوعی 88 بازدید

در این مطلب، امتیاز ادراکی (Inception Score) برای ارزیابی GAN‌ها مورد بررسی قرار گرفته است. در این راستا، ابتدا مفهوم امتیاز ادراکی بیان و سپس، چگونگی محاسبه آن مورد بررسی قرار می‌گیرد. در ادامه مطلب، روش پیاده‌سازی امتیاز ادراکی با استفاده از کتابخانه‌های پایتون «نام‌پای» (NumPy) و «کرس» (Keras) بررسی و در نهایت، مشکلات امتیاز ادراکی بیان می‌شود.

امتیاز ادراکی (Inception Score) برای ارزیابی GAN‌ها

«شبکه‌های مولد تخاصمی» (Generative Adversarial Networks | GANs)، یک معماری «شبکه عصبی یادگیری عمیق» (Deep Learning Neural Network) برای آموزش دادن یک مدل مولد جهت تولید تصاویر مصنوعی است. مشکلی که پیرامون مدل‌های مولد وجود دارد آن است که هیچ راه هدفمندی برای ارزیابی کیفیت تصاویر تولید شده توسط آن‌ها، وجود ندارد. متداول است که تصاویر طی فرایند آموزش دادن مدل، به طور دوره‌ای تولید و ذخیره شوند و از عامل انسانی برای ارزیابی تصاویر تولید شده و انتخاب مدل نهایی استفاده می‌شود.

تاکنون، تلاش‌های زیادی برای ایجاد یک سنجه جهت ارزیابی تصاویر تولید شده انجام شده است. یک نمونه اولیه که توسط بخش زیادی نیز پذیرفته شده، «امتیاز ادراکی» (Inception Score | IS) است. در این راهنما، امتیاز ادراکی برای ارزیابی شبکه‌های مولد تخاصمی مورد بررسی قرار گرفته است. همانطور که پیش از این نیز بیان شد، از این امتیاز برای ارزیابی کیفیت تصاویر تولید شده توسط شبکه‌های مولد تخاصمی استفاده می‌شود. در این مطلب، مباحث زیر مورد بررسی قرار خواهند گرفت:

  • روش محاسبه امتیاز ادراکی و بینش نهفته در پس آنچه محاسبه می‌کند.
  • چگونگی پیاده‌سازی امتیاز ادراکی در پایتون با کتابخانه یادگیری عمیق «نام‌پای» (NumPy) و «کرس» (Keras)
  • روش محاسبه امتیاز ادراکی برای تصاویر کوچک مانند مواردی که در مجموعه داده CIFAR-10 وجود دارند.

برای مطالعه بیشتر پیرامون GAN‌ها، مطالعه مطلب «شبکه های مولد تخاصمی (Generative Adversarial Networks) — به زبان ساده» و «آموزش یادگیری ماشین با مثال‌های کاربردی ــ بخش هفتم» توصیه می‌شود. شایان ذکر است که این راهنما، به پنج بخش کلی تقسیم شده است؛ این بخش‌ها عبارتند از:

  • امتیاز ادراکی چیست؟
  • چگونه می‌توان امتیاز ادراکی را محاسبه کرد؟
  • چگونه می‌تواند امتیاز ادراکی را با کتابخانه «نام‌پای» (NumPy) محاسبه کرد؟
  • چگونه می‌توان امتیاز ادراکی را با کتابخانه «کرس» (Keras) پیاده‌سازی کرد؟
  • مشکلات امتیاز ادراکی

امتیاز ادراکی چیست؟

امتیاز ادراکی یا به طور خلاصه IS، یک سنجه – مفعولی – برای ارزیابی کیفیت تصاویر تولید شده، به ویژه تصاویر مصنوعی خروجی مدل‌های شبکه عصبی مولد است. امتیاز ادراکی اولین بار توسط «تیم سالیمانز» (Tim Salimans) و همکاران در  سال ۲۰۱۶، در مقاله‌ای با عنوان «روش‌های بهبود یافته برای آموزش دادن شبکه‌های مولد تخاصمی» (Improved Techniques for Training GANs) منتشر شد. در مقاله مذکور، نویسنده از یک پلتفرم جمع‌سپاری شده (Crowd-Sourcing Platform)، یعنی «Amazon Mechanical Turk» برای ارزیابی تعداد زیادی از تصاویر تولید شده توسط GAN‌ها استفاده کرده است. آن‌ها، امتیاز ادراکی را طی تلاش‌های خود برای حذف ارزیابی عامل انسانی معرفی کردند. نویسندگان این مقاله کشف کرده‌اند که امتیاز به دست آمده توسط آن‌ها، با ارزیابی فاعلی مرتبط است. در کتاب «روش‌های بهبود یافته برای آموزش دادن شبکه‌های مولد تخاصمی» (چاپ ۲۰۱۶)، در این رابطه چنین آمده است:

به عنوان جایگزینی برای حاشیه‌نویسان انسانی، در این مقاله یک روش خودکار برای ارزیابی نمونه‌ها معرفی شده است که ارزیابی حاصل از آن با ارزیابی عامل انسانی همبستگی دارد.

امتیاز ادراکی شامل استفاده از مدل شبکه عصبی یادگیری عمیق از پیش آموزش داده شده برای دسته‌بندی تصاویر، به منظور دسته‌بندی تصاویر تولید شده توسط GAN‌ها می‌شود. به طور مشخص، مدل Inception v3 توسط «کریستین سزگدی» (Christian Szegedy) و همکاران در مقاله‌ای در سال ۲۰۱۵ با عنوان «بازنگری معماری ادراکی برای بینایی کامپیوتری» (Rethinking the Inception Architecture for Computer Vision) معرفی شد. با تکیه بر «مدل ادراکی»، نام «امتیاز ادراکی» نیز برای آن برگزیده شد. تعداد زیادی از تصاویر تولید شده با استفاده از مدل، دسته‌بندی شده‌اند. به طور ویژه، احتمال آنکه یک تصویر به هر کلاس تعلق داشته باشد، پیش‌بینی می‌شود. سپس، این پیش‌بینی‌ها در امتیاز ادراکی خلاصه شده‌اند.

  • کیفیت تصاویر: آیا تصاویر شبیه یه یک شی خاص هستند؟
  • گوناگونی تصویر: آیا طیف وسیعی از اشیا تولید شده‌اند؟

کمترین تعداد کلاس‌هایی که توسط امتیاز ادراکی پشتیبانی می‌شود ۱.۰ و بیشترین میزان آن تعداد کلاس‌هایی است که توسط مدل دسته‌بندی پشتیبانی می‌شود. در این مثال، مدل Inception v3 از ۱۰۰۰ کلاس از مجموعه داده ILSVRC 2012 پشتیبانی می‌کند و بر همین اساس، امتیاز ادراک بالایی برابر ۱,۰۰۰ است. مجموعه داده  CIFAR-10 مجموعه‌ای از ۵۰,۰۰۰ تصویر است که به ۱۰ کلاس از اشیا تقسیم شده‌اند. مقاله اصلی که ادراک را معرفی می‌کند، امتیازی را معرفی می‌کند که روی مجموعه داده آموزش CIFAR-10 محاسبه شده و مقدار آن برابر با 11.24 +/- 0.12 است. با استفاده از مدل GAN، که در این مطلب نیز معرفی شده است، آن‌ها هنگام تولید تصاویر مصنوعی برای این مجموعه داده، به امتیاز ادراکی 8.09 +/- .07 رسیدند.

روش محاسبه امتیاز ادراکی

امتیاز ادراکی ابتدا با استفاده از یک مدل از پیش آموزش داده شده V3 برای پیش‌بینی احتمال کلاس‌ها برای هر یک از تصاویر تولید شده، محاسبه می‌شود. این‌ها، برای مثال برچسب کلاس شرطی روی تصاویر تولید شده، احتمال شرطی هستند. تصاویری که قویا به عنوان یک کلاس و فرای سایر کلاس‌ها دسته‌بندی شده‌اند، کیفیت بالایی را نشان می‌دهند. به همین ترتیب، احتمال شرطی همه تصاویر تولید شده در مجموعه باید دارای «آنتروپی پایین» (Low Entropy) باشد. در کتاب «روش‌های بهبود یافته برای آموزش دادن شبکه‌های مولد تخاصمی» (Improved Techniques for Training GANs)، چاپ سال ۲۰۱۶، در این رابطه چنین آمده است:

تصاویری که حاوی شی معنادار هستند، باید یک توزیع برچسب شرطی (p(y|x با آنتروپی پایین داشته باشند.

آنتروپی به عنوان مجموع منفی هر احتمال مشاهده شده‌ای که با لوگ احتمال ضرب شده است، محاسبه می‌شود. شاهد در اینجا، احتمال‌های بزرگی هستند که نسبت به احتمال‌های کوچک‌تر، دارای اطلاعات کمتری هستند.

  • entropy = -sum(p_i * log(p_i))‎

احتمال شرطی، interest کاربر در کیفیت تصویر را محاسبه می‌کند.

برای ثبت interest کاربر به تصاویر گوناگون، از «احتمال حاشیه‌ای» (Marginal Probability) استفاده می‌شود. این توزیع احتمال همه تصاویر تولید شده است. بنابراین، برای داشتن آنتروپی بالا، «انتگرال توزیع احتمال حاشیه‌ای» (Integral Of The Marginal Probability Distribution) ترجیح داده می‌شود. در کتاب روش‌های بهبود یافته برای آموزش شبکه‌های مولد تخاصمی،‌ در این رابطه چنین آمده است:

علاوه بر این، از مدل انتظار می‌رود که تصاویر متنوعی تولید کند؛ بنابراین، انتگرال حاشیه‌ای p(y|x = G(z))dz باید آنتروپی بالایی داشته باشد.

این عناصر با محاسبه «معیار واگرایی کولبک-لیبلر» (Kullback-Leibler Divergence) یا «واگرایی KL» (آنتروپی نسبی)، بین توزیع احتمال شرطی و احتمال حاشیه‌ای محاسبه می‌شوند.

محاسبه واگرایی بین دو توزیع، با استفاده از عملگر «||» محاسبه می‌شود، بنابراین می‌تواند گفت که interest بر واگرایی بین C برای شرطی و M برای توزیع حاشیه‌ای یا KL (C || M)‎ است. به طور خاص، interest بر میانگین واگرایی KL برای همه تصاویر تولید شده است. در کتابی که پیش‌تر به ان اشاره شد، در این رابطه، چنین بیان شده است:

با ترکیب این دو نیازمندی، سنجه‌ای که معرفی می‌شود exp(Ex KL(p(y|x)||p(y)))‎ است.

نیازی به ترجمه محاسبات امتیاز ادراکی نیست. خوشبختانه، نویسندگان مقاله کد منبع این مورد را نیز منتشر کرده‌اند که حاوی پیاده‌سازی امتیاز ادراکی نیز هست.

کد پیاده‌سازی امتیاز ادراکی

در محاسبه امتیاز، تعداد زیادی از تصاویر برای رنجی از اشیا، مثلا ۵۰,۰۰۰ محاسبه می‌شوند. تصاویر به ۱۰ دسته، برای مثال ۵,۰۰۰ تصویر به ازای هر گروه، تقسیم می‌شوند و امتیاز ادراکی روی هر گروه از تصاویر محاسبه می‌شود. سپس، انحراف میانگین و استاندارد از امتیاز، محاسبه می‌شود. محاسبه امتیاز ادراکی روی گروهی از تصاویر، شامل استفاده از مدل inception v3 برای محاسبه احتمال شرطی برای هر تصویر می‌شود ((p(y). سپس، واگرایی KL برای هر تصویر به صورتی که در رابطه زیر آمده است، محاسبه می‌شود.

KL divergence = p(y|x) * (log(p(y|x)) – log(p(y)))‎

در رابطه بالا، احتمال شرطی در لگاریتم احتمال شرطی ضرب شده و لگاریتم احتمال حاشیه‌ای از آن تفریق شده است. سپس، واگرایی KL برای همه تصاویر محاسبه شده و میانگین آن برای همه کلاس‌ها محاسبه می‌شود و توان دو نتیجه برای دادن نتیجه نهایی محاسبه می‌شود. این، پیاده‌سازی رسمی امتیاز ادراکی رسمی را تعریف می‌کند که در اغلب مقالات از آن استفاده شده است. هر چند، تنوعی در روش محاسبه این امتیاز وجود دارد و در برخی از مقالات، از روش‌های دیگری برای محاسبه آن استفاده شده است.

روش پیاده‌سازی امتیاز ادراکی با نام‌پای

پیاده‌سازی محاسبه امتیاز ادراکی در پایتون با استفاده از آرایه‌های نام‌پای (NumPy) کار ساده‌ای است. ابتدا، تابعی تعریف می‌شود که مجموعه‌ای از احتمال‌های شرطی را دریافت و امتیاز ادراکی را محاسبه می‌کند. تابع calculate_inception_score()‎ که در ادامه آمده است، این روال را پیاده‌سازی می‌کند. یک تغییر کوچک، تعریف یک اپسیلون (یک عدد کوچک نزدیک به صفر) برای هنگامی است که احتمال‌های لگاریتمی محاسبه می‌شوند. این کار برای جلوگیری از مشکل، در هنگام محاسبه لگاریتم احتمال صفر انجام می‌شود. این احتمال در عمل مورد نیاز نیست (برای مثال، با داده‌های تولید شده واقعی)، اما در اینجا مفید است و اقدام خوبی هنگام کار با احتمال‌های لگاریتمی محسوب می‌شود.

می‌توان این تابع را برای محاسبه امتیاز ادراکی برای برخی از احتمالات شرطی تعبیه شده، استفاده کرد. همچنین، می‌توان شرایطی را تصور کرد که سه کلاس از تصاویر و یک پیش‌بینی مطمئن کامل برای هر کلاس برای سه تصویر وجود دارد.

انتظار می‌رود که امتیاز ادراکی برای این مثال برابر با 3.0 (یا بسیار نزدیک به آن) باشد. این امر بدین دلیل است که عدد مشابهی از تصاویر برای هر کلاس وجود دارد (یک تصویر برای هر سه کلاس) و هر احتمال شرطی به طور بیشینه‌ای مطمئن است. مثال کامل برای محاسبه امتیاز ادراکی برای این احتمال‌ها در ادامه آمده است.

با اجرای مثال بالا، امتیاز ادراکی ۳.۰ (یا عددی بسیار نزدیک به آن) در خروجی چاپ می‌شود.

2.999999999999999

می‌توان بدترین شرایط را نیز آزمود. این، همان جایی است که همچنان عدد مشابهی از تصاویر برای هر کلاس وجود دارد (یکی برای هر یک از این سه کلاس)، اما اشیا ناشناخته هستند، و یک توزیع احتمال پیش‌بینی شده یکنواخت برای هر کلاس به دست می‌دهد.

در این شرایط، انتظار می‌رود که امتیاز ادراکی بدترین حالت ممکن باشد که در آن هیچ تفاوتی بین توزیع‌های شرطی و حاشیه‌ای نباشد؛ برای مثال، امتیاز ادراکی 1.0. با یکپارچه کردن همه این موارد در کنار هم، مثال کامل به صورت زیر خواهد بود.

با اجرای مثال بالا، امتیاز ادراکی ۱.۰ حاصل می‌شود.

1.0

مخاطبان می‌توانند در صورت تمایل، این روش محاسبه امتیاز ادراکی را مورد بررسی بیشتر قرار دهند و آزمون‌های آسیب‌شناسی را روی آن انجام دهند.

روش پیاده‌سازی امتیاز ادراکی با کرس

اکنون که روش محاسبه امتیاز ادراکی و چگونگی پیاده‌سازی آن در نام‌پای مشخص است، می‌توان پیاده‌سازی را در کرس توسعه داد. این کار شامل استفاده از مدل Inception v3 برای دسته‌بندی تصاویر و محاسبه میانگین امتیاز در بخش‌های مختلف مجموعه تصاویر است. ابتدا، می‌توان مدل Inception v3 را به طور مستقیم در Keras بارگذاری کرد.

مدل، انتظار دارد که تصاویر رنگی و دارای ابعاد 299×299 پیکسل باشند. علاوه بر آن، مقادیر پیکسل باید به شیوه‌ای مشابه با روش مورد استفاده برای داده‌های آموزش، مقایس‌دهی شوند. این مورد با تبدیل مقادیر پیکسل‌ها از عدد صحیح به مقادیر اعشاری و سپس، فراخوانی تابع preprocess_input()‎ برای تصاویر، قابل حصول است.

سپس، احتمال شرطی برای هر یک از ۱,۰۰۰ دسته تصویر، ممکن است برای این تصاویر پیش‌بینی شود.

امتیاز ادراکی به طور مستقیم و به روشی که در بخش پیشین انجام شد، روی آرایه نام‌پای از احتمال‌ها قابل محاسبه است. پیش از انجام این کار، باید احتمال‌های شرطی را در گروه‌هایی تقسیم کرد که به وسیله آرگومان n_split کنترل می‌شود و روی مقدار پیش‌فرض ۱۰ که در مقاله اصلی نیز استفاده شده بود، تنظیم می‌شود.

می‌توان احتمال شرطی را در بلوک‌هایی از تصاویر یا پیش‌بینی‌های n_part برشمرد و امتیاز ادراکی را محاسبه کرد.

پس از محاسبه امتیاز ادراکی برای هر بخش از احتمال‌های شرطی، می‌توان امتیاز ادراکی میانگین و انحراف معیار را محاسبه کرد.

با کنار هم قرار دادن همه این موارد، تابع calculate_inception_score()‎ که در ادامه آمده است، یک آرایه از تصاویر را با سایز و مقدار پیکسل مورد انتظار در [0,255] می‌گیرد و امتیاز ادراکی انحراف معیار و میانگین را با استفاده از مدل inception v3 در کرس محاسبه می‌کند.

این تابع را می‌توان با ۵۰ تصویر مصنوعی با مقدار 1.0 برای همه پیکسل‌ها، آزمود.

این مورد می‌تواند امتیاز را برای هر گروه پنج‌تایی از تصاویر محاسبه کند. کیفیت پایین حاکی از آن است که امتیاز ادراکی 1.0 در خروجی حاصل خواهد شد. مثال کامل، در ادامه آورده شده است.

پس از اجرای مثال بالا، ابتدا ۵۰ تصویر جعلی تعریف می‌شوند؛ سپس، امتیاز ادراکی برای هر دسته محاسبه می‌شود و امتیاز ادراکی مورد انتظار 1.0 و انحراف معیار 0.0 ارائه می‌شود.

نکته: اولین باری که مدل InceptionV3 استفاده شده است، کرس، وزن‌های مدل را دانلود و آن‌ها را در پوشهkeras/models/ ‎./~ در ایستگاه کاری کاربر ذخیره می‌کند. وزن‌ها در حدود ۱۰۰ مگابایت هستند و ممکن است دانلود آن‌ها بسته به سرعت اینترنت کاربر، دقایقی طول بکشد.

می‌توان محاسبه امتیاز ادراکی را روی داده‌های واقعی نیز آزمود. «رابط برنامه‌نویسی کاربردی کرس» (Keras API) امکان دسترسی به مجموعه داده CIFAR-10 را فراهم می‌کند. این موارد، تصاویر رنگی با سایز کوچک و 32×32 پیکسل هستند. ابتدا، می‌توان تصاویر را به گروه‌هایی تقسیم کرد. سپس، تصاویر به ابعاد مورد انتظار 299×299 «بزرگ‌نمایی» (Upsample) می‌شود؛ مقادیر پیکسل‌ها پیش‌پردازش می‌شوند، احتمال کلاس پیش‌بینی می‌شود و سپس، امتیاز ادراکی محاسبه می‌شود. این یک مثال مفید برای محاسبه امتیاز ادراکی روی تصاویر تولید شده خود کاربر است؛ زیرا کاربر باید تصاویر را به اندازه مورد انتظار برای مدل inception v3 مقیاس‌دهی کند یا مدل را به صورتی تغییر دهد که کار بزرگ‌نمایی را انجام دهد. ابتدا، تصاویر را می‌توان بارگذاری و مخلوط کرد تا اطمینان حاصل شود که هر بخش یک مجموعه از کلاس‌ها را پوشش می‌دهد.

سپس، نیاز به راهی برای مقیاس‌دهی به تصاویر است. از کتابخانه «سایکیت-ایمیج» (Scikit-Image) برای تغییر اندازه آرایه نام‌پای برای مقادیر پیکسل‌ها به اندازه مورد انتظار، استفاده می‌شود. تابع scale_images()‎ که در زیر آمده است، این کار را پیاده‌سازی می‌کند.

شایان توجه است که کاربر ممکن است کتابخانه «سایکیت‌لرن» (Scikit-Learn) را در صورتی که پیش از این نصب نشده باشد، نصب کند. این کار با استفاده از دستور زیر قابل انجام است. سپس، می‌توان تعداد دسته‌ها را شمرد، یک زیرمجموعه از تصاویر را انتخاب کرد، آن‌ها را مقیاس و پیش‌پردازش کرد و از آن‌ها برای پیش‌بینی احتمال‌های کلاس شرطی استفاده کرد.

سایر محاسبات لازم برای امتیاز ادراکی، مشابه موارد پیشین است. با آزمودن همه این موارد در کنار هم، مثال کامل برای محاسبه امتیاز ادراکی روی مجموعه داده CIFAR واقعی، در زیر آمده است. بر اساس محاسبات مشابهی که در مقاله امتیاز ادراکی پایه گزارش شده است، انتظار می‌رود که امتیاز گزارش شده روی این مجموعه داده، تقریبا ۱۱ باشد. به طور جالبی، بهترین امتیاز ادراکی برای CIFAR-10 با تصاویر تولید شده، نزدیک به 8.8 برای تصاویر تولید شده با یک GAN در حال رشد مترقی است.

با اجرای مثال بالا، مجموعه داده بارگذاری و مدل آماده می‌شود. همچنین، امتیاز ادراکی روی مجموعه داده تست CIFAR-10 محاسبه می‌شود. می‌توان مشاهده کرد که امتیاز 11.3 است که بسیار نزدیک به انتظار مورد انتظار 11.24 است.

تذکر: اولین باری که مجموعه داده CIFAR-10 مورد استفاده قرار بگیرد، کرس تصاویر را در قالب فشرده شده محاسبه و آن‌ها را در پوشه /keras/datasets./~ ذخیره می‌کند. دانلود در حدود ۱۶۱ مگابایت است و ممکن است بر مبنای سرعت اینترنت، دقایقی طول بکشد.

مشکلات موجود پیرامون امتیاز ادراکی

امتیاز ادراکی مفید است، اما عالی نیست. به طور کلی، امتیاز ادراکی برای تصاویر تولید شده از یک شی شناخته شده برای مدل مفید است تا احتمال کلاس شرطی محاسبه شود. در این شرایط، به دلیل آنکه مدل ادراکی V3 استفاده شده است، این یعنی برای ۱,۰۰۰ نوع شی استفاده شده در مجموعه داده  ILSVRC 2012 [+] مفید است. این تعداد کلاس بسیار زیاد است، اما همه شی‌هایی که ممکن است برای کاربر interest داشته باشند نیست. می‌توان لیست کامل کلاس‌ها را از اینجا [+] مشاهده کرد.

همچنین، نیازمند آن است که تصاویر مربعی و دارای سایز نسبتا کوچکی در حدود 300×300 پیکسل باشند و شامل هر مقایسی است که برای بردن تصاویر مورد نظر به آن سایز نیاز می‌شود. یک امتیاز خوب، نیاز به داشتن توزیع خوبی از تصاویر تولید شده در سراسر اشیای پشتیبانی شده توسط مدل است و به یک عدد از نمونه‌ها برای هر کلاس نیاز دارد. این امر می‌تواند کنترل این موضوع برای بسیاری از مدل‌های GAN که کنترل برای انواع اشیای تولید شده ارائه نمی‌کنند، ممکن است دشوار باشد.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

الهام حصارکی (+)

«الهام حصارکی»، فارغ‌التحصیل مقطع کارشناسی ارشد مهندسی فناوری اطلاعات، گرایش سیستم‌های اطلاعات مدیریت است. او در زمینه هوش مصنوعی و داده‌کاوی، به ویژه تحلیل شبکه‌های اجتماعی، فعالیت می‌کند.

بر اساس رای 1 نفر

آیا این مطلب برای شما مفید بود؟

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *