چارچوبی برای یادگیری تقویتی (Reinforcement Learning) توسط گوگل

۲۱۳ بازدید
آخرین به‌روزرسانی: ۸ مرداد ۱۴۰۲
زمان مطالعه: ۴ دقیقه
دانلود PDF مقاله
چارچوبی برای یادگیری تقویتی (Reinforcement Learning) توسط گوگل

تیم «گوگل برین» (Google Brain) از یک چارچوب یادگیری تقویتی دارای «انعطاف‌پذیری» (Flexiblity) و «بازتولیدپذیری» (Reproducibility) با عنوان «دوپامین» (Dopamine) رونمایی کرد. این چارچوب طی خبری که در وبلاگ هوش مصنوعی گوگل منتشر شد به همگان معرفی شده است. لازم به ذکر است که گوگل برین یک پروژه تحقیقاتی در حوزه هوش مصنوعی متعلق به شرکت گوگل است که از سال ۲۰۱۱ فعالیت خود را آغاز کرده و تاکنون پیشرفت‌های قابل توجهی داشته. متن خبر منتشر شده در وبلاگ هوش مصنوعی گوگل در ادامه آمده است.

997696

پژوهش‌های «یادگیری تقویتی» (Reinforcement learning) پیشرفت‌های قابل توجهی را در طول سال‌های گذشته به همراه داشته است. این پیشرفت‌ها به «عامل‌های هوشمند» (Intelligent Agent) امکان انجام بازی در سطح «ابَرانسان‌ها» (super-human) را می‌دهند.

از جمله مثال‌های قابل توجه برای این پیشرفت‌ها می‌توان به DQN ساخته شده توسط «دیپ‌مایند» (DeepMind) که همراه با «آلفاگو» (AlphaGo) و «آلفاگو زیرو» (AlphaGo Zero) بازی‌های «آتاری» (Atari) را انجام داده‌اند و OpenAI Five که بازی‌های کامپیوتری از جمله Dota 2 را انجام داده اشاره کرد. به ویژه، معرفی «حافظه‌های بازپخش» (Replay Memories) در DQN که امکان بهره‌برداری از تجربه عامل قبلی را فراهم می‌سازند، آموزش توزیع شده بزرگ مقیاس که توزیع فرآیند یادگیری در میان چندین کارگر را مقدور می‌کند، و روش‌های توزیع شده که به عامل امکان مدل کردن توزیع‌های کامل به جای آنکه صرفا مقادیر مورد انتظار آن‌ها را مدل کنند را به منظور یادگیری تصویر کامل‌تری از جهانشان فراهم می‌کند اشاره کرد.

چنین پیشرفت‌هایی حائز اهمیت هستند و با دست یافتن الگوریتم‌ها به چنین پیشرفت‌هایی، قابل اعمال بر حوزه‌های کاربرد گوناگون مانند رباتیک می‌شوند (مطالعه کارهای اخیر در زمینه دستکاری رباتیک و آموزش دادن ربات‌ها برای خود-تطبیقی به صورت بصری توصیه می‌شود). اغلب اوقات، ساخت و توسعه چنین پیشرفت‌هایی نیازمند تکرار سریع طراحی (اغلب بدون هیچ‌گونه جهت مشخصی) و درهم‌گسیختگی ساختار روش‌های ایجاد شده است.

اگرچه چارچوب‌های یادگیری تقویتی پیشین موجود فاقد ترکیبی از انعطاف‌پذیری و پایداری که پژوهشگران را قادر به تکرار روش‌های یادگیری تقویتی به طور موثر می‌کند بودند و بنابراین امکان داشت اکتشاف جهت‌های پژوهشی جدید مزایای مشهود سریعی نداشته باشند. علاوه بر این، بازتولید نتایج از چارچوب‌های کنونی اغلب بسیار زمان‌بر است و در عین حال می‌تواند منجر به مشکلات بازتولیدپذیری علمی شود.

گوگل برین تیم
۱. گوگل طی سال‌های اخیر سرمایه‌گذاری قابل توجهی در زمینه هوش مصنوعی کرده است.

در ۲۷ آگوست ۲۰۱۸، گوگل یک چارچوب مبتنی بر «تنسورفلو» (TensorFlow) برای یادگیری تقویتی ارائه کرد که هدف آن فراهم کردن انعطاف‌پذیری، پایداری و بازتولیدپذیری هم برای پژوهشگران تازه‌کار و هم افراد دارای تجربه یادگیری در این حوزه است. این چارچوب از یکی از مولفه‌های اصلی در رفتار انگیزشی با پاداش در مغز الهام گرفته شده است و ارتباط تاریخی قدرتمندی بین پژوهش‌های «علوم اعصاب» (neuroscience) و یادگیری تقویتی برقرار می‌کند.

هدف این پلتفرم امکان‌پذیر ساختن نوعی جست‌و‌جوی نظری است که می‌تواند اکتشافات رادیکال را انجام دهد. همچنین، این نسخه از چارچوب دربرگیرنده مجموعه‌ای از colab‌ها است که چگونگی استفاده از این چارچوب را شفاف می‌کنند.

کاربردپذیری

شفافیت و سادگی دو مورد از ملاحظات مهم چارچوب معرفی شده هستند.

کد این چارچوب به صورت فشرده (در حدود ۱۵ فایل پایتون) و به خوبی مستند شده است. این امر با تمرکز بر «Arcade Learning Environment» (یک بنچ‌مارک بالغ و به خوبی درک شده) و چهار عامل «مبتنی بر مقدار» (value-based) شامل DQN و C51، انواع با دقت ساده شده‌ای از «عامل رینبو» (Rainbow agent) و عامل «Implicit Quantile Network » که طی «کنفرانس بین‌المللی یادگیری ماشین» (International Conference on Machine Learning) در جولای ۲۰۱۸ معرفی شد به دست آمده است. گوگل امیدوار است سادگی این چارچوب درک کارکردهای داخلی عامل و آزمودن سریع ایده‌های جدید را برای پژوهشگران تسهیل کند.

بازتولیدپذیری

گوگل در این پروژه حساسیت قابل توجهی بر بازتولیدپذیری در پژوهش یادگیری تقویتی داشته است. به همین منظور کدهای آن با پوشش تمام تست فراهم شده‌اند و این تست‌ها خود به صورت مستندات افزوده‌ای وجود دارند. علاوه بر این، چارچوب تجربی گوگل از توصیه‌های ارائه شده توسط «موکادو» (Machado) و همکاران در سال ۲۰۱۸ پیرامون استانداردسازی ارزیابی تجربی با Arcade Learning Environment پیروی می‌کند.

معیار سنجش (بنچمارک)

برای پژوهشگران جدید داشتن توانایی بنچ‌مارک سریع ایده‌هایشان برای روش‌های ایجاد شده مساله مهمی است. از این رو، گوگل کل داده‌های آموزش چهار عامل خود را در طول ۶۰ بازی پشتیبانی شده توسط Arcade Learning Environment (برای عامل‌های آموزش دیده با چارچوب خود ) و به صورت فایل داده JSON (برای مقایسه با عامل‌های آموزش دیده در دیگر چارچوب‌ها) را ارائه کرده است.

همچنین، یک وب‌سایت آماده کرده‌اند که با استفاده از آن می‌توان به سرعت اجراهای آموزش را برای همه عامل‌های آموزش دیده در همه ۶۰ بازی بصری کرد. در شکل زیر اجراهای آموزش برای ۴ عامل در Seaquest که یکی از بازی‌های آتاری ۲۶۰۰ است و توسط Arcade Learning Environment پشتیبانی می‌شود ارائه شده‌اند.

نمودار اجراهای آموزش برای عامل‌ها
۱. اجراهای آموزش برای هر ۴ عامل در بازی Seaquest. محور X تکرارها را نمایش می‌دهد که در آن هر تکرار یک میلیون فریم بازی است (۴.۵ ساعت بازی زمان واقعی). محور Y متوسط امتیازی است که در هر بازی به دست می‌آید. ناحیه سایه زده شده بازه‌های اطمینان از ۵ اجرای مستقل را نمایش می‌دهد.

همچنین، شبکه‌های عصبی عمیق، لوگ‌های آماری خام و فایل‌های رویداد تنسورفلو برای ترسیم نمودار با Tensorboard فراهم شده‌اند. همه این موارد در قسمت دانلود سایت گوگل موجود است. گوگل امیدوار است انعطاف‌پذیری و کاربردپذیری چارچوب ارائه شده پژوهشگران را برای آزمودن ایده‌های جدید، چه به صورت افزایشی و چه به صورت رادیکال قدرت ببخشد. تیم Brain گوگل همچنین اعلام کرده که فعالانه از این چارچوب برای پژوهش‌های خود استفاده می‌کند و دریافته که انعطاف‌پذیری که این چارچوب در اختیار آن‌ها قرار می‌دهد امکان تکرار سریع ایده‌های بسیاری را فراهم می‌کند. این تیم همچنین در مطلبی که در وبلاگ گوگل منتشر کرده می‌گوید مشتاق دیدن کارهایی است که جامعه بزرگ‌تر با استفاده از این چارچوب انجام خواهند داد. علاقمندان می‌توانند مخزن گیت‌هاب این پروژه را چک کرده، با آن کار کنند و نظرات خود را به اطلاع تیم برسانند.

تیم پروژه

این پروژه با همکاری افراد گوناگونی در گوگل انجام شده است. تیم اصلی این پروژه متشکل از «مارک جی بلمر» (Marc G. Bellemare)، «پابلو ساموئل کسترو» (Pablo Samuel Castro)، «کرلس گلادا» (Carles Gelada)، «سابهودیپ مویترا» (Subhodeep Moitra) و «سوراب کومار» (Saurabh Kumar) است. همچنین تیم پروژه از افرادی که به آن‌ها در تست این چارچوب یاری کرده‌اند قدردانی کرده است.

اگر نوشته بالا برای شما مفید بود، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۱ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
وبلاگ هوش مصنوعی گوگل
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *