روش های تولید دیپ فیک (جعل عمیق) و ساختار آنها – راهنمای جامع

۳۹۷۹ بازدید
آخرین به‌روزرسانی: ۲۰ تیر ۱۴۰۲
زمان مطالعه: ۲۱ دقیقه
دانلود PDF مقاله
روش های تولید دیپ فیک (جعل عمیق) و ساختار آنها – راهنمای جامعروش های تولید دیپ فیک (جعل عمیق) و ساختار آنها – راهنمای جامع

اگر اخبار دنیای فناوری را در یک سال اخیر دنبال کرده باشید، به احتمال زیاد با اصطلاح «دیپ فیک» (DeepFake | جعل عمیق) آشنا شده‌اید. سیستم‌های دیپ فیک (جعل عمیق) ‌که سیستم‌های مبتنی بر «یادگیری عمیق» (Deep Learning) و «یادگیری ماشین» (Machine Learning) محسوب می‌شوند، در نگاه اول شاید فناوری سرگرم کننده‌ای به نظر برسند، با این حال، با بررسی دقیق کاربرد آن‌ها می‌توان دریافت از این دسته از فناوری‌ها برای جابجایی چهره افراد مختلف و «تحریف کردن» (Doctoring) فایل‌های ویدیوئی مورد استفاده قرار می‌گیرند.

997696

در چند سال اخیر، شاهد ظهور فناوری‌های هوشمند و در عین خطرناکی در سطح اینترنت هستیم؛ به جرأت می‌توان گفت که از میان فناوری‌های ترسناک و خطرناک موجود در سطح اینترنت، قابلیت گول زدن افراد با محتویات جعلی و غیر واقعی توسط دیپ فیک (جعل عمیق)، یکی از رعب‌آورترین سناریوهای استفاده از فناوری‌های مبتنی بر هوش مصنوعی محسوب می‌شود. تمامی فناوری‌ها این قابلیت را دارند که برای مقاصد خصمانه یا مفید مورد استفاده قرار بگیرند، فناوری‌های دیپ فیک (جعل عمیق) نیز از این قاعده مستثنی نیستند و علاوه بر کاربردهای خصمانه، پتانسیل استفاده در کاربردهای مفید (نظیر تجاری) را دارند.

اصطلاح دیپ فیک به ویدئوها و صداهای جعلی و تولید شده به وسیله کامپیوتر اطلاق می‌شود که متمایز ساختن آن‌ها از محتویات واقعی (Genuine) و بدون تغییر (Unaltered) بسیار سخت است. فناوری‌های دیپ فیک جهت تغییر فایل‌های ویدئویی، معادل نرم‌افزار فتوشاپ برای تصاویر دیجیتالی محسوب می‌شوند.

دیپ فیک (جعل عمیق)، که از ترکیب دو واژه دیپ (معادل انگلیسی Deep و به معنای عمیق) و فیک (معادل انگلیسی Fake به معنای جعل) تشکیل شده است، سیستم‌های مبتنی بر «هوش مصنوعی» (Artificial Intelligence) محسوب می‌شوند که برای «سنتز یا تولید تصاویر انسان» (Human Image Synthesis) مورد استفاده قرار می‌گیرند.

در سیستم‌های دیپ فیک یا جعل عمیق، معمولا از دسته خاصی از الگوریتم‌های یادگیری ماشین به نام «شبکه‌های مولد تخاصمی» (Generative Adversarial Networks) جهت «ترکیب کردن» (Combine) و «برهم‌نهی» (Superimpose) تصاویر و ویدئوهای موجود، روی مجموعه‌ای از تصاویر یا ویدئوهای «منبع» (Source) استفاده می‌شود.

نمونه‌ای از فناوری دیپ فیک (جعل عمیق)؛ در این مثال، از برهم‌نهی تصویر چهره بازیگر مرد آمریکایی (نیکلاس کیج) روی ویدئوی بازیگر زن آمریکایی (ایمی آدامز)، یک ویدئوی دیپ فیک حاصل شده است.

به دلیل وجود چنین ویژگی مشخصه‌ای در سیستم‌های دیپ فیک یا جعل عمیق، از این دسته از سیستم‌ها برای تولید محتویات «چند رسانه‌ای» (Multimedia) با نیت خصمانه استفاده می‌شود. از جمله مهم‌ترین کاربردهای خصمانه سیستم‌های دیپ فیک می‌توان به مواردی نظیر «اخبار جعلی» (Fake News)، «فریب‌کاری‌های خصمانه» (Malicious Hoaxes) و سایر موارد اشاره کرد.

از جمله کاربردهای خطرناک سیستم‌های دیپ فیک (جعل عمیق)، تولید محتوای غیر اخلاقی جعلی با استفاده از تصاویر چهره‌های مشهور دنیا و ترکیب و برهم‌نهی آن‌ها با ویدئوهای غیر اخلاقی است. در این دسته از کاربردهای خصمانه دیپ فیک (جعل عمیق)، امکان تشخیص محتوای جعلی از محتوای واقعی بسیار سخت است. در نتیجه، بسیاری از افراد هنگام مشاهده ویدئوهای دیپ فیک (جعل عمیق)، به جعلی بودن محتوای آن‌ها شک نمی‌کنند.

دیپ فیک (جعل عمیق | DeepFake)

دیپ فیک (جعل عمیق)، یکی از فناوری‌های نوظهور مبتنی بر هوش مصنوعی است که جهت تولید یا تغییر محتویات فایل‌های ویدئویی مورد استفاده قرار می‌گیرد؛ به گونه‌ای که محتویات نمایش داده شده در فایل‌های ویدئویی، در اصل رخ نداده است یا وجود خارجی ندارد.

نام‌گذاری چنین فناوری‌هایی به عنوان دیپ فیک (جعل عمیق)، بر اساس نام کاربری یکی از اعضای سایت Reddit (یک محیط میکروبلاگ و یکی از شبکه‌های اجتماعی معروف) است. این شخص که با نام کاربری deepfakes در سایت Reddit شناخته می‌شود، در دسامبر سال 2017 میلادی، از فناوری یادگیری عمیق برای ویرایش چهره افراد مشهور (Celebrities) و قرار دادن چهره آن‌ها روی بازیگران فیلم‌های غیر اخلاقی (و تولید ویدئوهای جعلی) استفاده کرده است.

غالب سیستم‌های دیپ فیک مبتنی بر روش‌های یادگیری عمیق هستند. یک بخش بزرگ از ابزارهایی که از طریق آن‌ها ویدئوهای دیپ فیک تولید می‌شوند، مبتنی بر تکنیک‌های خاصی به نام شبکه‌های مولد تخاصمی هستند. شبکه‌های مولد تخاصمی که به اختصار به آن‌ها شبکه‌های GAN نیز گفته می‌شود، توسط محققی به نام Ian Goodfellow در سال 2014 ابداع شدند.

الگوریتم‌های GAN از دو مدل هوش مصنوعی تشکیل می‌شوند؛ وظیفه یکی از این مدل‌ها تولید محتوا (به عنوان نمونه، تولید تصاویر افراد) است. وظیفه مدل رقیب نیز این است که تشخیص دهد آیا عکس تولید شده واقعی است یا جعلی. مدل هوش مصنوعی که وظیفه تولید عکس را برعهده دارد، کار خود را از صفر آغاز می‌کند؛ به عبارت دیگر، تشخیص جعلی بودن تصاویر ابتدایی تولید شده توسط این مدل راحت است.

بنابراین، در ابتدای کار مدل هوش مصنوعی رقیب به راحتی قادر است میان تصاویر واقعی و جعلی تمایز ایجاد کند. با این حال، هر چقدر که زمان بیشتری می‌گذرد، دقت و عملکرد هر دو مدل ارتقاء پیدا می‌کند. در نهایت، عملکرد و دقت مدل هوش مصنوعی تولید کننده محتوا به قدری افزایش پیدا می‌کند که تشخیص جعلی بودن محتوای تولید شده توسط این مدل بسیار سخت می‌شود.

شبکه‌های مولد تخاصمی

شبکه‌های مولد تخاصمی (GAN)، کلاسی از الگوریتم‌‌های یادگیری ماشین محسوب می‌شوند که در سال 2014 توسط Ian Goodfellow و همکارانش ابداع شد. در شبکه‌‎های مولد تخاصمی، دو «شبکه عصبی مصنوعی» (Artificial Neural Network) رقیب در یک بازی (این بازی معمولا از قواعد «نظریه بازی» (Game Theory) و فرم «بازی مجموع-صفر» (Zero-Sum Game) تبعیت می‌کند) با یکدیگر به رقابت می‌پردازند.

با در اختیار داشتن یک «مجموعه آموزشی» (Training Set)، مدل شبکه‌های مولد تخاصمی یاد می‌گیرد تا داده‌های جدیدی تولید کند که آماره برابری با آماره داده‌های آموزشی داشته باشند. به عنوان نمونه، یک مدل GAN آموزش داده شده روی تصاویر دیجیتالی، قادر است تصاویر جدیدی تولید کند که به صورت سطحی، برای ناظران انسانی واقعی به نظر می‌رسند و بسیاری از ویژگی‌های مشخصه یک تصویر دیجیتالی واقعی را از خود نشان می‌دهند.

شبکه‌های مولد تخاصمی از دو بخش تشکیل شده‌اند: «شبکه‌های مولد» (Generative Network) و «شبکه‌های متمایزگر یا تمایزی» (Discriminator). شبکه‌های مولد وظیفه تولید داده‌های کاندید را بر عهده دارند، در حالی که شبکه‌های متمایزگر، وظیفه ارزیابی داده‌های کاندید تولید شده را بر عهده دارند.

رقابت میان این دو شبکه، بر اساس «توزیع داده‌ها» (Data Distribution) صورت می‌گیرد. معمولا شبکه‌های مولد، نگاشت داده‌ها از «فضای نهان» (Latent Space) به یک توزیع دلخواه را یاد می‌گیرند؛ در حالی که شبکه‌های متمایزگر، داده‌های کاندید تولید شده توسط شبکه‌های مولد را از توزیع واقعی داده‌ها متمایز می‌کنند.

دیپ فیک (جعل عمیق | DeepFake)

هدف اصلی فاز آموزش شبکه‌های مولد، افزایش نرخ خطای شبکه‌های متمایزگر است. به عبارت دیگر، از طریق تولید داده‌های کاندیدی که مدل متمایزگر قادر به تشخیص مصنوعی بودن آن‌ها نیست، شبکه‌های مولد سعی می‌کنند تا شبکه‌های متمایزگر را فریب دهند.

از یک مجموعه داده شناخته شده (جعلی یا واقعی بودن داده‌های این مجموعه مشخص شده است)، به عنوان مجموعه داده ابتدایی برای آموزش مدل متمایزگر استفاده می‌شود. در مرحله آموزش مدل متمایزگر، نمونه‌های موجود در مجموعه آموزشی وارد شبکه متمایزگر می‌شوند؛ تا زمانی که شبکه به عملکرد و دقت مطلوب دست پیدا کند. شبکه مولد بر اساس این معیار که آیا موفق به فریب دادن شبکه متمایزگر می‌شود یا نه، آموزش داده می‌شود.

همچنین، شبکه مولد معمولا یه وسیله نمونه‌های تصادفی که از یک فضای نهان (نظیر توزیع نرمال چند متغیره (Multivariate Normal Distribution)) نمونه‌گیری شده‌اند، آموزش می‌بیند. در مرحله بعد، داده‌های کاندید تولید یا سنتز شده به وسیله مدل متمایزگر ارزیابی می‌شوند. از الگوریتم یادگیری «پس‌انتشار» (BackPropagation) در هر دو مدل استفاده می‌شود تا شبکه مولد بتواند تصاویر بهتری تولید کند و شبکه متمایزگر نیز بتواند در متمایز کردن تصاویر واقعی از تصاویر جعلی مهارت بیشتری کسب کند.

شایان توجه است که مدل متمایزگر معمولا یک «شبکه عصبی پیچشی» (Convolutional Neural Network) است، در حالی که برای پیاده‌سازی مدل مولد از «شبکه‌های عصبی دی‌کانولوشن» (Deconvolutional Neural Network) استفاده می‌شود.

شبکه‌های مولد تخاصمی برای تولید ویدئوهای دیپ فیک‌

ویدئوهای دیپ فیک (جعل عمیق)، با استفاده از دو سیستم یا مدل هوش مصنوعی «رقابت کننده» (Competing) پدید می‌آیند؛ دسته اول از چنین مدل‌ها یا سیستم‌های هوش مصنوعی رقابت کننده، سیستم‌های «مولد» (Generator) نام دارد و دسته دوم، سیستم‌های «متمایزگر یا تمایزی» (Discriminator).

روش کار سیستم‌های هوشمند تولید کننده محتوای دیپ فیک بدین صورت است که ابتدا مدل‌های مولد (Generator)، یک ویدئوی جعلی تولید می‌کند. سپس، ویدئوی تولید شده به عنوان ورودی مدل‌های متمایزگر وارد سیستم می‌شود. وظیفه مدل متمایزگر این است که تشخیص دهد آیا ویدئوی تولید شده واقعی است یا جعلی.

هر بار که مدل متمایزگر بتواند به درستی، جعلی بودن ویدئوها را تشخیص دهد، باز خورد یا سیگنالی در اختیار مدل مولد قرار می‌دهد؛ این سیگنال یا بازخورد، خطاهای مدل مولد در تولید ویدئوهای تقلبی را مشخص می‌کند. مدل مولد بر اساس «بازخوردهای» (Feedbacks) ایجاد شده، اقدام به تصحیح خطا و تولید ویدئوهای تقلبی جدید می‌کند.

همانطور که پیش از این نیز اشاره شد، از در کنار هم قرار گرفتن مدل‌های مولد و متمایزگر، شبکه‌های مولد تخاصمی شکل خواهد گرفت. اولین قدم در پیاده‌سازی یک مدل شبکه‌های مولد تخاصمی یا GAN، شناسایی خروجی مطلوب و تولید یک مجموعه داده آموزشی برای مدل مولد است. به محض اینکه عملکرد و دقت مدل مولد در تولید ویدئوهای جعلی به سطح مطلوبی برسد، ویدئوهای تولید شده به عنوان ورودی مدل متمایزگر عمل خواهند کرد.

همانطور که به مرور زمان عملکرد مدل مولد در تولید ویدئوهای جعلی افزایش پیدا می‌کند، مدل متمایزگر نیز دقت بیشتری در تشخیص ویدئوهای جعلی از خود نشان می‌دهد. همچنین، با افزایش دقت و عملکرد مدل متمایزگر در تشخیص ویدئوهای جعلی، دقت مدل مولد در تولید ویدئوهای جعلی با کیفیت و نزدیک به واقعیت افزایش پیدا می‌کند.

تاریخچه دیپ فیک (جعل عمیق)

بیشتر سیستم‌های تولید دیپ فیک معمولا در دو حوزه «مطالعات دانشگاهی» (Academic Research) و یا به وسیله افراد «آماتور» (Amateur) در جوامع آنلاین توسعه یافته‌اند.

دیپ فیک در مطالعات دانشگاهی

بیشتر مطالعات دانشگاهی مرتبط با دیپ فیک در حوزه «علوم کامپیوتر» (Computer Science)، هوش مصنوعی و به طور خاص «بینایی کامپیوتر» (Computer Vision) در حال انجام است. بینایی کامپیوتر حوزه‌ای است که بر پردازش کامپیوتری ویدئو و تصاویر دیجیتالی تمرکز دارد. اولین مطالعات تحقیقاتی معتبر در این زمینه، برنامه‌ای کامپیوتری به نام Video Rewrite بود. این برنامه کامپیوتری که در سال 1997 منتشر شد، می‌توانست تصاویر ویدیوئی صحبت کردن یک فرد خاص را به گونه‌ای تغییر دهد که به نظر برسد این فرد، کلمات موجود در یک فایل صوتی دیگر را به زبان می‌آورد.

این برنامه اولین سیستم کامپیوتری محسوب می‌شود که فرایند «تجسم دوباره چهره» (Facial Reanimation) را به طور خودکار و از طریق روش‌های یادگیری ماشین انجام می‌دهد. برنامه‌ای کامپیوتری Video Rewrite، از روش‌های یادگیری ماشین برای ایجاد ارتباط میان صداهای ادا شده توسط شخص موجود در تصویر و شکل چهره آن‌ها استفاده می‌کند.

پروژه‌های تحقیقاتی معاصر در زمینه دیپ فیک (جعل عمیق)، بیشتر روی ساختن ویدئوهای «واقع‌نمایانه‌تر» (More Realistic) و همچنین، افزایش سرعت، سادگی و سطح دسترسی آن‌ها برای عموم تمرکز دارند. برنامه Face2Face، که در سال 2016 منتشر شد، تصاویر ویدئویی چهره یک شخص را به گونه‌ای تغییر می‌دهد که گویا در حال تقلید حالات چهره شخص دیگری است.

در ادامه، سه نمونه از سیستم‌های تولید ویدئوهای دیپ فیک که از مطالعات دانشگاهی نشأت گرفته‌اند، مورد بررسی قرار گرفته می‌‌شود.

یادگیری همگام‌سازی دقیق لب در ویدئو با استفاده از فایل‌های صوتی

در این مثال، کاربردی از مطالعات دانشگاهی مرتبط با دیپ فیک ارائه خواهد شد. در سال 2017، نتایج یک پروژه دانشگاهی مرتبط با جعل عمیق، تحت عنوان Synthesizing Obama منتشر شد. در این برنامه، با در اختیار داشتن صدای باراک اوباما (رئیس جمهور پیشین آمریکا)، یک ویدئوی دیپ فیکِ با کیفیت از صحبت کردن این شخصیت، به همراه «همگام‌سازی دقیق لب» (Accurate Lip Sync) و به زبان آوردن کلمات موجود در یک فایل صوتی دیگر (از باراک اوباما) ارائه شده است.

با آموزش این سیستم روی ساعت‌ها سخنرانی هفتگی اوباما، مدل «شبکه عصبی بازگشتی» (Recurrent Neural Network)، نگاشت از ویژگی‌های خام صوتی به حالات دهان را یاد می‌گیرد. نتایج ارائه شده، ویدئوهای به مراتب واقع‌نمایانه‌تری را نسبت به پروژه‌های مشابه نشان می‌دهد. بخشی از کدهای لازم برای پیاده‌سازی این روش در زبان پایتون در ادامه نمایش داده شده است. شایان توجه است که برای اجرای صحیح کدهای نمایش داده شده، ابتدا لازم است فایل‌های صوتی ورودی به سیستم «نرمال‌سازی» (Normalize) شوند. جهت دریافت توضیحات لازم برای اجرای کدها، به لینک [+] مراجعه شود.

فایل util.py [+]:

فایل اجرایی run.py [+]:

کدهای کامل و قابل استفاده برای پیاده‌سازی این روش در زبان پایتون و داده‌های لازم جهت آموزش مدل شبکه عصبی بازگشتی، از طریق لینک [+] قابل دسترس است. شایان توجه است که برای اجرای صحیح کدها، خواندن توضیحات مرتبط با نحوه اجرای برنامه در لینک [+] ضروری است.

در ادامه، نحوه عملکرد سیستم بینایی کامپیوتر ارائه شده جهت تولید ویدئوهای دیپ فیک نمایش داده شده است:

بازسازی مدل کنترل شده یک شخص از مجموعه عظیمی از داده‌های تصویری

در سال 2015، گروهی از محققین روشی را برای بازسازی یک مدل کنترل شده از اشخاص، بر اساس مجموعه عظیمی از تصاویر نمایش دهنده ویژگی‌های شخصیتی آن‌ها نظیر رفتار و ظاهر فیزیکی ارائه دادند. سیستم ارائه شده توسط این محققان، بر اساس ترکیب بدیع از روش‌های بازسازی سه‌بُعدی چهره (3D Face Reconstruction)، ردیابی (Tracking)، هم‌ترازی (Alignment) و مدل‌سازی چندبافتی (Multi-Texture) پدید آمده است.

قابلیت انجام عملیات روی مجموعه‌ای از تصاویر غیر ساخت یافته، به سیستم امکان می‌دهد بدون اینکه تصاویر افراد را اسکن کند، تنها با داشتن تصاویر افراد از زوایای مختلف، چهره آن‌ها را مدل‌سازی کند. در ادامه، نحوه عملکرد سیستم در تولید مدل‌های بازسازی چهره (نمونه‌ای از قابلیت‌‎های یک سیستم دیپ فیک) نمایش داده شده است:

مدل‌های شبکه‌های عصبی خود کدگذار (AutoEncoder) برای تولید دیپ فیک

یکی از روش‌های دیگر برای تولید دیپ فیک (جعل عمیق)، مدل شبکه عصبی «خود کدگذار» (AutoEncoder) نام دارد. مدل خود کدگذار، یک شبکه عصبی عمیق (Deep Neural Network) است که ورودی‌ها را در قالب تصاویر دیجیتالی دریافت و آن‌ها را به تعدادی مدل نمایشی کوچک‌تر به نام «کدگذاری» (Encoding) تبدیل می‌کند.

در نهایت، این مدل قادر است تا تصاویر اصلی را از روی نمایش‌های تولید شده (کدگذاری‌ها) بازسازی کند.

در مدل‌های شبکه عصبی خود کدگذار، شبکه در تلاش است تا نحوه بازسازی یک تصویر را از روی کدگذاری‌های تولید شده توسط یک ماژول کدگذار (Encoder) یاد بگیرد.

قرار دادن مدل تولید کننده نمایش کدگذاری (Encoding) در وسط شبکه عصبی خودکدگذار، شبکه عصبی را مجبور می‌کند تا به جای تولید یک پیش‌بینی کلاسی متناسب با داده ورودی، تصاویر بازسازی شده را خروجی دهد. چنین ساختاری، شبکه عصبی را قادر می‌سازد تا الگوهای موجود در تصویر نظیر شکل ابروها، فرم چهره و سایر موارد و از همه مهم‌تر مکان آن‌ها در تصویر را یاد بگیرد.

سیستم‌های دیپ فیک (جعل عمیق)، از سه مدل خودکدگذار برای تبدیل چهره شخص A به چهره شخص B استفاده می‌کند. مدل خودکدگذار اول، تصویر ورودی شخص A را کدگذاری و بازسازی می‌کند. مدل خودکدگذار دوم، تصویر ورودی شخص B را کدگذاری و بازسازی می‌کند. مدل سوم نیز، تصویر شخص A را به عنوان ورودی دریافت می‌کند، با این حال، تصویر بازسازی شده شخص B را به عنوان خروجی تولید می‌کند.

در این دو مدل خود کدگذار، ماژول کدگذار (Encoder) میان آن‌ها مشترک است ولی، ماژول‌های کدگشا (Decoder) متفاوت خواهد بود. در طول فرایند یادگیری تصاویر به شکل نویزی (تاب برداشته) به سیستم وارد می‌شوند تا مدل‌های خودکدگذار، بازسازی تصاویر اشخاص A و B را براساس تصاویر تقریبی و نویزی یاد بگیرند.

روش آموزش یک مدل شبکه عصبی خودکدگذار برای تولید دیپ فیک به صورت زیر خواهد بود:

  • در مرحله اول، تصویر نویزی (تاب برداشته) شخص A وارد ماژول کدگذار (Encoder) در مدل خودکدگذار (AutoEncoder) اول می‌شوند. در این مرحله، مدل شبکه عصبی تلاش می‌کند تا بر اساس کدگذاری‌های تولید شده (Encoding)، چهره شخص A را بازسازی کند. به عبارت دیگر، مدل خودکدگذار اول مجبور می‌شود تا چهره شخص اول را از ورودی‌های نویزی بازسازی کند.
  • در مرحله دوم، از ماژول کدگذار (Encoder) در مدل خودکدگذار (AutoEncoder) اول استفاده و تصویر نویزی (تاب برداشته) شخص B وارد این ماژول می‌شود. با این تفاوت که این دفعه مدل شبکه عصبی تلاش می‌کند تا بر اساس کدگذاری‌های تولید شده (Encoding) توسط ماژول کدگذار (Encoder)، چهره شخص B را بازسازی کند. به عبارت دیگر، مدل خودکدگذار اول مجبور می‌شود تا چهره شخص دوم را از ورودی‌های نویزی بازسازی کند.
  • این کار چندین بار تکرار می‌شود تا ماژول‌های کدگذار (Encoder) مربوط به شخص A و B قادر به بازسازی چهره‌های مربوطه شوند. به عبارت دیگر، ماژول‌های کدگذار، ویژگی‌‌های چهره شخص A و B و بازسازی آن‌ها را یاد می‌گیرند.

پس از پایان مرحله آموزش مدل شبکه عصبی خودکدگذار، تصویر شخص A وارد ماژول کدگذار (Encoder) می‌شود؛ با این تفاوت که، به جای استفاده از کدگذاری‌های تولید شده، جهت بازسازی تصویر A، کدگذاری‌های تولید شده وارد کدگشای B می‌شوند و از این طریق، چهره شخص B بازسازی می‌شود.

کدگذار (Encoder) ویژگی‌های چهره شخص A را یاد می‌گیرد و مدل‌سازی می‌کند. سپس، کدگذاری‌های انجام شده به کدگشای B داده می‌شود. کدگشای B فکر می‌کند که یک ورودی نویزی وارد مدل شده است. اما از آنجایی که در مراحل قبل، نحوه بازسازی تصویر شخص B را با استفاده از داده‌های نویزی یاد گرفته است، تصویر شخص B را با توجه به کدگذاری‌های تصویر شخص A انجام می‌دهد.

محدودیت‌های سیستم‌های تولید دیپ فیک

اگرچه نتایج حاصل از تولید ویدئوهای دیپ فیک (برای مقاصد علمی و تحقیقاتی) ممکن است برای کاربران جذاب و مهیج باشد، با این حال، استفاده از فناوری‌های هوش مصنوعی و یادگیری عمیق جهت تولید ویدئوهای دیپ فیک (جعل عمیق) محدودیت‌هایی نیز دارند که در ادامه به آن‌ها پرداخته خواهد شد:

  • سیستم تنها در صورتی قادر به تولید ویدئوهای دیپ فیک مطلوب خواهد بود که مجموعه‌ بزرگی از تصاویر را برای آموزش در اختیار داشته باشد. برای اینکه سیستم قادر باشد تصویر یک شخص خاص را روی یک ویدئوی خاص قرار دهد، لازم است چیزی حدود 300 الی 2000 تصویر از صورت شخص در اختیار سیستم قرار داده شود تا شبکه عصبی قادر به یادگیری و بازسازی چهره آن شخص و قرار دادن آن روی ویدئوی مورد نظر باشد.
  • داده‌های آموزشی استفاده شده برای پیاده‌سازی سیستم‌های دیپ فیک، باید به خوبی نمایانگر ویژگی‌های ویدئوی هدف باشد. فرض کنید که قرار باشد چهره شخص A روی چهره شخص B در یک ویدئوی خاص قرار بگیرد. در چنین حالتی، تصاویر آموزشی شخص A باید در زوایا و حالات مختلف در اختیار سیستم قرار بگیرد تا سیستم بتواند به درستی ویژگی‌های چهره این شخص را یاد بگیرد. به عبارت دیگر، تصاویر لازم (از شخص A) برای آموزش سیستم باید تقریب مناسبی از زوایا و حالات چهره شخص B باشد تا سیستم بتواند هم‌ترازی تصاویر شخص A روی ویدئوی شخص B را یاد بگیرد.
  • ساختن مدل‌های تولید دیپ فیک (جعل عمیق)، هزینه زمانی و محاسباتی زیادی می‌طلبد. سیستم‌های تولید دیپ فیک از ماژول‌های مختلفی نظیر «تشخیص چهره» (Face Detection) و هم‌ترازی تصاویر تشکیل شده‌اند. هر کدام از این ماژول‌ها، قدرت محاسباتی قابل توجهی را به خود اختصاص خواهند داد. به عنوان نمونه، آموزش یک مدل یادگیری عمیق برای تولید دیپ فیک با کیفیت معمولی، چیزی حدود 72 ساعت زمان خواهد برد. برای آموزش چنین سیستمی، به قدرت محاسباتی بسیار زیادی نیاز است. از سوی دیگر، هر مدل دیپ فیک تولید شده، تنها قادر به قرار دادن تصویر یک شخص خاص روی ویدئو خواهد بود و برای قرار دادن تصویر یک شخص دیگر روی ویدئو، احتیاج به آموزش یک مدل دیگر خواهد بود؛ به عبارت دیگر، سیستم‌های تولید دیپ فیک، مقیاس‌پذیری خوبی از خود نشان نمی‌دهند.

کاربرد سیستم‌های تولید دیپ فیک در جهان واقعی

در ادامه، به برخی از مهم‌ترین کاربردهای سیستم‌های تولید دیپ فیک اشاره خواهد شد:

تولید محتوای ویدئویی

شاید یکی از فناوری‌های مشابهی که پیش از این در صنعت فیلم مورد استفاده شده است، فناوری تولید محتوای ویدئویی با استفاده از «جلوه‌های ویژه» باشد. اگرچه این فناوری (تولید چهره‌های کامپیوتری و جا به جا کردن آن‌ها با چهره بازیگران) سال‌های زیادی است که در صنعت فیلم استفاده می‌شود، با این حال، سادگی دسترسی دیپ فیک و هزینه به مراتب کمتر آن‌ها نسبت به جلوه‌های ویژه پرهزینه، دیپ فیک را به یک انتخاب وسوسه‌برانگیز و هیجان‌آور برای افراد مختلف، به ویژه آماتورهای علاقه‌مند به این حوزه تبدیل کرده است.

البته، نمی‌توان منکر استفاده‌های متعدد این فناوری در صنعت فیلم شد. به عنوان نمونه، این قابلیت برای شرکت‌های سازنده فیلم‌های سینمایی وجود دارد که فیلم‌ها را با بازیگران ناشناخته ضبط کنند و سپس، در مرحله ویرایش، تصاویر بازیگران معروف روی تصاویر ضبط شده قرار داده شود. سناریوی واقع‌گرایانه دیگر جهت استفاده از فناوری دیپ فیک، تغییر بازیگر فیلم بر اساس بازار فروش و یا امکان انتخاب بازیگر توسط کاربر است، بدین صورت که با استفاده از این فناوری، این امکان برای کاربران فراهم می‌شود تا پیش از پخش یک فیلم، بازیگر مورد علاقه خود را برای ایفای نقش انتخاب کنند.

استفاده از چهره افراد مشهور برای تبلیغات پوشاک

در این سناریو، افراد مشهور چهره‌های مدل شده و کامپیوتری خود را به شرکت‌های تولید پوشاک قرض می‌دهند تا این شرکت‌ها بدون نیاز به فیلم‌برداری کلیپ‌های تبلیغاتی، از چهره آن‌ها برای تبلیغ پوشاک و وسایل جانبی استفاده کنند (قرار دادن چهره افراد معروف روی مانکن‌های لباس).

تبلیغات شخصی‌سازی شده

در این سناریو، هنگام جستجوی اینترنت، کاربران با تبلیغات هدف‌داری مواجه خواهند شد که از چهره خود آن‌ها یا افراد خانواده و نزدیکان آن‌ها استفاده شده است. به عنوان نمونه، یک مدل کامپیوتری تولید شده با توجه به مشخصات چهره و فیزیک کاربر، در حال تبلیغ پوشاک، ساعت، عینک آفتابی و سایر وسایل جانبی نمایش داده خواهد شد.

جمع‌بندی

فناوری‌های دیپ فیک (جعل عمیق)، یکی از جنجال‌برانگیزترین فناوری‌هایی است که در چند سال اخیر معرفی شده است و طی این مدت کوتاه توانسته است بخش‌های مختلفی از جامعه انسانی و حتی مسائل سیاسی را نیز تحت تأثیر خود قرار دهد. چنین کاربردی از فناوری ممکن است یک هاله ابهام در مورد صحت و اعتبار ویدئوهای منتشر شده در سطح وب ایجاد کند.

با این حال، ظهور دیپ فیک، جذاب بودن این فناوری و کاربردهای گسترده (و مفید) آن در حوزه‌های مختلف علم و فناوری را نشان داد. مدل‌های یادگیری عمیق نظیر GAN و مدل‌های مولد یادگیری عمیق نظیر شبکه‌های عصبی خودکدگذار (AutoEncoder)، به کاربران (با سطح دانش کافی از مفاهیم یادگیری ماشین) اجازه می‌دهند تا داده‌های مصنوعی ولی واقع‌گرایانه تولید کنند (داده‌های نظیر تصاویر دیجیتالی و ویدئو). به عبارت دیگر، این در صورتی که یکی از این الگوریتم‌های هوش مصنوعی به محصول تجاری تبدیل شود، ابزاری بسیار قدرتمند در اختیار کاربران عادی قرار می‌دهد تا بتوانند محتوای خلاقانه‌ای (برای استفاده در مقاصد مثبت) ایجاد کنند.

اگر نوشته بالا برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

بر اساس رای ۳۱ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
KDNuggetsWikipedia
دانلود PDF مقاله
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *