ديپ فيک یا جعل عميق چيست؟

ديپ فيک یا جعل عميق چيست؟
 ۱۴۰۰/۶/۳۰ | ۱۸:۰۱
خلاصه این مطلب: قطعاً ویدیوهای ساخته شده از تصاویر افراد مشهوری که درحال لب‌خوانی و آواز خواندن هستند را در شبکه های اجتماعی دیده‌اید. در اين مقاله قصد داريم تا شما را با مفهوم ديپ فيك در هوش مصنوعی، نحوه عملکرد آن و همچنين با مبحث شگفت‌انگیز GAN آشنا كنيم.

ديپ فيک يک تكنولوژی نوظهور است كه به كاربران اجازه می‌دهد تا با استفاده از هوش‌ مصنوعی و الگوريتم‌های یادگیری ماشین و نرم‌افزارهای متن باز، تصویر یا صدای افراد را در يک فيلم يا عكس دستکاری كنند و محتواهای جعلی بسازند.

با پیشرفت روزافزون هوش‌مصنوعی، ديگر نمی‌توانيد به چشمان خود نیز اعتماد كنيد!. شما حتی می‌توانید با تولید ويديويی که با جعل عمیق ساخته شده است، هر حرفی را در دهان افراد قرار دهيد بدون آنکه واقعاً آن حرف را زده باشند؛ و ويديوهای باورپذیری تولید کنید كه در واقعيت، شخص موردنظرتان اصلاً در آن صحنه حضور نداشته است.

اين گونه موارد جعل عميق، عمدتا به میزان قابل قبولی طبیعی به نظر می‌رسند، اما در ادامه خواهیم گفت که با دقت به چه نکاتی وجود دیپ فیک را در رسانه های صوتی و تصویری تشخیص دهید. در انتها نیز قادر خواهید بود به صورت عملی از این تکنولوژی استفاده کنید.

مثالی از اشخاصی که دیپ فیک روی تصاویرشان اعمال شده است

 

ديپ فيک به چه معناست ؟

ديپ فيک اولين بار در سال 2018 ارائه شد. اين عبارت از تلفيق دو كلمه "Fake" به معنای جعلی و غیرواقعی، و"Deep learning" به معنای یادگیری عمیق ساخته شده است.
جعل عميق، از الگوريتم‌های يادگيری ماشين، برای دستكاری و توليد محتواهای بصری و يا صوتی استفاده می‌كند تا از صدا يا صورت فرد ديگر تقليد كند، و هويت فرد مورد نظر را با شخص ديگری تعويض کند و يا صداهايشان را با هم جا‌به‌جا کند، و .... .
روش‌های جعل عميق، با رشته‌هايی از جمله علوم كامپيوتر و برنامه نويسی، جلوه‌های بصری، انيميشن‌های كامپيوتری، و حتی نوروساينس يا علوم اعصاب نیز، اشتراک‌های اساسی دارد.

هر برنامه مبتنی بر هوش مصنوعی، براساس دو عنصر اصلی زیر بنا شده است :

  1. داده‌های ورودی
  2. ساخت مدلی كه براساس آن، الگوريتم ما بتواند عمل پردازش را انجام دهد و از آن مدل ياد بگيرد.

ديپ فيک هم از این قاعده مستثنی نیست. داده‌های ورودی را به‌ صورت تصاوير یا ويديو دريافت می كند، و سپس با استفاده از كتابخانه‌های معروف Tensorflow و Keras ، مدل را ياد می‌گيرد.

 

ساختار ديپ فيک چگونه است ؟

مانند بيشتر برنامه‌های مبتنی بر هوش مصنوعی ، در اينجا هم از معماری شبكه‌های عصبی عميق استفاده می‌شود .
با پيشرفت GPU ها در سال‌های اخير، محققين قادر بوده‌اند تا تكنيك‌های يادگيری ماشين را توسعه دهند و اتوانكودرها و GAN ها را ايجاد كنند.

اتوانكودر چيست ؟

به طور خلاصه، اتوانكودرها ابعاد داده های خام اوليه را كاهش می‌دهند ( برای مثال تصوير ) و يک خروجی توليد می‌كنند كه همان تكرار شده‌ی داده ورودی است.اتوانكودرها شامل دو قسمت  انكودر و ديكودر هستند. زمانی كه لايه اول از شبكه عصبی اتوانكودر، از داده‌های ورودی ما تغذيه می‌كند، انكودر وظيفه دارد تا تصاوير را فشرده كند و به ديكودر دهد. سپس ديكودر تلاش می‌كند تا داده‌ی اصلی و اوليه را بازسازی كند .

اتوانكودر‌ها، تصویر فرد A را به یک فضای نهفته با ابعاد کمتر کاهش می‌دهند و سپس با استفاده از يک ديكودر تصوير فرد A را با استفاده از تصوير فرد جديد B، دوباره بازسازی می‌کنند. يعنی اين تصوير جديد، مشخصات صورت فرد B را دارد اما روی بدن فرد A  قرار گرفته است. در واقع، اينجا از انكودر برای انكود كردن ( رمزگذاری ) فردی كه می‌خواهيم صورتش پوشيده شود استفاده می‌كنيم.

خروجی انكودر، به یک فضای نهفته می‌رود. اين فضا همان جايی است كه ويژگی های كليدی يا همان Key Features های موجود در صورت افراد و حالت های بدنی‌شان در بردارهای ويژگی ذخيره می‌شوند تا اين حركات را بتوانند دوباره بازسازی كنند.
در شكل زير دو جفت شبكه‌ی درحال تعليم می‌بينيد :

  1. سطر اول يک جفت انكودر و ديكودری هستند كه برای ديتاست تصوير اوليه (A) و يا تصویر مبداء استفاده می‌شوند.
  2. سطر دوم برای ديتاست تصوير ثانويه و يا تصویر هدف (B) استفاده می‌شود.

اين جفت شبكه‌ها، باعث می‌شوند تا انكودر ساختار صورت انسان را ياد بگيرد.

ساختار یک اتوانکودر

 

به اين معنا كه ويژگی های درون چهره‌ی هر فرد، منحصراً در فضای مخصوص به خود قرار می‌گيرد :

فضاهای مربوط به ویژگی های صورت افراد مختلف

سپس از مدل تعليم يافته برای ديكود (رمزگشايی) اين فضای ويژگی‌ها استفاده می‌شود.
 به اين معنا كه جزييات مربوط به چهره هدف ما (كه قرار است روی صورت فرد اوليه قرار داده شود) روی ويژگی هايی صورت فرد زيرين (فرد اوليه) كه قبلا انكود شده است، اضافه می‌شود.
 تركيب GAN ها و اين نوع اتوانكودرها باعث می‌شود تا ديپ فيک ، طبيعی و واقع گرايانه‌تر شود.

 

GAN چیست و چگونه ساخته می‌شود ؟

شبكه مولد تخاصمی يا GAN ، يك روش يادگيری ماشين است، كه در آن دو شبكه عصبی "مولد يا generator " و "متخاصم يا discriminator" حضور دارند. اين دو شبكه عصبی برای افزايش دقت و صحت‌شان دائماً با يکديگر درحال رقابت هستند و به همين طريق ماشين را قادر به يادگيری سريع می‌كنند.


بخش مولد سعی دارد تا تصاوير واقع گرايانه‌ای خلق كند، و بخش متخاصم نيز سعی دارد تا تعيين كند كه آيا جعل عميق وجود دارد يا خير. اگر بخش مولد بتواند قسمت متخاصم را فريب دهد، بخش متخاصم با استفاده از داده های جمع آوری شده می‌تواند بهتر قضاوت كند. همچنين اگر بخش متخاصم تعيين كند كه تصوير ساخته شده به دست مولد، جعلی است، شبكه ثانويه در ساختن تصوير جعلی بهتر عمل خواهد كرد. اين چرخه ادامه می‌يابد و هیچ وقت تمام نخواهد شد.

به اين مدل، بازی Zero-Sum يا حاصل جمع صفر نيز گفته می‌شود ( بازی‌ای كه سود يك نفر برابر با ضرر فرد مقابل باشد).
در اين حالت، مولد بايد داده های تصادفی را كه از ديتاست تعليم گرفته شده است، به يك تصوير تبدیل كند.
اين تصوير توليد شده، همراه با تصاوير اصلی و بخش discriminator داده می‌شود . وظيفه اين بخش بسیار واضح است و آن اين است كه تصاوير اصلی را، از تصاوير مصنوعی و توليد شده توسط بخش مولد، تفريق می‌كند.

هدف شبكه های عصبی،  به حداقل رساندن خطاها است؛ و در زمينه خاص ديپ فيك، به معنای به حداقل رساندن تفاضل بين تصوير اصلی و تصوير ساخته شده‌ی جعلی است.
ذكر اين نكته واجب است كه، برای رسيدن به چنين هدفی، اين فرآيند آنقدر بايد تکرار شود، و وزن های مدل تنظیم شوند، تا به سطح مطلوبی از دقت دست يابيم.

 

مزیت‌های استفاده از دیپ فیک

اين تكنولوژی در زمينه های مخلف از جمله صنايعی مانند فيلم سازی، سرگرمی، بازی‌ها ، شبكه‌های اجتماعی، و كسب و كار‌ها استفاده می‌شود. برای مثال در صنعت فيلم‌سازی می‌توان با استفاده از ديپ فيك، يك ويديوی آماتور را به يك ويديوی حرفه‌ای تبديل كرد؛ و يا حتی در فيلم‌ها از بازیگران مشهوری كه زنده نيستند هم استفاده كرد.

 

عواقب استفاده از دیپ فیک

در بسیاری از موارد، از روش جعل عميق، در مقاصد غيرقانونی استفاده می‌شود. مثلاً در تاثيرگذاری روی افراد در فرآيندهای انتخاباتی و يا در مجرم شناختن اشخاص بی‌گناه در رخداد جرايم. طبق تحقيقات متوجه شده اند، اخبار جعلی، بسيار سريع‌تر بين مردم منتشر می‌شود كه می‌تواند روی شهرت و اعتبار افراد اثرات منفی داشته باشد.

از طرفی به دليل واقعی به نظر رسيدن این ويديوها، ممكن است افراد، اعمال نادرست خود را كتمان كنند و ادعای جعلی بودن آن ویدیوها را مطرح کنند.

 

چگونه می‌توان ويديوی دیپ فیک را تشخيص داد؟

بايد با اين حقيقت رو به رو شد كه امروزه تشخيص اصل يا جعلی بودن ويديوها ديگر كار آسانی نيست؛ زيرا نقطه ضعف‌هايی كه در ابتدا وجود داشت، مانند تار شدن تصویر و ناصاف بودن صدا و ...، دیگر در فيلم ها دیده نمی‌شود. اما شايد بتوان با دقت در اين چهار مورد وجود جعل را تشخيص دهیم:

  1. جزييات كوچك : جزئياتی مانند حركت طبیعی موها، چشم‌ها و حالت صورت در حين صحبت كردن، هنوز به طور كامل و بی‎نقص نمی‌توانند جعل شوند.
  2. احساسات : ضعف ديگر در احساسات درون چهره كاراكتر مورد نظر است. به طور كلی اين تكنولوژی قادر است حالت های خوشحالی، عصبانيت، و لذت بردن را شبيه سازی كند، اما هنوز به انواع ظرافت‌های احساسی موجود در چهره دست نیافته است.
  3. كيفيت ويديوها : برای مثال، ويديو های افراد معروف و سياستمداران و ....، عمدتا با بالاترين كيفيت صوتی و تصويری و با بهترين تجهيزات موجود، و بدون نويز محيطی تصويربرداری می‌شوند. پس در اين‎گونه ويديوها اگر با كيفيت نامناسب صدا و تصوير رو‌ به‌رو شديد، می‌تواند نشانه خوبی از اعمال جعل عميق و دستكاری باشد.
  4. منبع : هميشه اطمينان از موثق بودن منابعی كه از آنها اطلاعات دريافت می‌كنيم، بهترين راه برای اين است كه در دام محتواهای نامعتبر و جعلی گرفتار نشويم.

 

راهنمای آسان برای ساخت ديپ فيک

در ادامه چند نمونه از مثال‌های جعل عميق آورده شده است :

  1. جايگزين كردن سر يا صورت افراد با يكديگر در ويديوها

صورت جعل شده ایلان ماسک بر روی متیو مک کانهی

این تصویر صحنه‌ای از ویدیوی حاصل از جعل عمیق، از صورت ایلان ماسک است.

نكته مهم اين است كه بيش از 95 درصد از این نوع ويديو‌ها، توسط DeepFaceLab ساخته شده‌اند.

اين برنامه تحت ويندوز تعويض چهره، كاملاً رايگان و متن باز بوده و برای همه كاربران به راحتی و بدون دانستن ساختار و چهارچوب‌های يادگيری عميق نیز، قابل استفاده است.
شما می‌توانيد در اين صفحه از گيت هاب، از ويديوی آموزشی كوتاهی كه گذاشته شده است استفاده نماييد و حتی می‌توانيد كد‌های موجود را مستقيماً بر روی گوگل كولب، به آسانی اجرا كنيد و اين شبكه های عظيم را بدون نياز به داشتن سيستمی قدرتمند و یا GPU های بسيار قوی تعليم دهيد.

 

      2. تغییر سن افراد

مثالی از تغییر سن افراد با استفاده از دیپ فیک

 

از دیگر برنامه‌ها و سايت‌های مربوطه، می‌توان به موارد زير اشاره كرد :

  •  FaceSwap
  •  Face2Face
  •  Reface
  •  Deepfakes Web

 

انواع مثال‌های GAN

تبديل تصوير به تصوير  

در اين روش يك تصوير به عنوان ورودی دريافت می‌شود و به تصوير توليد شده در خروجی نگاشت داده می‌شود اما اين تصوير توليد شده، ويژگی های متفاوتی از تصوير اوليه دارد. براي مثال می‌توانيم يك تصوير ساده، مانند طرح اوليه كيف‌های سمت چپ در تصوير زير را به عنوان ورودی به GAN بدهيم و سپس با استفاده از جزئياتی كه با ديدن تصاوير Ground truth یا واقعی ياد می‌گيرد، می‌تواند شكل اوليه را طوری پر كند تا واقع‌گرايانه به نظر برسد.

مثالی از pix2pix

 Cycle GAN 

اين نوع GAN ياد مي‎گيرد تا يك گروه از تصاوير را به تصاويري تبديل كند، كه به طرز معقولی با تصاویر گروه دیگر مرتبط باشند. برای مثال، تصوير ورودی يك اسب بوده است، و Cycle GAN تصوير خروجی را به يك گورخر تبديل كرده است. اين دو دسته يا گروه از تصاوير، برای انجام فرآيند تعليم بايد با هم ارتباط منطقی داشته باشند. در اينجا سيستم ما نيازی به داشتن برچسب يا اتصال جفت‌های دو به دو بين تصاوير ندارد.

مثالی از cycleGAN

 

تبديل متن به تصوير

اين نوع از GAN ها، متن را به عنوان ورودی دريافت می‌كنند و تصاويری باورپذير و مطابق با توضيحات داده شده در متن مورد نظر را توليد می‌كنند. برای مثال اين تصوير گل، نتیجه متن زير است:
ورودی شبکه بصورت متن :   " اين گل، گلبرگ‌هایی دارد به رنگ زرد و با سایه های نارنجی "

مثالی از تبدیل متن به عکس توسط دیپ فیک

 

تولید تصاویر با وضوح فوق‌العاده

این گونه از GAN ها وضوح تصاویر را با افزودن جزئیات به تصویر تار، افزایش می‌دهند. مثلا در تصویر زیر، تصویر اصلی در سمت چپ، و ورژن تار شده‌ی آن در وسط قرار دارد. با دادن تصویر تار شده به GAN ، در تصویر خروجی سمت راست، تصویری شارپ و باکیفیت خواهیم داشت.

تولید تصویر با وضوح بالا توسط GAN

 

رنگ آمیزی صورت افراد

از GAN برای نقاشی کردن معنادار هم استفاده می‌شود. در اینجا و قبل از عمل رنگ آمیزی، قسمت هایی از تصاویر بریده و سیاه شده‌اند. و سیستم ما سعی دارد تا این قسمت ها را هرچه دقیق‌تر و طبیعی‌تر پر کند.

پرکردن بخش های پوشانده شده از تصویر با استفاده از GAN

 

 GauGAN

مدل یادگیری عمیق توسعه یافته توسط شرکت NVIDIA ، می‌تواند نقاشی‌های ابتدایی شما را به مناظر شگفت انگیزی تبدیل کند! این کار توسط نوعی از GAN ها به نام GauGAN انجام می‌شود که امروزه تحت عنوان نرم افزار دیپ فیک به‌نام NVIDIA Canvas در دسترس است.
شما می‌توانید در این صفحه از سایت انویدیا از این تکنولوژی جذاب و شگفت‌‌انگیز استفاده نمایید. فقط کافی است در پایین صفحه تیک مورد نظر را بزنید و در سمت چپ تصویر شروع به نقاشی کنید و سپس منتظر نتیجه‌ای خارق‌العاده بمانید.

 

نرم افزار و سایت انویدیا برای تبدیل نقاشی دیجیتالی به تصاویر واقعی با استفاده از GAN

 

ویدیوی زیر نحوه استفاده و خروجی نرم افزار GauGAN از شرکت NVIDIA را نشان می‌دهد.

نتیجه حاصل ازنرم افزار انویدیا با GAN

 

جمع بندی

در این مقاله به بررسی موارد زیر پرداختیم :

  • دیپ فیک و مزایا و معایب آن 
  • راه تشخیص دیپ فیک 
  •  اتوانکودرها و GAN 
  • انواع مثال‌ها، نرم افزارها و سایت‌های مرتبط.

اگر شما نیز با سایت ها و نرم‌افزارهای دیگر در زمینه دیپ فیک و GAN آشنایی دارید، با ما به اشتراک بگذارید.

 

نویسنده : كيانا جهانشيد

فارغ التحصیل کارشناسی ارشد هوش مصنوعی

  نظرات کاربران (0 نظر)
شما هم می توانید در مورد این مطلب نظر دهید نظر خود را بنویسید
با دوستان خود به اشتراک بگذارید
محصولات مرتبط