ديپ فيک يک تكنولوژی نوظهور است كه به كاربران اجازه میدهد تا با استفاده از هوش مصنوعی و الگوريتمهای یادگیری ماشین و نرمافزارهای متن باز، تصویر یا صدای افراد را در يک فيلم يا عكس دستکاری كنند و محتواهای جعلی بسازند. با پیشرفت روزافزون هوشمصنوعی، ديگر نمیتوانيد به چشمان خود نیز اعتماد كنيد!. شما حتی میتوانید با تولید ويديويی که با جعل عمیق ساخته شده است، هر حرفی را در دهان افراد قرار دهيد بدون آنکه واقعاً آن حرف را زده باشند؛ و ويديوهای باورپذیری تولید کنید كه در واقعيت، شخص موردنظرتان اصلاً در آن صحنه حضور نداشته است. اين گونه موارد جعل عميق، عمدتا به میزان قابل قبولی طبیعی به نظر میرسند، اما در ادامه خواهیم گفت که با دقت به چه نکاتی وجود دیپ فیک را در رسانه های صوتی و تصویری تشخیص دهید. در انتها نیز قادر خواهید بود به صورت عملی از این تکنولوژی استفاده کنید. ديپ فيک به چه معناست ؟ ديپ فيک اولين بار در سال 2018 ارائه شد. اين عبارت از تلفيق دو كلمه "Fake" به معنای جعلی و غیرواقعی، و"Deep learning" به معنای یادگیری عمیق ساخته شده است. جعل عميق، از الگوريتمهای يادگيری ماشين، برای دستكاری و توليد محتواهای بصری و يا صوتی استفاده میكند تا از صدا يا صورت فرد ديگر تقليد كند، و هويت فرد مورد نظر را با شخص ديگری تعويض کند و يا صداهايشان را با هم جابهجا کند، و .... . روشهای جعل عميق، با رشتههايی از جمله علوم كامپيوتر و برنامه نويسی، جلوههای بصری، انيميشنهای كامپيوتری، و حتی نوروساينس يا علوم اعصاب نیز، اشتراکهای اساسی دارد. هر برنامه مبتنی بر هوش مصنوعی، براساس دو عنصر اصلی زیر بنا شده است : دادههای ورودی ساخت مدلی كه براساس آن، الگوريتم ما بتواند عمل پردازش را انجام دهد و از آن مدل ياد بگيرد. ديپ فيک هم از این قاعده مستثنی نیست. دادههای ورودی را به صورت تصاوير یا ويديو دريافت می كند، و سپس با استفاده از كتابخانههای معروف Tensorflow و Keras ، مدل را ياد میگيرد. ساختار ديپ فيک چگونه است ؟ مانند بيشتر برنامههای مبتنی بر هوش مصنوعی ، در اينجا هم از معماری شبكههای عصبی عميق استفاده میشود . با پيشرفت GPU ها در سالهای اخير، محققين قادر بودهاند تا تكنيكهای يادگيری ماشين را توسعه دهند و اتوانكودرها و GAN ها را ايجاد كنند. اتوانكودر چيست ؟ به طور خلاصه، اتوانكودرها ابعاد داده های خام اوليه را كاهش میدهند ( برای مثال تصوير ) و يک خروجی توليد میكنند كه همان تكرار شدهی داده ورودی است.اتوانكودرها شامل دو قسمت انكودر و ديكودر هستند. زمانی كه لايه اول از شبكه عصبی اتوانكودر، از دادههای ورودی ما تغذيه میكند، انكودر وظيفه دارد تا تصاوير را فشرده كند و به ديكودر دهد. سپس ديكودر تلاش میكند تا دادهی اصلی و اوليه را بازسازی كند . اتوانكودرها، تصویر فرد A را به یک فضای نهفته با ابعاد کمتر کاهش میدهند و سپس با استفاده از يک ديكودر تصوير فرد A را با استفاده از تصوير فرد جديد B، دوباره بازسازی میکنند. يعنی اين تصوير جديد، مشخصات صورت فرد B را دارد اما روی بدن فرد A قرار گرفته است. در واقع، اينجا از انكودر برای انكود كردن ( رمزگذاری ) فردی كه میخواهيم صورتش پوشيده شود استفاده میكنيم. خروجی انكودر، به یک فضای نهفته میرود. اين فضا همان جايی است كه ويژگی های كليدی يا همان Key Features های موجود در صورت افراد و حالت های بدنیشان در بردارهای ويژگی ذخيره میشوند تا اين حركات را بتوانند دوباره بازسازی كنند. در شكل زير دو جفت شبكهی درحال تعليم میبينيد : سطر اول يک جفت انكودر و ديكودری هستند كه برای ديتاست تصوير اوليه (A) و يا تصویر مبداء استفاده میشوند. سطر دوم برای ديتاست تصوير ثانويه و يا تصویر هدف (B) استفاده میشود. اين جفت شبكهها، باعث میشوند تا انكودر ساختار صورت انسان را ياد بگيرد. به اين معنا كه ويژگی های درون چهرهی هر فرد، منحصراً در فضای مخصوص به خود قرار میگيرد : سپس از مدل تعليم يافته برای ديكود (رمزگشايی) اين فضای ويژگیها استفاده میشود. به اين معنا كه جزييات مربوط به چهره هدف ما (كه قرار است روی صورت فرد اوليه قرار داده شود) روی ويژگی هايی صورت فرد زيرين (فرد اوليه) كه قبلا انكود شده است، اضافه میشود. تركيب GAN ها و اين نوع اتوانكودرها باعث میشود تا ديپ فيک ، طبيعی و واقع گرايانهتر شود. GAN چیست و چگونه ساخته میشود ؟ شبكه مولد تخاصمی يا GAN ، يك روش يادگيری ماشين است، كه در آن دو شبكه عصبی "مولد يا generator " و "متخاصم يا discriminator" حضور دارند. اين دو شبكه عصبی برای افزايش دقت و صحتشان دائماً با يکديگر درحال رقابت هستند و به همين طريق ماشين را قادر به يادگيری سريع میكنند. بخش مولد سعی دارد تا تصاوير واقع گرايانهای خلق كند، و بخش متخاصم نيز سعی دارد تا تعيين كند كه آيا جعل عميق وجود دارد يا خير. اگر بخش مولد بتواند قسمت متخاصم را فريب دهد، بخش متخاصم با استفاده از داده های جمع آوری شده میتواند بهتر قضاوت كند. همچنين اگر بخش متخاصم تعيين كند كه تصوير ساخته شده به دست مولد، جعلی است، شبكه ثانويه در ساختن تصوير جعلی بهتر عمل خواهد كرد. اين چرخه ادامه میيابد و هیچ وقت تمام نخواهد شد. به اين مدل، بازی Zero-Sum يا حاصل جمع صفر نيز گفته میشود ( بازیای كه سود يك نفر برابر با ضرر فرد مقابل باشد). در اين حالت، مولد بايد داده های تصادفی را كه از ديتاست تعليم گرفته شده است، به يك تصوير تبدیل كند. اين تصوير توليد شده، همراه با تصاوير اصلی و بخش discriminator داده میشود . وظيفه اين بخش بسیار واضح است و آن اين است كه تصاوير اصلی را، از تصاوير مصنوعی و توليد شده توسط بخش مولد، تفريق میكند. هدف شبكه های عصبی، به حداقل رساندن خطاها است؛ و در زمينه خاص ديپ فيك، به معنای به حداقل رساندن تفاضل بين تصوير اصلی و تصوير ساخته شدهی جعلی است. ذكر اين نكته واجب است كه، برای رسيدن به چنين هدفی، اين فرآيند آنقدر بايد تکرار شود، و وزن های مدل تنظیم شوند، تا به سطح مطلوبی از دقت دست يابيم. مزیتهای استفاده از دیپ فیک اين تكنولوژی در زمينه های مخلف از جمله صنايعی مانند فيلم سازی، سرگرمی، بازیها ، شبكههای اجتماعی، و كسب و كارها استفاده میشود. برای مثال در صنعت فيلمسازی میتوان با استفاده از ديپ فيك، يك ويديوی آماتور را به يك ويديوی حرفهای تبديل كرد؛ و يا حتی در فيلمها از بازیگران مشهوری كه زنده نيستند هم استفاده كرد. عواقب استفاده از دیپ فیک در بسیاری از موارد، از روش جعل عميق، در مقاصد غيرقانونی استفاده میشود. مثلاً در تاثيرگذاری روی افراد در فرآيندهای انتخاباتی و يا در مجرم شناختن اشخاص بیگناه در رخداد جرايم. طبق تحقيقات متوجه شده اند، اخبار جعلی، بسيار سريعتر بين مردم منتشر میشود كه میتواند روی شهرت و اعتبار افراد اثرات منفی داشته باشد. از طرفی به دليل واقعی به نظر رسيدن این ويديوها، ممكن است افراد، اعمال نادرست خود را كتمان كنند و ادعای جعلی بودن آن ویدیوها را مطرح کنند. چگونه میتوان ويديوی دیپ فیک را تشخيص داد؟ بايد با اين حقيقت رو به رو شد كه امروزه تشخيص اصل يا جعلی بودن ويديوها ديگر كار آسانی نيست؛ زيرا نقطه ضعفهايی كه در ابتدا وجود داشت، مانند تار شدن تصویر و ناصاف بودن صدا و ...، دیگر در فيلم ها دیده نمیشود. اما شايد بتوان با دقت در اين چهار مورد وجود جعل را تشخيص دهیم: جزييات كوچك : جزئياتی مانند حركت طبیعی موها، چشمها و حالت صورت در حين صحبت كردن، هنوز به طور كامل و بینقص نمیتوانند جعل شوند. احساسات : ضعف ديگر در احساسات درون چهره كاراكتر مورد نظر است. به طور كلی اين تكنولوژی قادر است حالت های خوشحالی، عصبانيت، و لذت بردن را شبيه سازی كند، اما هنوز به انواع ظرافتهای احساسی موجود در چهره دست نیافته است. كيفيت ويديوها : برای مثال، ويديو های افراد معروف و سياستمداران و ....، عمدتا با بالاترين كيفيت صوتی و تصويری و با بهترين تجهيزات موجود، و بدون نويز محيطی تصويربرداری میشوند. پس در اينگونه ويديوها اگر با كيفيت نامناسب صدا و تصوير رو بهرو شديد، میتواند نشانه خوبی از اعمال جعل عميق و دستكاری باشد. منبع : هميشه اطمينان از موثق بودن منابعی كه از آنها اطلاعات دريافت میكنيم، بهترين راه برای اين است كه در دام محتواهای نامعتبر و جعلی گرفتار نشويم. راهنمای آسان برای ساخت ديپ فيک در ادامه چند نمونه از مثالهای جعل عميق آورده شده است : جايگزين كردن سر يا صورت افراد با يكديگر در ويديوها این تصویر صحنهای از ویدیوی حاصل از جعل عمیق، از صورت ایلان ماسک است. نكته مهم اين است كه بيش از 95 درصد از این نوع ويديوها، توسط DeepFaceLab ساخته شدهاند. اين برنامه تحت ويندوز تعويض چهره، كاملاً رايگان و متن باز بوده و برای همه كاربران به راحتی و بدون دانستن ساختار و چهارچوبهای يادگيری عميق نیز، قابل استفاده است. شما میتوانيد در اين صفحه از گيت هاب، از ويديوی آموزشی كوتاهی كه گذاشته شده است استفاده نماييد و حتی میتوانيد كدهای موجود را مستقيماً بر روی گوگل كولب، به آسانی اجرا كنيد و اين شبكه های عظيم را بدون نياز به داشتن سيستمی قدرتمند و یا GPU های بسيار قوی تعليم دهيد. 2. تغییر سن افراد از دیگر برنامهها و سايتهای مربوطه، میتوان به موارد زير اشاره كرد : FaceSwap Face2Face Reface Deepfakes Web انواع مثالهای GAN تبديل تصوير به تصوير در اين روش يك تصوير به عنوان ورودی دريافت میشود و به تصوير توليد شده در خروجی نگاشت داده میشود اما اين تصوير توليد شده، ويژگی های متفاوتی از تصوير اوليه دارد. براي مثال میتوانيم يك تصوير ساده، مانند طرح اوليه كيفهای سمت چپ در تصوير زير را به عنوان ورودی به GAN بدهيم و سپس با استفاده از جزئياتی كه با ديدن تصاوير Ground truth یا واقعی ياد میگيرد، میتواند شكل اوليه را طوری پر كند تا واقعگرايانه به نظر برسد. Cycle GAN اين نوع GAN ياد ميگيرد تا يك گروه از تصاوير را به تصاويري تبديل كند، كه به طرز معقولی با تصاویر گروه دیگر مرتبط باشند. برای مثال، تصوير ورودی يك اسب بوده است، و Cycle GAN تصوير خروجی را به يك گورخر تبديل كرده است. اين دو دسته يا گروه از تصاوير، برای انجام فرآيند تعليم بايد با هم ارتباط منطقی داشته باشند. در اينجا سيستم ما نيازی به داشتن برچسب يا اتصال جفتهای دو به دو بين تصاوير ندارد. تبديل متن به تصوير اين نوع از GAN ها، متن را به عنوان ورودی دريافت میكنند و تصاويری باورپذير و مطابق با توضيحات داده شده در متن مورد نظر را توليد میكنند. برای مثال اين تصوير گل، نتیجه متن زير است: ورودی شبکه بصورت متن : " اين گل، گلبرگهایی دارد به رنگ زرد و با سایه های نارنجی " تولید تصاویر با وضوح فوقالعاده این گونه از GAN ها وضوح تصاویر را با افزودن جزئیات به تصویر تار، افزایش میدهند. مثلا در تصویر زیر، تصویر اصلی در سمت چپ، و ورژن تار شدهی آن در وسط قرار دارد. با دادن تصویر تار شده به GAN ، در تصویر خروجی سمت راست، تصویری شارپ و باکیفیت خواهیم داشت. رنگ آمیزی صورت افراد از GAN برای نقاشی کردن معنادار هم استفاده میشود. در اینجا و قبل از عمل رنگ آمیزی، قسمت هایی از تصاویر بریده و سیاه شدهاند. و سیستم ما سعی دارد تا این قسمت ها را هرچه دقیقتر و طبیعیتر پر کند. GauGAN مدل یادگیری عمیق توسعه یافته توسط شرکت NVIDIA ، میتواند نقاشیهای ابتدایی شما را به مناظر شگفت انگیزی تبدیل کند! این کار توسط نوعی از GAN ها به نام GauGAN انجام میشود که امروزه تحت عنوان نرم افزار دیپ فیک بهنام NVIDIA Canvas در دسترس است. شما میتوانید در این صفحه از سایت انویدیا از این تکنولوژی جذاب و شگفتانگیز استفاده نمایید. فقط کافی است در پایین صفحه تیک مورد نظر را بزنید و در سمت چپ تصویر شروع به نقاشی کنید و سپس منتظر نتیجهای خارقالعاده بمانید. ویدیوی زیر نحوه استفاده و خروجی نرم افزار GauGAN از شرکت NVIDIA را نشان میدهد. جمع بندی در این مقاله به بررسی موارد زیر پرداختیم : دیپ فیک و مزایا و معایب آن راه تشخیص دیپ فیک اتوانکودرها و GAN انواع مثالها، نرم افزارها و سایتهای مرتبط. اگر شما نیز با سایت ها و نرمافزارهای دیگر در زمینه دیپ فیک و GAN آشنایی دارید، با ما به اشتراک بگذارید.