Deepfakes και βαθιά βίντεο πορτρέτα - τι είναι αυτά και ποιες είναι οι διαφορές τους;

Ξέρεις σίγουρα τι είναι το Deepfake, αλλά μπορεί να μην ξέρεις τι είναι ή τι σημαίνει πραγματικά. Μπορεί να μην γνωρίζετε ότι υπάρχουν διαφορετικές τεχνολογίες που μπορούν να παράγουν ψεύτικο βίντεο και ήχο.

Όλοι γνωρίζουμε τις εικόνες "photoshopped" και πόσο μακριά έχουν περάσει. Εισάγουμε επίσης εφέ βίντεο (VFX) και ειδικά εφέ που έχουν χρησιμοποιηθεί σε ταινίες εδώ και δεκαετίες. Αλλά μια καινούργια εποχή ψεύτικων μέσων έρχεται εξαιτίας των Deepfakes.

Οι τεχνολογίες Deepfake και Deep Video Portrait είναι δύο παρόμοιες αλλά διαφορετικές τεχνικές που χρησιμοποιούνται στις κινηματογραφικές ταινίες του Χόλιγουντ, στα βίντεο του YouTube και ναι, στην πορνογραφία. Αλλά τι είναι πραγματικά αυτή η τεχνολογία και πώς λειτουργεί;

Αν ακόμα δεν έχετε δει το πρόσωπο του Nicholas Cage να συκοφαντεί βίντεο σχετικά με έναν άλλο ηθοποιό, τότε πιθανότατα θα έχετε δει πολλά "φίλτρα" ή "μάσκες" που σας κάνουν γάτα, προσθέστε ένα μάγειρα. βάλτε ένα καπέλο στο κεφάλι σας ή κάντε ένα μόνο χρώμα.

Έχετε δει πιθανώς βίντεο BuzzFeed, στα οποία ο κωμικός και ιμπρεσιονιστής Jordan Pil δείχνει στο βίντεο πώς κάποιος μπορεί να χειριστεί το πρόσωπό του (στην περίπτωση αυτή, ο πρώην Πρόεδρος Μπαράκ Ομπάμα) και φαίνεται να λέει κάτι που δεν έκανε ποτέ.

Μπορεί να ακούσατε ότι ο αστέρας της Wonder Woman Gal Gadot εμφανίζεται σε υποτιθέμενο βίντεο για ενήλικες σε μια ψεύτικη ταινία που ονομάζεται "Βάθη" από έναν χρήστη του Reddit. Το πρόσωπο του Gadot προστέθηκε στο σώμα ενός πορνοστασίου τον περασμένο Δεκέμβριο. Deepfakes.

Τι είναι ο Deepfake;

Ίσως να πιστεύετε ότι η βάση του Deepfakes είναι "αντικατάσταση προσώπου".

Το Deepfake είναι ένα βίντεο που υποστηρίζεται από AI που δημιουργείται με τη λήψη πολλών φωτογραφιών (συνήθως εκατοντάδων ή χιλιάδων) ενός πηγαίου ατόμου. Αυτές οι εικόνες μπορούν να μεταφορτωθούν από διάφορες πηγές, όπως το Instagram, το Facebook, το Snapchat ή ακόμα και η αναζήτηση εικόνων Google.

Το Deepfake AI θα χαρτογραφήσει το πρόσωπο των εικόνων πηγής και θα δημιουργήσει ένα 3D μοντέλο με βάση τις φωτογραφίες που βλέπετε. Το μοντέλο χαρτώνει τα πρόσωπα και τα χαρακτηριστικά του σκηνοθέτη:

Πηγή: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8 Από τον Cole Murray

Το πρόγραμμα παρέχει επίσης ένα βίντεο πηγή με πρόσωπο στόχου που ο χρήστης θέλει να αλλάξει. Το AI χαρτογραφεί επίσης το πρόσωπο του ατόμου στο βίντεο και δημιουργεί ένα άλλο μοντέλο χαρτών 3-D.

Ο Simon Lucy, καθηγητής έρευνας στην CMU, χρησιμοποιεί τον εαυτό του ως μοντέλο για να παρουσιάσει το λογισμικό χαρτογράφησης προσώπου που αναπτύχθηκε για τον λιανοπωλητή του. Πίστωση: Simon Lucey / CMU

Το AI αρχίζει να ταιριάζει με το μοντέλο προέλευσης με το μοντέλο στόχο. "Μαθαίνει" τα πρόσωπα μέσω των εικόνων (δεδομένα άσκησης), τα οποία μοιάζουν με τα εξής:

Παράδειγμα άσκησης αντικατάστασης προσώπου - Adi Robertson από τους Elon Musk και Jeff Bezos, Πηγή: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-swapping

Το AI αφαιρεί τότε το παραγόμενο πρόσωπο 3-D από τις φωτογραφίες στο μοντέλο 3-D του βίντεο προορισμού και παράγει ένα βίντεο που ταιριάζει με τις κινήσεις του προσώπου, του στόματος, των ματιών κ.ο.κ. πρωτότυπο πρόσωπο.

Η πηγή του Deepfake είναι μια σειρά από εικόνες και το αποτέλεσμα του Deepfake είναι ένα βίντεο πρόσωπο με πρόσωπο το οποίο έχει αλλάξει ως παράδειγμα:

Τι κάνει αυτό το βαθύ πορτρέτο βίντεο διαφορετικό;

Η διαφορά μεταξύ του "Deepfake" και του "Deep Video Portrait" (DVP για τη συντόμευση) έρχεται σε δύο μεγάλες διαφορές:

  1. Το βίντεο από το DVP δεν αντικαθιστά το πρόσωπο, αλλά μόνο τις λειτουργίες ελέγχου
  2. Η πηγή για DVP δεν προέρχεται από προσωπικές φωτογραφίες αλλά από ζωντανό ηθοποιό.

Το DVP δεν είναι αντικατάσταση προσώπου. Είναι χειρισμός προσώπου. Κουκλοθέατρο βίντεο.

Το βίντεο που συνδέεται στην αρχή αυτού του άρθρου δείχνει ότι ο Ομπάμα μιλά για ψεύτικα βίντεο, όχι ψεύτικο, αλλά ένα παράδειγμα DVP. Υπάρχει ένας ηθοποιός του οποίου το πρόσωπο εμφανίζεται στο χάρτη και αν δεν αλλάξατε το πρόσωπο του στόχου αλλά μετακινήσατε μόνο το πρόσωπο του στόχου, το αποτέλεσμα μπορεί να εμπιστευτεί ακόμα περισσότερο από τη φωτογραφική βαθιά.

Οι δημιουργοί DVP μπορούν να κάνουν πράγματα όπως στοχευόμενο αναβοσβήνουν, άνοιγμα στο στόμα, αύξηση των φρυδιών και στροφή της κεφαλής. Με τη σειρά τους, οι βαθύτερες φωνές δεν μπορούν να αποσπούν την προσοχή από τις αρχικές ενέργειες βίντεο. Αυτός είναι ο λόγος για τον οποίο το DVP μπορεί να εμπιστευτεί περισσότερο από οτιδήποτε βαθιά.

Αυτό το παράδειγμα παρέχει μια πιο εμπεριστατωμένη ματιά στο πώς λειτουργεί αυτή η τεχνολογία "ζωγραφική προσώπου και επανένταξης":

Η μάσκα φίλτρου Snapchat ή Instagram είναι DVP, όχι Deepfake. Αυτό συμβαίνει επειδή εσείς (ο στόχος δεν αλλάζει πρόσωπα), αλλά το πρόσωπό σας έχει αντιστοιχιστεί και η εφαρμογή απλώς κλείνει κάτι στο πρόσωπό σας:

Ήχος πλαστά και βαθιά βίντεο πορτρέτα

Υπάρχει ένας άλλος τύπος ψεύτικου περιεχομένου που έχει βελτιωθεί πρόσφατα και γίνεται πιο δημοφιλής - δημιουργώντας ήχο.

Το 2016, η Adobe Max παρουσίασε το Adobe VoCo στο δημιουργικό συνέδριο: μια σουίτα ήχου που βοηθά τους χρήστες να λένε στους ανθρώπους τι θέλουν. Σκεφτείτε να μεταφράσετε το κείμενο στην ομιλία, αλλά με βάση την πραγματική φωνή κάποιου.

Η εταιρεία ισχυρίζεται ότι ένας ακροατής 20 λεπτών θα επιτρέψει στη VoCo να κυκλοφορήσει ένα αυθεντικό φωνητικό κομμάτι σαν πηγή. Η έξοδος παράγεται από έναν υπολογιστή που εκτελεί το λογισμικό.

Το Adobe VoCo δεν έχει ακουστεί πραγματικά από το 2016, πιθανώς μετά την άνοδο των θεμάτων ιδιωτικότητας και ιδιωτικότητας. Παρουσιάστηκε σε ένα "φόρουμ ιδεών" που δεν ανακοινώθηκε ως νέο προϊόν. Ενέπνευσε την περιέργεια, τον ενθουσιασμό και τη συζήτηση, αλλά δεν περίμενε ακριβώς την απελευθέρωσή του.

Τώρα που οι ιδέες και η τεχνολογία είναι διαθέσιμες, άλλες εταιρείες έχουν κυκλοφορήσει τη δική τους τεχνολογία ήχου. Το Lyrebird έχει κυκλοφορήσει μια υπηρεσία που θα δημιουργήσει για εσάς ένα "φωνητικό avatar" με βάση μόνο 30 φράσεις (βασισμένες σε περίπου 20 λεπτά για VoCo).

Ενώ η VoCo χρειάζεται τοπικούς πόρους πληροφορικής για την παραγωγή των προϊόντων της, το Lyrebird χρησιμοποιεί μεγάλης κλίμακας νέφους πόρους και ως εκ τούτου επιταχύνει σημαντικά την παραγωγή. Το Lyrebird απαιτεί επίσης 30 ειδικές προτάσεις εναντίον ενός 20λεπτου βασικού λόγου λόγου που μπορεί να μειώσει την απογοήτευση και άλλες αδυναμίες.

Η απάτη ήχου με DVP μπορεί να αυξήσει την εμπιστοσύνη. Αυτό συμβαίνει επειδή δεν ακούτε μια εντύπωση ότι κάποιος μπορεί να χάσει μια εντύπωση, αλλά μάλλον μια πληρέστερη αναπαράσταση της φωνής του ατόμου-στόχου.

Υβριδική τεχνολογία

Το FaceSwap είναι ένα πρόγραμμα που σας επιτρέπει να συνδυάσετε το πρόσωπο Deepfake στο πρόσωπό του, αλλά το πρόσωπο του αλάνθαστου σε πραγματικό χρόνο. Συνδυάζει το Deepfake και το DVP.

Περίληψη

Αυτές οι τεχνολογίες θα συνεχίσουν να βελτιώνονται. Αν και πολλές χρήσεις είναι διασκεδαστικές και ιδιότροπες, αυτή η τεχνολογία έχει τεράστιο αντίκτυπο.

Το Deepakes και το DVP θα επηρεάσουν αναμφίβολα την άποψή μας για την αλήθεια, την εμπιστοσύνη και την ιδιωτικότητα. Αλλά η συζήτηση για την ηθική, τα προβλήματα και τις κοινωνικές επιδράσεις (καλές και κακές) είναι πέρα ​​από το πεδίο εφαρμογής αυτού του άρθρου.

Μέχρι στιγμής, η μόνη λύση είναι να αναρωτηθείτε τι έχετε δει και ακούσει.

Φωτογραφία από τον Mikes Pexels Pictures