Doug Roble: Digital humans that look just like us

Γεια σας. Δεν είμαι αληθινός άνθρωπος. Βασικά είμαι ένα αντίγραφο ενός αληθινού ανθρώπου. Παρόλο που νιώθω σαν αληθινός. Είναι κάπως δύσκολο να το περιγράψω. Περιμένετε – νομίζω είδα έναν αληθινό άνθρωπο… να ένας. Ας τον φέρουμε στη σκηνή.

Hello. I'm not a real person. I'm actually a copy of a real person. Although, I feel like a real person. It's kind of hard to explain. Hold on -- I think I saw a real person ... there's one. Let's bring him onstage.

Γεια σας.

Hello.

(Χειροκρότημα)

(Applause)

Αυτό που βλέπετε εκεί πάνω είναι ένας ψηφιακός άνθρωπος. Φοράω μια αδρανειακή στολή σύλληψης κίνησης που αντιλαμβάνεται τι κάνει το σώμα μου. Κι έχω μία μοναδική κάμερα εδώ που παρακολουθεί το πρόσωπό μου και τροφοδοτεί λογισμικό μηχανικής μάθησης που παίρνει τις εκφράσεις μου, όπως, «Χμ, χμ, χμ», και τις μεταφέρει σε αυτόν τον τύπο. Τον αποκαλούμε «ΝτίτζιΝταγκ». Είναι βασικά ένα τρισδιάστατος χαρακτήρας που ελέγχω ζωντανά σε πραγματικό χρόνο.

What you see up there is a digital human. I'm wearing an inertial motion capture suit that's figuring what my body is doing. And I've got a single camera here that's watching my face and feeding some machine-learning software that's taking my expressions, like, "Hm, hm, hm," and transferring it to that guy. We call him "DigiDoug." He's actually a 3-D character that I'm controlling live in real time.

Δουλεύω πάνω στα οπτικά εφέ. Και στα οπτικά εφέ, το πιο δύσκολο είναι η δημιουργία πιστευτών ψηφιακών ανθρώπων που το κοινό αποδέχεται ως αληθινούς. Οι άνθρωποι είναι πολύ ικανοί στην αναγνώριση άλλων ανθρώπων. Ποιος θα το φανταζόταν! Δεν πειράζει, όμως, μας αρέσουν οι προκλήσεις.

So, I work in visual effects. And in visual effects, one of the hardest things to do is to create believable, digital humans that the audience accepts as real. People are just really good at recognizing other people. Go figure! So, that's OK, we like a challenge.

Τα τελευταία 15 χρόνια

Over the last 15 years,

βάζουμε ανθρώπους και πλάσματα σε ταινίες που αποδέχεστε ως αληθινά. Αν είναι χαρούμενοι, θα πρέπει να νιώθετε κι εσείς. Και αν νιώθουν πόνο, θα πρέπει να ταυτίζεστε με αυτούς. Γινόμαστε αρκετά καλοί με αυτό, επίσης. Αλλά είναι πραγματικά, πολύ δύσκολο. Εφέ σαν κι αυτά απαιτούν χιλιάδες ώρες και εκατοντάδες αληθινά ταλαντούχους καλλιτέχνες.

we've been putting humans and creatures into film that you accept as real. If they're happy, you should feel happy. And if they feel pain, you should empathize with them. We're getting pretty good at it, too. But it's really, really difficult. Effects like these take thousands of hours and hundreds of really talented artists.

Αλλά τα πράγματα έχουν αλλάξει. Τα τελευταία πέντε χρόνια, οι υπολογιστές και οι κάρτες γραφικών έχουν γίνει απίστευτα γρήγοροι και η μηχανική μάθηση, η βαθιά μάθηση είναι γεγονός. Οπότε, αναρωτηθήκαμε: Θα μπορούσαμε να δημιουργήσουμε έναν φωτορεαλιστικό άνθρωπο όπως κάνουμε στις ταινίες, αλλά όπου θα βλέπετε τα πραγματικά συναισθήματα και τις λεπτομέρειες του ανθρώπου που ελέγχει τον ψηφιακό άνθρωπο σε πραγματικό χρόνο; Στην ουσία, αυτός είναι ο στόχος μας: Αν είχατε μια συζήτηση με τον ΝτίτζιΝταγκ ένας προς έναν, θα είναι αρκετά αληθινός ώστε να μπορείτε να ξεχωρίσετε εάν σας λέω ψέματα ή όχι; Οπότε αυτός ήταν ο στόχος μας.

But things have changed. Over the last five years, computers and graphics cards have gotten seriously fast. And machine learning, deep learning, has happened. So we asked ourselves: Do you suppose we could create a photo-realistic human, like we're doing for film, but where you're seeing the actual emotions and the details of the person who's controlling the digital human in real time? In fact, that's our goal: If you were having a conversation with DigiDoug one-on-one, is it real enough so that you could tell whether or not I was lying to you? So that was our goal.

Πριν από ενάμιση χρόνο, ξεκινήσαμε για να επιτύχουμε αυτόν τον στόχο. Αυτό που θα κάνω τώρα είναι να σας πάρω βασικά σε ένα μικρό ταξίδι για να δείτε τι ακριβώς έπρεπε να κάνουμε για να φτάσουμε εδώ που είμαστε. Έπρεπε να καταγράψουμε μια απίστευτη ποσότητα δεδομένων. Στην ουσία, στο τέλος αυτού του εγχειρήματος, είχαμε πιθανότατα ένα από τα μεγαλύτερα πακέτα δεδομένων προσώπου στον πλανήτη. Του δικού μου προσώπου.

About a year and a half ago, we set off to achieve this goal. What I'm going to do now is take you basically on a little bit of a journey to see exactly what we had to do to get where we are. We had to capture an enormous amount of data. In fact, by the end of this thing, we had probably one of the largest facial data sets on the planet. Of my face.

(Γέλια)

(Laughter)

Γιατί το δικό μου; Θα κάνω σχεδόν τα πάντα για την επιστήμη. Βασικά, κοιτάξτε με! Ελάτε τώρα. Έπρεπε πρώτα να κατανοήσουμε πώς πραγματικά έμοιαζε το πρόσωπό μου. Όχι μόνο σε μια φωτογραφία ή σε τρισδιάστατη ανάλυση, αλλά πώς πραγματικά έμοιαζε σε κάθε φωτογραφία, πώς το φως αλληλεπιδρά με το δέρμα μου. Ευτυχώς για εμάς, τρία στενά πιο κάτω από το στούντιό μας στο Λος Άντζελες είναι αυτό το μέρος που λέγεται ICT. Είναι ένα ερευνητικό εργαστήριο που συνεργάζεται με το Πανεπιστήμιο της Νότια Καλιφόρνια. Έχουν μια συσκευή εκεί, που αποκαλείται «σκηνή φωτός». Έχει εκατομμύρια ατομικά ελεγχόμενα φώτα και ένα σωρό κάμερες. Και με αυτό, μπορούμε να αποδομήσουμε το πρόσωπό μου κάτω από χιλιάδες συνθήκες φωτός. Καταγράψαμε ακόμα και την κίνηση του αίματος και το πώς αλλάζει το πρόσωπό μου όταν κάνω εκφράσεις. Αυτό μας επιτρέπει να χτίσουμε ένα μοντέλο του προσώπου μου που πραγματικά είναι απίστευτο. Έχει λάβει ένα δυστυχές επίπεδο λεπτομέρειας, δυστυχώς.

Why me? Well, I'll do just about anything for science. I mean, look at me! I mean, come on. We had to first figure out what my face actually looked like. Not just a photograph or a 3-D scan, but what it actually looked like in any photograph, how light interacts with my skin. Luckily for us, about three blocks away from our Los Angeles studio is this place called ICT. They're a research lab that's associated with the University of Southern California. They have a device there, it's called the "light stage." It has a zillion individually controlled lights and a whole bunch of cameras. And with that, we can reconstruct my face under a myriad of lighting conditions. We even captured the blood flow and how my face changes when I make expressions. This let us build a model of my face that, quite frankly, is just amazing. It's got an unfortunate level of detail, unfortunately.

(Γέλια)

(Laughter)

Μπορείτε να δείτε κάθε πόρο, κάθε ρυτίδα. Αλλά έπρεπε να το έχουμε. Η πραγματικότητα βρίσκεται στην λεπτομέρεια. Και χωρίς αυτήν, την χάνετε. Παρόλ’ αυτά, απέχουμε πολύ από το τέλος. Αυτό μας επέτρεψε να χτίσουμε ένα μοντέλο του προσώπου μου, όμοιο με το δικό μου, αλλά δεν κινούταν σαν κι εμένα. Κι εδώ εμπλέκεται η μηχανική μάθηση. Και η μηχανική μάθηση χρειάζεται τόνους δεδομένων. Οπότε, έκατσα μπροστά σε υψηλής ευκρίνειας συσκευές σύλληψης κίνησης. Κι επίσης, κάναμε αυτή την παραδοσιακή σύλληψη κίνησης με σημεία. Δημιουργήσαμε ένα σωρό εικόνες του προσώπου μου και υπολογιστικά σημεία εν κινήσει που αντιπροσώπευαν τα σχήματα το προσώπου μου. Σας λέω, έκανα πολλές εκφράσεις, είπα διαφορετικά λόγια σε διαφορετικά συναισθηματικά πλαίσια… Έπρεπε να κάνουμε πολλή καταγραφή με αυτό. Εφόσον είχαμε αυτήν την τεράστια ποσότητα δεδομένων, χτίσαμε και εκπαιδεύσαμε βαθιά νευρωνικά δίκτυα. Και όταν τελειώσαμε με αυτό, σε 16 χιλιοστά του δευτερολέπτου, το νευρωνικό δίκτυο μπορεί να δει την εικόνα μου και να κατανοήσει τα πάντα για το πρόσωπό μου. Μπορεί να επεξεργαστεί την έκφρασή μου, τις ρυτίδες μου, την κίνηση του αίματος - ακόμα και το πώς κινούνται οι βλεφαρίδες μου. Αυτό μετά αποδίδεται και απεικονίζεται εκεί με όλη τη λεπτομέρεια που καταγράψαμε προηγουμένως.

You can see every pore, every wrinkle. But we had to have that. Reality is all about detail. And without it, you miss it. We are far from done, though. This let us build a model of my face that looked like me. But it didn't really move like me. And that's where machine learning comes in. And machine learning needs a ton of data. So I sat down in front of some high-resolution motion-capturing device. And also, we did this traditional motion capture with markers. We created a whole bunch of images of my face and moving point clouds that represented that shapes of my face. Man, I made a lot of expressions, I said different lines in different emotional states ... We had to do a lot of capture with this. Once we had this enormous amount of data, we built and trained deep neural networks. And when we were finished with that, in 16 milliseconds, the neural network can look at my image and figure out everything about my face. It can compute my expression, my wrinkles, my blood flow -- even how my eyelashes move. This is then rendered and displayed up there with all the detail that we captured previously.

Έχουμε, όμως, ακόμα δρόμο. Είναι ουσιαστικά ένα έργο σε εξέλιξη. Αυτή βασικά είναι η πρώτη φορά που το δείχνουμε εκτός εταιρείας. Και ξέρετε, δε μοιάζει τόσο πειστικό όσο θα θέλαμε. Καλώδια βγαίνουν από πίσω μου, έχουμε 1/6 του δευτερολέπτου καθυστέρηση ανάμεσα στην καταγραφή και την προβολή του βίντεο εκεί. Μόνο 1/6 του δευτερολέπτου – είναι τρελό! Αλλά γι’ αυτό ακόμα ακούτε λίγη ηχώ και άλλα. Και ξέρετε, όλη αυτή η μηχανική μάθηση είναι εντελώς καινούρια για εμάς, κάποιες φορές είναι δύσκολο να πείσεις να κάνεις το σωστό. Μας ξεφεύγει λίγο πλαγίως.

We're far from done. This is very much a work in progress. This is actually the first time we've shown it outside of our company. And, you know, it doesn't look as convincing as we want; I've got wires coming out of the back of me, and there's a sixth-of-a-second delay between when we capture the video and we display it up there. Sixth of a second -- that's crazy good! But it's still why you're hearing a bit of an echo and stuff. And you know, this machine learning stuff is brand-new to us, sometimes it's hard to convince to do the right thing, you know? It goes a little sideways.

(Γέλια)

(Laughter)

Αλλά γιατί το κάναμε αυτό; Λοιπόν, υπάρχουν δύο λόγοι, στην αλήθεια. Αρχικά, τα σπάει.

But why did we do this? Well, there's two reasons, really. First of all, it is just crazy cool.

(Γέλια)

(Laughter)

Πόσο τα σπάει; Με το πάτημα ενός κουμπιού, μπορώ να αποδώσω αυτή την ομιλία σαν έναν εντελώς διαφορετικός χαρακτήρας. Αυτός είναι ο Έλμπορ. Τον δημιουργήσαμε για να δοκιμάσουμε πώς θα δούλευε με μια διαφορετική εμφάνιση. Και το φοβερό με αυτή την τεχνολογία είναι ότι, ενώ άλλαξα τον χαρακτήρα μου, η απόδοση εξαρτάται εξολοκλήρου από μένα. Τείνω να μιλήσω από την δεξιά πλευρά του στόματός μου, το ίδιο και ο Έλμπορ.

How cool is it? Well, with the push of a button, I can deliver this talk as a completely different character. This is Elbor. We put him together to test how this would work with a different appearance. And the cool thing about this technology is that, while I've changed my character, the performance is still all me. I tend to talk out of the right side of my mouth; so does Elbor.

(Γέλια)

(Laughter)

Ο δεύτερος λόγος που το κάναμε, -και μπορείτε να φανταστείτε- είναι ότι θα είναι φοβερό στις ταινίες. Αυτό είναι ένα ολοκαίνουργιο, συναρπαστικό εργαλείο για καλλιτέχνες, σκηνοθέτες και αφηγητές. Είναι αρκετά προφανές, σωστά; Πρόκειται να είναι πραγματικά φίνο να το έχεις. Αλλά επίσης τώρα που το έχουμε αναπτύξει, είναι ξεκάθαρο ότι πρόκειται να προχωρήσει πέρα από τις ταινίες.

Now, the second reason we did this, and you can imagine, is this is going to be great for film. This is a brand-new, exciting tool for artists and directors and storytellers. It's pretty obvious, right? I mean, this is going to be really neat to have. But also, now that we've built it, it's clear that this is going to go way beyond film.

Αλλά σταθείτε. Δεν άλλαξα μόλις την ταυτότητά μου με το πάτημα ενός κουμπιού; Δεν είναι σαν ψηφιακή παραποίηση και την αλλαγή προσώπων, που μάλλον έχετε ακούσει; Εεε, βέβαια! Στην ουσία, χρησιμοποιούμε κάποια από την ίδια τεχνολογία που το deepfake χρησιμοποιεί Το deepfake είναι δύο διαστάσεων και βασισμένο στην εικόνα, ενώ το δικό μας τρισδιάστατο και πολύ πιο δυναμικό. Αλλά σχετίζονται πολύ. Και τώρα ξέρω τι σκέφτεστε. «Ανάθεμα! Πίστευα ότι μπορούσα τουλάχιστον να εμπιστεύομαι τα βίντεο. Αν ήταν ζωντανό βίντεο, δεν θα ήταν αληθινό;» Ξέρουμε, ότι αυτό δεν είναι το ζήτημα, σωστά; Ακόμα και χωρίς αυτό, υπάρχουν απλά κόλπα, που μπορείς να κάνεις με τα βίντεο, όπως το πώς πλαισιώνεις μια σκηνή που μπορεί να παρερμηνεύσει για το γίνεται στα αλήθεια. Και δουλεύω στα οπτικά εφέ για πολύ καιρό, και γνωρίζω εδώ και πολύ καιρό ότι με αρκετή προσπάθεια μπορούμε να κοροϊδέψουμε τον καθένα για οτιδήποτε. Αυτό που κάνουν αυτά τα πράγματα και το deepfake είναι να κάνουν ευκολότερο και πιο προσβάσιμο να παραποιηθούν τα βίντεο, όπως έκανε το Photoshop για να μεταποιεί εικόνες, πριν από καιρό.

But wait. Didn't I just change my identity with the push of a button? Isn't this like "deepfake" and face-swapping that you guys may have heard of? Well, yeah. In fact, we are using some of the same technology that deepfake is using. Deepfake is 2-D and image based, while ours is full 3-D and way more powerful. But they're very related. And now I can hear you thinking, "Darn it! I though I could at least trust and believe in video. If it was live video, didn't it have to be true?" Well, we know that's not really the case, right? Even without this, there are simple tricks that you can do with video like how you frame a shot that can make it really misrepresent what's actually going on. And I've been working in visual effects for a long time, and I've known for a long time that with enough effort, we can fool anyone about anything. What this stuff and deepfake is doing is making it easier and more accessible to manipulate video, just like Photoshop did for manipulating images, some time ago.

Προτιμώ να σκέφτομαι πώς αυτή η τεχνολογία θα μπορούσε να φέρει την ανθρωπότητα σε άλλη τεχνολογία, και να μας φέρει όλους μας πιο κοντά. Τώρα που έχετε δει αυτό, σκεφτείτε τις δυνατότητες. Ξαφνικά, θα το δείτε σε ζωντανές εκδηλώσεις και συναυλίες, κάπως έτσι. Ψηφιακές διασημότητες, ειδικά με νέα τεχνολογία προβολής, θα είναι όπως στις ταινίες αλλά ζωντανοί σε πραγματικό χρόνο. Και νέες μορφές επικοινωνίας έρχονται. Μπορείτε ήδη να αλληλεπιδράσετε με τον ΝτίτζιΝταγκ σε εικονική πραγματικότητα. Και είναι αποκαλυπτικό. Είναι σαν εσύ και εγώ να είμαστε στο ίδιο δωμάτιο, ακόμα και αν είμαστε μίλια μακριά. Να πάρει, την επόμενη φορά που θα κάνετε βιντεοκλήση, θα μπορείτε να διαλέξετε ποια εκδοχή σας θέλετε να δουν οι άνθρωποι. Είναι σαν ένα πάρα πολύ καλό μακιγιάζ. Είχα σαρωθεί περίπου ενάμιση χρόνο πριν. Εγώ γέρασα. Ο ΝτίτζιΝταγκ, όχι. Στις βιντεοκλήσεις, δεν χρειάζεται να γερνάω,

I prefer to think about how this technology could bring humanity to other technology and bring us all closer together. Now that you've seen this, think about the possibilities. Right off the bat, you're going to see it in live events and concerts, like this. Digital celebrities, especially with new projection technology, are going to be just like the movies, but alive and in real time. And new forms of communication are coming. You can already interact with DigiDoug in VR. And it is eye-opening. It's just like you and I are in the same room, even though we may be miles apart. Heck, the next time you make a video call, you will be able to choose the version of you you want people to see. It's like really, really good makeup. I was scanned about a year and a half ago. I've aged. DigiDoug hasn't. On video calls, I never have to grow old.

και όπως μπορείτε να φανταστείτε, αυτό θα χρησιμοποιηθεί για να δώσει στους διαδικτυακούς βοηθούς σώμα και πρόσωπο. Μια ανθρωπιά. Λατρεύω ήδη όταν μιλάω σε διαδικτυακούς βοηθούς, απαντάνε με μια απαλή ανθρωπόμορφη φωνή. Τώρα θα αποκτήσουν ένα πρόσωπο. και θα έχετε όλα τα μη λεκτικά σημάδια που κάνουν την επικοινωνία τόσο πιο εύκολη. Θα είναι πραγματικά ωραίο. Θα ξέρετε αν ο διαδικτυακός βοηθός είναι απασχολημένος ή μπερδεμένος ή προβληματισμένος για κάτι.

And as you can imagine, this is going to be used to give virtual assistants a body and a face. A humanity. I already love it that when I talk to virtual assistants, they answer back in a soothing, humanlike voice. Now they'll have a face. And you'll get all the nonverbal cues that make communication so much easier. It's going to be really nice. You'll be able to tell when a virtual assistant is busy or confused or concerned about something.

Δεν θα μπορούσα να φύγω από τη σκηνή χωρίς να μπορείτε να δείτε το πραγματικό μου πρόσωπο, ώστε να κάνετε μια κάποια σύγκριση. Επιτρέψτε μου να βγάλω το κράνος κάπου εδώ. Ναι, μην ανησυχείτε, φαίνεται χειρότερο απ’ ό,τι είναι.

Now, I couldn't leave the stage without you actually being able to see my real face, so you can do some comparison. So let me take off my helmet here. Yeah, don't worry, it looks way worse than it feels.

(Γέλια)

(Laughter)

Εδώ φτάσαμε, λοιπόν. Ας το βάλω ξανά αυτό.

So this is where we are. Let me put this back on here.

(Γέλια) Ντόινκ!

(Laughter) Doink!

Εδώ φτάσαμε, λοιπόν. Είμαστε στο μεταίχμιο να μπορούμε να επικοινωνήσουμε με ψηφιακούς ανθρώπους που είναι καθηλωτικά αληθινοί, είτε ελέγχονται από κάποιο άτομο ή μηχανή. Και όπως κάθε τεχνολογία σήμερα, θα επέλθει μαζί με άλλες σοβαρές και αληθινές ανησυχίες που πρέπει να αντιμετωπίσουμε. Αλλά είμαι τόσο ενθουσιασμένος για την δυνατότητα να φέρουμε κάτι που έβλεπα μόνο στην επιστημονική φαντασία για όλη μου τη ζωή στην πραγματικότητα. Η επικοινωνία με τους υπολογιστές θα μοιάζει με το να μιλάτε σε έναν φίλο. και το να μιλάτε σε απομακρυσμένους φίλους θα είναι σαν να κάθεστε μαζί τους στο ίδιο δωμάτιο.

So this is where we are. We're on the cusp of being able to interact with digital humans that are strikingly real, whether they're being controlled by a person or a machine. And like all new technology these days, it's going to come with some serious and real concerns that we have to deal with. But I am just so really excited about the ability to bring something that I've seen only in science fiction for my entire life into reality. Communicating with computers will be like talking to a friend. And talking to faraway friends will be like sitting with them together in the same room.

Σας ευχαριστώ πολύ.

Thank you very much.

(Χειροκρότημα)

(Applause)

Γεια σας.

Hello.

(Χειροκρότημα)

(Applause)

Τα τελευταία 15 χρόνια

Over the last 15 years,

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

Αλλά γιατί το κάναμε αυτό; Λοιπόν, υπάρχουν δύο λόγοι, στην αλήθεια. Αρχικά, τα σπάει.

But why did we do this? Well, there's two reasons, really. First of all, it is just crazy cool.

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

Εδώ φτάσαμε, λοιπόν. Ας το βάλω ξανά αυτό.

So this is where we are. Let me put this back on here.

(Γέλια) Ντόινκ!

(Laughter) Doink!

Σας ευχαριστώ πολύ.

Thank you very much.

(Χειροκρότημα)

(Applause)

Doug Roble: Digital humans that look just like us

Doug Roble: Digital humans that look just like us

Related talks

Paul Debevec: Animating a photo-real digital face

Danielle Feinberg: The magic ingredient that brings Pixar movies to life

Tasos Frantzolas: Everything you hear on film is a lie

James Bridle: The nightmare videos of children's YouTube -- and what's wrong with the internet today

Chris Milk: How virtual reality can create the ultimate empathy machine

Ariel Garten: Know thyself, with a brain scanner

Related talks

Paul Debevec: Animating a photo-real digital face

Danielle Feinberg: The magic ingredient that brings Pixar movies to life

Tasos Frantzolas: Everything you hear on film is a lie

James Bridle: The nightmare videos of children's YouTube -- and what's wrong with the internet today

Chris Milk: How virtual reality can create the ultimate empathy machine

Ariel Garten: Know thyself, with a brain scanner