Doug Roble: Digital humans that look just like us

Hello. I'm not a real person. I'm actually a copy of a real person. Although, I feel like a real person. It's kind of hard to explain. Hold on -- I think I saw a real person ... there's one. Let's bring him onstage.

Bună ziua! Nu sunt o persoană adevărată. Sunt de fapt o copie a unei persoane adevărate. Cu toate că par o persoană adevărată. E un pic greu de explicat. Stați un pic, cred că am văzut pe aici o persoană adevărată... iat-o. Haideți să o chemăm pe scenă.

Hello.

Bună ziua.

(Applause)

(Aplauze)

What you see up there is a digital human. I'm wearing an inertial motion capture suit that's figuring what my body is doing. And I've got a single camera here that's watching my face and feeding some machine-learning software that's taking my expressions, like, "Hm, hm, hm," and transferring it to that guy. We call him "DigiDoug." He's actually a 3-D character that I'm controlling live in real time.

Ce vedeți acolo este o persoană digitală. Port un costum de captare a mișcării inerțiale, care procesează ce face corpul meu. Am o singură cameră care îmi filmează fața și alimentează cu date un software de învățare automată care ia expresiile mele, ca acestea, şi le transferă acelui tip. Noi îi zicem „DigiDoug”. El e de fapt un personaj 3D pe care îl controlez în timp real.

So, I work in visual effects. And in visual effects, one of the hardest things to do is to create believable, digital humans that the audience accepts as real. People are just really good at recognizing other people. Go figure! So, that's OK, we like a challenge.

Lucrez în domeniul efectelor vizuale. Și în acest domeniu, una dintre cele mai mari provocări este să creăm oameni digitali pe care publicul să-i creadă ca fiind reali. Oamenii se pricep de minune să recunoască alți oameni. Ca să vezi! Dar asta nu e o problemă, ne plac provocările.

Over the last 15 years, we've been putting humans and creatures into film that you accept as real. If they're happy, you should feel happy. And if they feel pain, you should empathize with them. We're getting pretty good at it, too. But it's really, really difficult. Effects like these take thousands of hours and hundreds of really talented artists.

În ultimii 15 ani am introdus în filme oameni și alte creaturi pe care voi le acceptați ca fiind reale. Dacă ei sunt fericiți, și voi vă simțiți fericiți. Dacă ei simt durere, simțiți nevoia să empatizați cu ei. Devenim tot mai buni în ceea ce facem, dar e foarte, foarte dificil. E nevoie de mii de ore de muncă pentru a fi create astfel de efecte, și de sute de artiști foarte talentați.

But things have changed. Over the last five years, computers and graphics cards have gotten seriously fast. And machine learning, deep learning, has happened. So we asked ourselves: Do you suppose we could create a photo-realistic human, like we're doing for film, but where you're seeing the actual emotions and the details of the person who's controlling the digital human in real time? In fact, that's our goal: If you were having a conversation with DigiDoug one-on-one, is it real enough so that you could tell whether or not I was lying to you? So that was our goal.

Dar lucrurile s-au mai schimbat. În ultimii cinci ani, calculatoarele și plăcile grafice au devenit foarte rapide. A luat naștere învățarea automată, învățarea profundă. Așa că ne-am întrebat: oare am putea crea o persoană digitală realistă, așa cum facem pentru filme, dar la care să putem vedea în timp real emoțiile și detaliile fizice ale persoanei care o controlează? De fapt, ăsta e țelul nostru. Dacă ați avea o conversație cu DigiDoug față în față, ar fi suficient de real să vă dați seama dacă eu vă mint sau nu? Acesta era țelul nostru.

About a year and a half ago, we set off to achieve this goal. What I'm going to do now is take you basically on a little bit of a journey to see exactly what we had to do to get where we are. We had to capture an enormous amount of data. In fact, by the end of this thing, we had probably one of the largest facial data sets on the planet. Of my face.

Acum un an și jumătate, am început să lucrăm la el. Acum vom merge într-o scurtă călătorie, ca să vedeți ce a trebuit să facem pentru a ajunge aici. A trebuit să colectăm o cantitate enormă de informații. De fapt, la finalul acestui proiect, vom aveam probabil cea mai mare bază de date cu informații faciale de pe planetă. Cu fața mea.

(Laughter)

(Râsete)

Why me? Well, I'll do just about anything for science. I mean, look at me! I mean, come on. We had to first figure out what my face actually looked like. Not just a photograph or a 3-D scan, but what it actually looked like in any photograph, how light interacts with my skin. Luckily for us, about three blocks away from our Los Angeles studio is this place called ICT. They're a research lab that's associated with the University of Southern California. They have a device there, it's called the "light stage." It has a zillion individually controlled lights and a whole bunch of cameras. And with that, we can reconstruct my face under a myriad of lighting conditions. We even captured the blood flow and how my face changes when I make expressions. This let us build a model of my face that, quite frankly, is just amazing. It's got an unfortunate level of detail, unfortunately.

De ce a mea? Păi, aș face aproape orice pentru știință. Adică, uitați-vă un pic la mine! Să fim serioși. În primul rând, a trebuit să înțelegem cum arată fața mea în realitate. Nu doar într-o fotografie sau la o scanare 3D, ci cum arată în orice fotografie, cum interacționează lumina cu pielea mea. Din fericire, cam la trei străzi de studioul nostru din Los Angeles e un loc numit ICT. E un laborator de cercetare afiliat Universității Californiei de Sud. Ei au un dispozitiv numit „cabina cu lumini", care are nenumărate lumini controlate individual și o mulțime de camere. Cu astea am putut reconstitui fața mea într-o imensitate de condiții de iluminat. Am determinat chiar și vascularizația şi cum se schimbă fața mea când mimez expresii. Asta ne-a permis să construim un model al feței mele care, sincer, e uimitor. Conține mai multe detalii decât mi-aș fi dorit, din păcate.

(Laughter)

(Râsete)

You can see every pore, every wrinkle. But we had to have that. Reality is all about detail. And without it, you miss it. We are far from done, though. This let us build a model of my face that looked like me. But it didn't really move like me. And that's where machine learning comes in. And machine learning needs a ton of data. So I sat down in front of some high-resolution motion-capturing device. And also, we did this traditional motion capture with markers. We created a whole bunch of images of my face and moving point clouds that represented that shapes of my face. Man, I made a lot of expressions, I said different lines in different emotional states ... We had to do a lot of capture with this. Once we had this enormous amount of data, we built and trained deep neural networks. And when we were finished with that, in 16 milliseconds, the neural network can look at my image and figure out everything about my face. It can compute my expression, my wrinkles, my blood flow -- even how my eyelashes move. This is then rendered and displayed up there with all the detail that we captured previously.

Puteți să vedeți orice por, orice rid. Dar a trebuit să facem asta. Realitatea ține întru totul de detalii. Și fără acestea, dai greș. Dar suntem încă departe. Da, am construit un model care seamăna perfect cu fața mea. Însă nu se mișca asemenea feței mele. Și aici intervine învățarea automată. Iar învățarea automată necesită foarte multe informații. Așa că m-am așezat în fața unui dispozitiv foarte performant de captare a mișcării, dar am folosit și metoda tradițională de captare a mișcării cu markeri. Am creat o sumedenie de imagini ale feței mele și grupuri de puncte mobile care generau forma feței mele. Doamne, am făcut o grămadă de expresii, am rostit diferite propoziții în diferite stări emoționale... A trebuit să facem multe captări de felul ăsta. Odată ce am obținut o cantitate enormă de informații, am construit și programat rețele neuronale profunde. Și când am terminat și cu asta, în 16 milisecunde, acea rețea neuronală se putea uita la imaginea mea și putea procesa orice în legătură cu fața mea. Îmi putea evalua expresia feței, ridurile, vascularizația, chiar și cum mi se mișcau genele. Toate acestea sunt extrase și afișate aici cu toate detaliile captate anterior.

We're far from done. This is very much a work in progress. This is actually the first time we've shown it outside of our company. And, you know, it doesn't look as convincing as we want; I've got wires coming out of the back of me, and there's a sixth-of-a-second delay between when we capture the video and we display it up there. Sixth of a second -- that's crazy good! But it's still why you're hearing a bit of an echo and stuff. And you know, this machine learning stuff is brand-new to us, sometimes it's hard to convince to do the right thing, you know? It goes a little sideways.

Și încă nu am terminat. Încă suntem în toiul procesului. E prima oară când arătăm aceste date în afara companiei și îmi dau seama că nu arată pe cât de convingător mi-aș fi dorit. Am fire atașate în spate, și avem o întârziere de o șesime de secundă între momentul în care datele sunt captate și apoi afișate. O șesime de secundă, asta e extrem de bine! Dar este și motivul din cauza căruia încă auziți un pic de ecou. Și știți, această învățare automată e ceva complet nou pentru noi. Câteodată e greu să o convingi să facă ce trebuie, înțelegeți? O mai ia și pe arătură.

(Laughter)

(Râsete)

But why did we do this? Well, there's two reasons, really. First of all, it is just crazy cool.

Dar de ce facem asta? Păi, avem două motive. Primul, pentru că e al naibii de grozav.

(Laughter)

(Râsete)

How cool is it? Well, with the push of a button, I can deliver this talk as a completely different character. This is Elbor. We put him together to test how this would work with a different appearance. And the cool thing about this technology is that, while I've changed my character, the performance is still all me. I tend to talk out of the right side of my mouth; so does Elbor.

Cât de grozav, mai precis? Păi, la o simplă apăsare de buton, pot să țin acest discurs sub forma unui personaj complet diferit. Vi-l prezint pe Elbor. L-am conceput pentru a vedea ce se întâmplă dacă schimbăm personajul. Și partea tare la această tehnologie este că, deși mi-am schimbat personajul, prestația e tot a mea. Tind să vorbesc pe partea dreaptă a gurii mele; așa face și Elbor.

(Laughter)

(Râsete)

Now, the second reason we did this, and you can imagine, is this is going to be great for film. This is a brand-new, exciting tool for artists and directors and storytellers. It's pretty obvious, right? I mean, this is going to be really neat to have. But also, now that we've built it, it's clear that this is going to go way beyond film.

Al doilea motiv, poate v-ați dat seama deja, este că va fi nemaipomenit pentru filme. Va fi un instrument nou-nouț foarte incitant pentru artiști, regizori și povestitori. Devine evident, nu? Va fi grozav să dispui de un astfel de instrument. De asemenea, acum că l-am construit, e clar că va depăși cu mult filmul clasic.

But wait. Didn't I just change my identity with the push of a button? Isn't this like "deepfake" and face-swapping that you guys may have heard of? Well, yeah. In fact, we are using some of the same technology that deepfake is using. Deepfake is 2-D and image based, while ours is full 3-D and way more powerful. But they're very related. And now I can hear you thinking, "Darn it! I though I could at least trust and believe in video. If it was live video, didn't it have to be true?" Well, we know that's not really the case, right? Even without this, there are simple tricks that you can do with video like how you frame a shot that can make it really misrepresent what's actually going on. And I've been working in visual effects for a long time, and I've known for a long time that with enough effort, we can fool anyone about anything. What this stuff and deepfake is doing is making it easier and more accessible to manipulate video, just like Photoshop did for manipulating images, some time ago.

Dar stați! Tocmai mi-am schimbat identitatea prin simpla apăsare a unui buton, nu? Nu e totuna cu falsificarea sau cu înlocuirea fețelor de care poate ați mai auzit? Păi, cam da. De fapt, folosim o parte din aceeași tehnologie utilizată în falsificările video. Doar că aceasta e bazată pe imagini 2D, pe când a noastră e 3D, deci mult mai performantă. Dar sunt foarte asemănătoare. Și vă pot auzi la ce vă gândiți: „La naiba! Credeam că măcar în înregistrările video pot să am încredere... Dacă s-a transmis în direct, nu înseamnă că e real?” În ziua de azi știm că nu mai e chiar așa. Chiar și fără asta, sunt trucuri simple pe care le puteți face cu o filmare, cum ar fi să te folosești de o încadrare care să inducă în eroare în legătură cu ce se întâmplă cu adevărat. Am lucrat multă vreme în domeniul efectelor vizuale, şi am ajuns demult la concluzia că poți, cu suficient efort, să păcălești pe oricine despre orice. Ce realizează cele două tehnologii este că fac manipularea filmărilor mai ușoară și mai accesibilă, la fel cum a făcut și Photoshop pentru imagini, acum ceva vreme.

I prefer to think about how this technology could bring humanity to other technology and bring us all closer together. Now that you've seen this, think about the possibilities. Right off the bat, you're going to see it in live events and concerts, like this. Digital celebrities, especially with new projection technology, are going to be just like the movies, but alive and in real time. And new forms of communication are coming. You can already interact with DigiDoug in VR. And it is eye-opening. It's just like you and I are in the same room, even though we may be miles apart. Heck, the next time you make a video call, you will be able to choose the version of you you want people to see. It's like really, really good makeup. I was scanned about a year and a half ago. I've aged. DigiDoug hasn't. On video calls, I never have to grow old.

Dar eu prefer să mă gândesc la cum ar putea această tehnologie să facă alte tehnologii să fie mai „umane” și să ne aducă pe toți mai aproape unii de alții. Acum, după ce ați văzut asta aici, gândiți-vă la ce posibilități există. Din start, îi vedem aplicabilitatea pentru evenimente și concerte în direct. Celebrități digitale, mai ales cu ajutorul noilor tehnologii de proiecție, vor arăta ca în filme, doar că vor fi în fața noastră și în timp real. Vor apărea noi forme de comunicare. Deja puteți interacționa cu DigiDoug în realitatea virtuală. Și asta e revelator. E ca și cum am fi cu toții în aceeași cameră, chiar dacă, de fapt, ne despart kilometri întregi. Gândiți-vă, următoarea dată când faceți un apel video, veți putea alege o versiune a voastră pe care vreți ca ceilalți s-o vadă. E ca un machiaj foarte, foarte bine făcut. Am fost scanat cam acum un an și jumătate. Am mai îmbătrânit între timp. Dar DigiDoug nu. În apelurile video, eu nu îmbătrânesc.

And as you can imagine, this is going to be used to give virtual assistants a body and a face. A humanity. I already love it that when I talk to virtual assistants, they answer back in a soothing, humanlike voice. Now they'll have a face. And you'll get all the nonverbal cues that make communication so much easier. It's going to be really nice. You'll be able to tell when a virtual assistant is busy or confused or concerned about something.

Vă dați seama că putem folosi asta pentru a da asistenților virtuali un corp și o față. Pentru a-i face umani. Deja îmi place, când vorbesc cu asistenții virtuali aceștia îmi răspund cu o voce caldă, umană. Acum vor avea și o față. Și vor fi accesibile toate elementele nonverbale care ușurează comunicarea. Va fi foarte frumos. Vom fi capabili să ne dăm seama când asistentul virtual e ocupat, confuz, sau îngrijorat de ceva.

Now, I couldn't leave the stage without you actually being able to see my real face, so you can do some comparison. So let me take off my helmet here. Yeah, don't worry, it looks way worse than it feels.

N-aș putea părăsi scena fără ca voi să vedeți fața mea reală, și să faceți o comparație. Așa că dați-mi voie să-mi scot casca. Mda, nu vă faceți griji, arată mai rău decât se simte.

(Laughter)

(Râsete)

So this is where we are. Let me put this back on here.

Asta e realitatea, deci. O pun înapoi acum.

(Laughter) Doink!

(Râsete) Doink!

So this is where we are. We're on the cusp of being able to interact with digital humans that are strikingly real, whether they're being controlled by a person or a machine. And like all new technology these days, it's going to come with some serious and real concerns that we have to deal with. But I am just so really excited about the ability to bring something that I've seen only in science fiction for my entire life into reality. Communicating with computers will be like talking to a friend. And talking to faraway friends will be like sitting with them together in the same room.

Ăsta e punctul în care ne aflăm. Suntem pe cale să putem interacționa cu oameni digitali care arată izbitor de reali, fie că sunt controlați de o persoană sau de o mașină. Și la fel ca orice tehnologie nouă din zilele noastre, vine la pachet cu niște îngrijorări serioase, reale, pe care va trebui să le gestionăm. Dar sunt foarte entuziasmat, că ceea ce am văzut doar în science fiction toată viața mea, poate deveni realitate. Comunicarea cu calculatoarele va fi ca o conversație cu un prieten. Și vom putea vorbi cu prietenii aflați la depărtare ca și cum am sta cu ei în aceeași cameră.

Thank you very much.

Vă mulțumesc foarte mult!

(Applause)

(Aplauze)

Hello.

Bună ziua.

(Applause)

(Aplauze)

(Laughter)

(Râsete)

(Laughter)

(Râsete)

(Laughter)

(Râsete)

But why did we do this? Well, there's two reasons, really. First of all, it is just crazy cool.

Dar de ce facem asta? Păi, avem două motive. Primul, pentru că e al naibii de grozav.

(Laughter)

(Râsete)

(Laughter)

(Râsete)

(Laughter)

(Râsete)

So this is where we are. Let me put this back on here.

Asta e realitatea, deci. O pun înapoi acum.

(Laughter) Doink!

(Râsete) Doink!

Thank you very much.

Vă mulțumesc foarte mult!

(Applause)

(Aplauze)

Doug Roble: Digital humans that look just like us

Doug Roble: Digital humans that look just like us

Related talks

Paul Debevec: Animating a photo-real digital face

Danielle Feinberg: The magic ingredient that brings Pixar movies to life

Tasos Frantzolas: Everything you hear on film is a lie

James Bridle: The nightmare videos of children's YouTube -- and what's wrong with the internet today

Chris Milk: How virtual reality can create the ultimate empathy machine

Ariel Garten: Know thyself, with a brain scanner

Related talks

Paul Debevec: Animating a photo-real digital face

Danielle Feinberg: The magic ingredient that brings Pixar movies to life

Tasos Frantzolas: Everything you hear on film is a lie

James Bridle: The nightmare videos of children's YouTube -- and what's wrong with the internet today

Chris Milk: How virtual reality can create the ultimate empathy machine

Ariel Garten: Know thyself, with a brain scanner