Hello. I'm not a real person. I'm actually a copy of a real person. Although, I feel like a real person. It's kind of hard to explain. Hold on -- I think I saw a real person ... there's one. Let's bring him onstage.
Üdv! Nem vagyok valóságos személy. Egy valóságos személy másolata vagyok. Habár valós személynek érzem magam. Ezt elég nehéz megmagyarázni. Várjunk csak – szerintem láttam egy valós személyt.... ott van egy! Hívjuk a színpadra!
Hello.
Üdv!
(Applause)
(Taps)
What you see up there is a digital human. I'm wearing an inertial motion capture suit that's figuring what my body is doing. And I've got a single camera here that's watching my face and feeding some machine-learning software that's taking my expressions, like, "Hm, hm, hm," and transferring it to that guy. We call him "DigiDoug." He's actually a 3-D character that I'm controlling live in real time.
Amit ott látnak, az egy digitális ember. Inerciális mozgásrögzítő ruhát viselek, ami leköveti a testem mozdulatait. Van itt egy kamera, ami az arcomat figyeli, és gépitanulás-szoftvert alkalmazva felveszi az arckifejezéseimet, például: "Hm, hm, hm", majd ezt közvetíti annak a fickónak. Úgy hívjuk: DigiDoug. Valójában egy 3D-s figura, amit valós időben irányítok.
So, I work in visual effects. And in visual effects, one of the hardest things to do is to create believable, digital humans that the audience accepts as real. People are just really good at recognizing other people. Go figure! So, that's OK, we like a challenge.
Filmes trükkökkel dolgozom. A filmes trükköknél az egyik legnehezebb feladat hiteles, digitális embereket teremteni, amit a közönség valóságosként fogad el. Az emberek igazán remekül képesek mások felismerésére. Gondolhatják! Nos, rendben, szeretjük a kihívást.
Over the last 15 years, we've been putting humans and creatures into film that you accept as real. If they're happy, you should feel happy. And if they feel pain, you should empathize with them. We're getting pretty good at it, too. But it's really, really difficult. Effects like these take thousands of hours and hundreds of really talented artists.
Az elmúlt tizenöt évben filmre vettünk embereket és más lényeket, akik valóságosnak tűntek. Ha ők boldogok, nekünk is ugyanazt kell éreznünk. Ha szenvednek, együtt kell szenvednünk velük. Egyre jobbak leszünk ebben is. De nagyon, nagyon nehéz. Több ezer munkaóra és több száz tehetséges művész kell az ilyen hatáselemekhez.
But things have changed. Over the last five years, computers and graphics cards have gotten seriously fast. And machine learning, deep learning, has happened. So we asked ourselves: Do you suppose we could create a photo-realistic human, like we're doing for film, but where you're seeing the actual emotions and the details of the person who's controlling the digital human in real time? In fact, that's our goal: If you were having a conversation with DigiDoug one-on-one, is it real enough so that you could tell whether or not I was lying to you? So that was our goal.
A dolgok azonban megváltoztak. Az utóbbi öt évben a számítógépek és grafikus kártyák jelentős mértékben felgyorsultak. A gépi tanulás, mélytanulás valóra vált. Tehát felmerült a kérdés: önök szerint képesek vagyunk olyan fotórealisztikus embert alkotni, mint amikor filmezünk, de ez esetben valós időben látjuk a digitális embert irányító személy pillanatnyi érzelmeit és részleteit? A célunk valójában ez: ha négyszemközt beszélgethetnének DigiDouggal, elég valóságos ahhoz, hogy eldönthessék: becsapom önöket vagy sem? Ez volt tehát a célunk.
About a year and a half ago, we set off to achieve this goal. What I'm going to do now is take you basically on a little bit of a journey to see exactly what we had to do to get where we are. We had to capture an enormous amount of data. In fact, by the end of this thing, we had probably one of the largest facial data sets on the planet. Of my face.
Úgy másfél évvel ezelőtt nekiláttunk célunk megvalósításának. Most egy kicsit végigvezetem önöket ezen az úton, hogy tisztán lássák, mennyi feladatunk volt, míg idáig eljutottunk. Mérhetetlen mennyiségű adatot kellett feldolgoznunk. Lényegében, mire a végére jutottunk, valószínűleg bolygónk legnagyobb arcadatbázisát építettük fel. Az én arcomról.
(Laughter)
(Nevetés)
Why me? Well, I'll do just about anything for science. I mean, look at me! I mean, come on. We had to first figure out what my face actually looked like. Not just a photograph or a 3-D scan, but what it actually looked like in any photograph, how light interacts with my skin. Luckily for us, about three blocks away from our Los Angeles studio is this place called ICT. They're a research lab that's associated with the University of Southern California. They have a device there, it's called the "light stage." It has a zillion individually controlled lights and a whole bunch of cameras. And with that, we can reconstruct my face under a myriad of lighting conditions. We even captured the blood flow and how my face changes when I make expressions. This let us build a model of my face that, quite frankly, is just amazing. It's got an unfortunate level of detail, unfortunately.
Hogy miért pont az enyémről? Hát, szinte bármit megteszek a tudományért. Úgy értem: nézzenek csak rám! Rajta, rajta! Először is ki kellett találnunk, milyen az arcom. Nem egy fotón, sem egy 3D-s szkennelésen, hanem hogy hogyan néz ki bármilyen fotón, hogyan esik a fény a bőrömre. Mindannyiunk szerencséjére stúdiónktól csak pár sarokra van az úgynevezett ICT [Kreatív Technológiai Intézet] kutatólabor, ami a Dél-Kaliforniai Egyetemhez tartozik. Van egy eszközük, a neve "light stage", azaz "fényszínpad". Tömérdek mennyiségű egyénileg irányított fényből és egy csomó kamerából áll. Ezekkel újra tudtuk alkotni az arcomat, rengeteg különféle megvilágításban. Még a véráramot is felvettük, és hogy hogyan változik az arcom az arckifejezéseimet váltogatva. Így felépíthettük arcom modelljét, ami, valljuk be, egészen lenyűgöző. Sajnos, vannak ebben szerencsétlen részletek is.
(Laughter)
(Nevetés)
You can see every pore, every wrinkle. But we had to have that. Reality is all about detail. And without it, you miss it. We are far from done, though. This let us build a model of my face that looked like me. But it didn't really move like me. And that's where machine learning comes in. And machine learning needs a ton of data. So I sat down in front of some high-resolution motion-capturing device. And also, we did this traditional motion capture with markers. We created a whole bunch of images of my face and moving point clouds that represented that shapes of my face. Man, I made a lot of expressions, I said different lines in different emotional states ... We had to do a lot of capture with this. Once we had this enormous amount of data, we built and trained deep neural networks. And when we were finished with that, in 16 milliseconds, the neural network can look at my image and figure out everything about my face. It can compute my expression, my wrinkles, my blood flow -- even how my eyelashes move. This is then rendered and displayed up there with all the detail that we captured previously.
Jól látszik minden pórus, minden ránc. De ezekre is szükségünk volt. A valósághűség a részleteken alapul. Ezek nélkül elvész a lényeg. Ám még messze járunk a végétől. Megalkottuk arcom modelljét, ami olyan, mint én. De a mozgása még nem volt igazán meggyőző. És itt lép a képbe a gépi tanulás. A gépi tanuláshoz több tonnányi adatra van szükség. Úgyhogy leültem egy nagy felbontású mozgásrögzítő eszköz elé, és ezt a hagyományos, markeres mozgásrögzítést is elvégeztük. Rengeteg képet készítettünk az arcomról és mozgó pontfelhőkről, amik az arcom alakját jelenítik meg. Te jó ég, mennyi grimaszt vágtam, mindenfélét beszéltem, különböző érzelmeket kifejezve... Sokat dolgoztunk ezen. Amikor meglett ez az őrületes adatmennyiség, felépítettük és betanítottuk a mély neurális hálózatokat. És amikor ezzel elkészültünk, 16 milliszekundum alatt, a neurális ideghálózat megnézheti az arcomat, és mindent kitalálhat róla. Képes megszámolni az arckifejezéseimet, ráncaimat, a vérem áramlását – még a szempillám rezdülését is. Aztán ezt rendereltük, és ott látható az összes korábban felvett részlettel együtt.
We're far from done. This is very much a work in progress. This is actually the first time we've shown it outside of our company. And, you know, it doesn't look as convincing as we want; I've got wires coming out of the back of me, and there's a sixth-of-a-second delay between when we capture the video and we display it up there. Sixth of a second -- that's crazy good! But it's still why you're hearing a bit of an echo and stuff. And you know, this machine learning stuff is brand-new to us, sometimes it's hard to convince to do the right thing, you know? It goes a little sideways.
Még korántsem végeztünk. Nagyon sok teendőnk van még. Most mutatjuk be először nyilvánosan. És hát, még most sem tartjuk elég meggyőzőnek, drótok lógnak a hátamból, és van egyhatod másodpercnyi csúszás a videófelvétel és a megjelenítés között. Egyhatod másodperc, dehát ez őrült jó! A hang viszont kicsit visszhangos és zajos. Tudják, ez a gépi tanulás egészen új nekünk, néha nem vagyunk biztosak benne, mi a helyes lépés. Kicsit csálé.
(Laughter)
(Nevetés)
But why did we do this? Well, there's two reasons, really. First of all, it is just crazy cool.
De miért hoztuk létre? Valójában két okból. Először is, mert őrülten menő.
(Laughter)
(Nevetés)
How cool is it? Well, with the push of a button, I can deliver this talk as a completely different character. This is Elbor. We put him together to test how this would work with a different appearance. And the cool thing about this technology is that, while I've changed my character, the performance is still all me. I tend to talk out of the right side of my mouth; so does Elbor.
Hogy mennyire az? Hát, ha megnyomom a gombot, egy egészen más figura fogja folytatni az előadást. Ő Elbor. Azért raktuk össze őt, hogy teszteljük, hogyan működik mindez másféle alakban. És az a szuper ebben a technológiában, hogy bár más karaktert adtam neki, attól még az én egyéniségem maradt. Általában jobbra hord a szám beszéd közben, ahogy Elbornak is.
(Laughter)
(Nevetés)
Now, the second reason we did this, and you can imagine, is this is going to be great for film. This is a brand-new, exciting tool for artists and directors and storytellers. It's pretty obvious, right? I mean, this is going to be really neat to have. But also, now that we've built it, it's clear that this is going to go way beyond film.
Alkotásunk másik oka, képzelhetik, milyen remek találmány ez a filmekhez. Teljesen új, izgalmas eszköz a színészeknek, rendezőknek és forgatókönyvíróknak. Ez elég egyértelmű, nem? Úgy értem, tényleg jó lesz majd egy ilyen. De most, hogy megalkottuk, az is világos, hogy több ez, mint filmes eszköz.
But wait. Didn't I just change my identity with the push of a button? Isn't this like "deepfake" and face-swapping that you guys may have heard of? Well, yeah. In fact, we are using some of the same technology that deepfake is using. Deepfake is 2-D and image based, while ours is full 3-D and way more powerful. But they're very related. And now I can hear you thinking, "Darn it! I though I could at least trust and believe in video. If it was live video, didn't it have to be true?" Well, we know that's not really the case, right? Even without this, there are simple tricks that you can do with video like how you frame a shot that can make it really misrepresent what's actually going on. And I've been working in visual effects for a long time, and I've known for a long time that with enough effort, we can fool anyone about anything. What this stuff and deepfake is doing is making it easier and more accessible to manipulate video, just like Photoshop did for manipulating images, some time ago.
De várjunk csak. Épp most cseréltem le magamat egyetlen gombnyomással, nem? Ez nem deepfake, azaz "mélyhamisítás", és face-swap, azaz "arccsere", amiről talán már mindenki hallott? Na igen. Igaz, hogy részben ugyanolyan technológiát is használunk, mint a mélyhamisítók. Utóbbi kétdimenziós és képalapú, mi teljes 3D-vel dolgozunk, sokkal kifinomultabb módon. De szoros köztük az összefüggés. Szinte hallom a gondolataikat: "A fenébe! Eddig legalább a videóban bíztam és hittem. Ha ez élő videó, nem kéne igaznak lennie? Nos, tudjuk, hogy most nem erről van szó, ugye? Enélkül is léteznek egyszerű videós trükkök, például egy képkocka megkomponálása, ami tényleg meghamisíthatja azt, ami valójában történik. Sokáig dolgoztam filmes trükkökkel, és régóta tudom, hogy ha eleget dolgozunk rajta, bárkit bármiről becsaphatunk. Ezzel a cuccal és a mélyhamisítással könnyebb videót manipulálni, mint ahogy Photoshoppal nemrégiben képeket manipulálhattunk.
I prefer to think about how this technology could bring humanity to other technology and bring us all closer together. Now that you've seen this, think about the possibilities. Right off the bat, you're going to see it in live events and concerts, like this. Digital celebrities, especially with new projection technology, are going to be just like the movies, but alive and in real time. And new forms of communication are coming. You can already interact with DigiDoug in VR. And it is eye-opening. It's just like you and I are in the same room, even though we may be miles apart. Heck, the next time you make a video call, you will be able to choose the version of you you want people to see. It's like really, really good makeup. I was scanned about a year and a half ago. I've aged. DigiDoug hasn't. On video calls, I never have to grow old.
Szívesebben gondolok arra, hogy ezzel a technikával hogyan tehetünk emberibbé más technikákat, és hogyan hoz közelebb minket egymáshoz. Most, hogy önök is látták ezt, gondolkodjanak el a lehetőségein. Nemsokára találkozni fognak vele élő adásokban, koncerteken, mint itt is. Digitális hírességek, főleg korszerű kivetítő technológiával úgy fognak feltűnni, mint a filmeken, csak épp élőben és valós időben. Jönnek az új kommunikációs formák is. A virtuális valóságban már most is kapcsolatba léphetünk DigiDouggal. És ez elgondolkodtató. Olyan, mintha önök és én ugyanabban a helyiségben lennénk, pedig lehet, hogy sok mérföldre vagyunk egymástól. A fenébe, a legközelebbi videóhíváskor választhatnak, milyen alakban akarnak feltűnni a többiek előtt. Ez aztán igazán csodás smink! Körülbelül másfél éve lettem beszkennelve. Azóta öregebb lettem. DigiDoug nem. A videóhívásokban többé nem kell tovább öregednem.
And as you can imagine, this is going to be used to give virtual assistants a body and a face. A humanity. I already love it that when I talk to virtual assistants, they answer back in a soothing, humanlike voice. Now they'll have a face. And you'll get all the nonverbal cues that make communication so much easier. It's going to be really nice. You'll be able to tell when a virtual assistant is busy or confused or concerned about something.
És azt is elképzelhetik, arra is felhasználható mindez, hogy testet és arcot adjunk virtuális asszisztenseinknek. Hogy emberi alakot öltsenek. Már azt is szeretem, hogy amikor beszélek hozzájuk, megnyugtató, emberi hangon válaszolnak. Most meg már arcuk is lesz. Minden nonverbális jelzést tudni fognak, így könnyebb lesz egymást megérteni. Tényleg csodálatos lesz. Tudni fogjuk, mikor nem ér rá, vagy mikor zavarodott össze, mikor aggódik valami miatt.
Now, I couldn't leave the stage without you actually being able to see my real face, so you can do some comparison. So let me take off my helmet here. Yeah, don't worry, it looks way worse than it feels.
Nos, nem léphetek le addig a színpadról, míg meg nem mutatom önöknek az igazi arcomat, így kicsit összehasonlíthatják. Most tehát levenném a sisakom. Ja, ne aggódjanak, nem olyan szörnyű, mint amilyennek látszik!
(Laughter)
(Nevetés)
So this is where we are. Let me put this back on here.
Most tehát itt tartunk. Mégis inkább visszatenném.
(Laughter) Doink!
(Nevetés) Dajng!
So this is where we are. We're on the cusp of being able to interact with digital humans that are strikingly real, whether they're being controlled by a person or a machine. And like all new technology these days, it's going to come with some serious and real concerns that we have to deal with. But I am just so really excited about the ability to bring something that I've seen only in science fiction for my entire life into reality. Communicating with computers will be like talking to a friend. And talking to faraway friends will be like sitting with them together in the same room.
Most tehát itt tartunk. Elértünk arra a pontra, ahol már digitális emberekkel lépünk kapcsolatba, akik félelmetesen valóságosak, akár ember, akár gép irányítja őket. És mint napjaink összes új technológiája, ez is komoly és valós aggályokat fog felvetni, melyekre megoldást kell találnunk. De annyira izgatott vagyok a lehetőség miatt, melynek során megvalósul valami, amit eddigi életemben csak sci-fikben láthattam. Számítógépekkel beszélgethetünk, mintha csak egy barátunkkal beszélnénk. És távoli barátokkal beszélhetünk, mintha egy szobában egymás mellett ülnénk.
Thank you very much.
Nagyon köszönöm.
(Applause)
(Taps)