Doug Roble: Digital humans that look just like us

Hello. I'm not a real person. I'm actually a copy of a real person. Although, I feel like a real person. It's kind of hard to explain. Hold on -- I think I saw a real person ... there's one. Let's bring him onstage.

Привет. Я не настоящий человек. В действительности я копия настоящего человека Впрочем, я ощущаю себя реальным человеком. Это трудно объяснить. Постойте-ка! Кажется, я вижу реального человека... вот же он. Поприветствуем его на сцене.

Hello.

Привет.

(Applause)

(Аплодисменты)

What you see up there is a digital human. I'm wearing an inertial motion capture suit that's figuring what my body is doing. And I've got a single camera here that's watching my face and feeding some machine-learning software that's taking my expressions, like, "Hm, hm, hm," and transferring it to that guy. We call him "DigiDoug." He's actually a 3-D character that I'm controlling live in real time.

То, что вы видите, — это цифровой человек. На меня надет инерциальный костюм захвата движений, который считывает движения моего тела. А вот здесь у меня есть камера, которая следит за моим лицом, передавая всё программе машинного обучения, которая получает мою мимику, например: «Хм, хм, хм», и передает всё это тому парню. Мы зовём его «Цифро-Даг». В действительности он трёхмерный персонаж, которого я контролирую в реальном времени.

So, I work in visual effects. And in visual effects, one of the hardest things to do is to create believable, digital humans that the audience accepts as real. People are just really good at recognizing other people. Go figure! So, that's OK, we like a challenge.

Итак, я работаю с визуальными эффектами. И в визуальных эффектах одна из сложнейших задач — создать правдоподобного человека, которого зрители примут за настоящего. Люди вообще-то очень хорошо узнают других людей. Ну правда же! Что ж, здорово, мы любим соревноваться.

Over the last 15 years, we've been putting humans and creatures into film that you accept as real. If they're happy, you should feel happy. And if they feel pain, you should empathize with them. We're getting pretty good at it, too. But it's really, really difficult. Effects like these take thousands of hours and hundreds of really talented artists.

В течение последних 15 лет мы создавали людей и других существ в кино так, чтобы вы принимали их за настоящих. Когда они счастливы, вы тоже должны чувствовать счастье. А когда им больно, вы должны сочувствовать им. И мы весьма навострились в этом деле. Но, по правде говоря, это очень сложно. Создание эффектов, подобных этим, занимает тысячи часов и требует работы сотен талантливых художников.

But things have changed. Over the last five years, computers and graphics cards have gotten seriously fast. And machine learning, deep learning, has happened. So we asked ourselves: Do you suppose we could create a photo-realistic human, like we're doing for film, but where you're seeing the actual emotions and the details of the person who's controlling the digital human in real time? In fact, that's our goal: If you were having a conversation with DigiDoug one-on-one, is it real enough so that you could tell whether or not I was lying to you? So that was our goal.

Но всё изменилось. За последние пять лет компьютеры и графические карты стали существенно быстрее. И появилось машинное обучение, глубокое обучение. Итак, мы спросили себя: «А что, смогли бы мы создать фото-реалистичного человека, такого, как мы делаем для кино, но так, чтобы все видели настоящие эмоции и детали человека, который контролирует цифровую копию в реальном времени?» В этом и состоит наша задача: если вы общаетесь с Цифро-Дагом один на один, достаточно ли он настоящий, чтобы вы могли понять, вру я вам или нет? Вот в чём была наша цель.

About a year and a half ago, we set off to achieve this goal. What I'm going to do now is take you basically on a little bit of a journey to see exactly what we had to do to get where we are. We had to capture an enormous amount of data. In fact, by the end of this thing, we had probably one of the largest facial data sets on the planet. Of my face.

Около полутора лет назад мы принялись за эту задачу. И сейчас я хочу позволить вам прикоснуться к нашему путешествию и показать вам, чего мы достигли и как мы к этому шли. Мы должны были собрать огромное количество данных. Фактически, в конце этой работы у нас был, кажется, один из самых больших в мире наборов данных, описывающих лицо. Моё лицо.

(Laughter)

(Смех)

Why me? Well, I'll do just about anything for science. I mean, look at me! I mean, come on. We had to first figure out what my face actually looked like. Not just a photograph or a 3-D scan, but what it actually looked like in any photograph, how light interacts with my skin. Luckily for us, about three blocks away from our Los Angeles studio is this place called ICT. They're a research lab that's associated with the University of Southern California. They have a device there, it's called the "light stage." It has a zillion individually controlled lights and a whole bunch of cameras. And with that, we can reconstruct my face under a myriad of lighting conditions. We even captured the blood flow and how my face changes when I make expressions. This let us build a model of my face that, quite frankly, is just amazing. It's got an unfortunate level of detail, unfortunately.

Почему я? Ну, я ведь готов на всё что угодно ради науки. Достаточно же просто на меня посмотреть! Правда же! Сначала мы должны были понять, как моё лицо выглядит на самом деле. Не просто фотография или 3D-скан, но как оно в действительности выглядит на любой фотографии, как свет взаимодействует с моей кожей. К счастью для нас, примерно в трёх кварталах от нашей студии в Лос-Анджелесе располагается место под названием ICT. Это лаборатория, связанная с Университетом Южной Калифорнии. У них там есть устройство, которое называется «световая сцена». В нём есть множество индивидуально контролируемых источников света и целая куча камер. И с помощью его мы можем воссоздать моё лицо во всевозможных условиях освещения. Мы даже оцифровали ток крови и как меняется моё лицо при разных выражениях. Нам удалось создать модель моего лица, которая, если честно, просто потрясающая. У него, к сожалению, ужасающий уровень деталей, просто пугающий.

(Laughter)

(Смех)

You can see every pore, every wrinkle. But we had to have that. Reality is all about detail. And without it, you miss it. We are far from done, though. This let us build a model of my face that looked like me. But it didn't really move like me. And that's where machine learning comes in. And machine learning needs a ton of data. So I sat down in front of some high-resolution motion-capturing device. And also, we did this traditional motion capture with markers. We created a whole bunch of images of my face and moving point clouds that represented that shapes of my face. Man, I made a lot of expressions, I said different lines in different emotional states ... We had to do a lot of capture with this. Once we had this enormous amount of data, we built and trained deep neural networks. And when we were finished with that, in 16 milliseconds, the neural network can look at my image and figure out everything about my face. It can compute my expression, my wrinkles, my blood flow -- even how my eyelashes move. This is then rendered and displayed up there with all the detail that we captured previously.

Вы можете видеть каждую пору, каждую морщинку. Но это как раз то, что нам нужно. Реальность строится из деталей. И без деталей реалистичность теряется. Нам ещё далеко до совершенства. Мы смогли построить модель моего лица, которая очень похожа на меня. Но его движения были далеки от моих. И именно здесь нам на помощь пришло машинное обучение. А машинному обучению нужно огромное количество данных. Так что я сел перед устройством захвата движений высокого разрешения. И мы провели традиционный захват движений с маркерами. Мы создали целую кучу изображений моего лица и облака движущихся точек, представляющих формы моего лица. Ребята, я строил множество гримас, я проговаривал разные фразы с разной эмоциональной окраской... И все это мы должны были оцифровать. Как только мы собрали огромное количество данных, мы создали и натренировали глубокую нейронную сеть. И по завершении этой работы всего за 16 миллисекунд нейронная сеть может посмотреть на моё изображение и узнать о моём лице всё. Она может просчитать моё выражение, мои морщинки, мой кровоток, даже движение моих ресниц. И все это потом обрисовывается и выводится на экран со всеми деталями, которые мы оцифровали до этого.

We're far from done. This is very much a work in progress. This is actually the first time we've shown it outside of our company. And, you know, it doesn't look as convincing as we want; I've got wires coming out of the back of me, and there's a sixth-of-a-second delay between when we capture the video and we display it up there. Sixth of a second -- that's crazy good! But it's still why you're hearing a bit of an echo and stuff. And you know, this machine learning stuff is brand-new to us, sometimes it's hard to convince to do the right thing, you know? It goes a little sideways.

Мы ещё далеки от финала. И очень много всего ещё можно сделать. Сегодня, по правде, мы впервые показываем это вне наших стен. И знаете, это выглядит не настолько убедительным, как мы хотим; у меня из спины торчат провода и есть задержка в одну шестую секунды между захватом изображения и выводом его на экран. Одна шестая секунды — это очень здорово! Но из-за этого вы слышите небольшое эхо. И знаете, эта штука с машинным обучением — нечто совершенно новое для нас, иной раз её тяжело убедить делать именно то, что нужно нам, понимаете? Её порой немного перекашивает.

(Laughter)

(Смех)

But why did we do this? Well, there's two reasons, really. First of all, it is just crazy cool.

Но вообще, зачем мы всё это делаем? Ну, на самом деле тому есть две причины. Во-первых, это чертовски круто.

(Laughter)

(Смех)

How cool is it? Well, with the push of a button, I can deliver this talk as a completely different character. This is Elbor. We put him together to test how this would work with a different appearance. And the cool thing about this technology is that, while I've changed my character, the performance is still all me. I tend to talk out of the right side of my mouth; so does Elbor.

Насколько это круто? Ну, всего одним щелчком клавиши я могу передать эту речь совершенно другому персонажу. Это Эльбор. Мы собрали его, чтобы проверить, как это будет работать с другой внешностью. И самое классное в этой технологии, что когда я изменяю своего персонажа, в результате это все равно я. Например, я обычно говорю в основном правой частью рта; то же делает и Эльбор.

(Laughter)

(Смех)

Now, the second reason we did this, and you can imagine, is this is going to be great for film. This is a brand-new, exciting tool for artists and directors and storytellers. It's pretty obvious, right? I mean, this is going to be really neat to have. But also, now that we've built it, it's clear that this is going to go way beyond film.

И второе, почему мы взялись за это. Вы только представьте, насколько это здорово для кино. Это совершенно новый, захватывающий инструмент для художников, режиссёров и рассказчиков. Довольно очевидно, правда? То есть должно быть здорово иметь такую штуку. Однако сейчас, когда мы закончили, стало ясно, что эта технология пойдёт много дальше кино.

But wait. Didn't I just change my identity with the push of a button? Isn't this like "deepfake" and face-swapping that you guys may have heard of? Well, yeah. In fact, we are using some of the same technology that deepfake is using. Deepfake is 2-D and image based, while ours is full 3-D and way more powerful. But they're very related. And now I can hear you thinking, "Darn it! I though I could at least trust and believe in video. If it was live video, didn't it have to be true?" Well, we know that's not really the case, right? Even without this, there are simple tricks that you can do with video like how you frame a shot that can make it really misrepresent what's actually going on. And I've been working in visual effects for a long time, and I've known for a long time that with enough effort, we can fool anyone about anything. What this stuff and deepfake is doing is making it easier and more accessible to manipulate video, just like Photoshop did for manipulating images, some time ago.

Но подождите. Разве я только что не сменил свою личность нажатием одной кнопки? Это ведь способ обмана и замены лиц, о котором вы наверняка слышали? Ну да. По факту мы используем отчасти технологии, схожие с теми, которые используют мошенники. Мошенническая технология — 2D и основана на изображениях, наша же — полностью 3D и много более совершенная. Но они во многом схожи. И мне прямо слышны ваши мысли: «Проклятье! Я раньше хотя бы мог доверять видео. Если это прямая трансляция, разве можно ей не верить?» Ну, теперь мы знаем, что это не так, верно? Даже без таких штук есть много простых трюков, которые можно сделать с видео, чтобы построить кадр так, чтобы на выходе получилась картина, сильно отличающаяся от реальной. И я работаю в сфере визуальных эффектов уже достаточно давно и давно знаю, что, если постараться, можно одурачить кого угодно относительно чего угодно. Все эти мошеннические штуки дают в руки простые и доступные инструменты, чтобы изменять видео в той же степени, что и Photoshop, который уже давно позволяет манипулировать изображениями.

I prefer to think about how this technology could bring humanity to other technology and bring us all closer together. Now that you've seen this, think about the possibilities. Right off the bat, you're going to see it in live events and concerts, like this. Digital celebrities, especially with new projection technology, are going to be just like the movies, but alive and in real time. And new forms of communication are coming. You can already interact with DigiDoug in VR. And it is eye-opening. It's just like you and I are in the same room, even though we may be miles apart. Heck, the next time you make a video call, you will be able to choose the version of you you want people to see. It's like really, really good makeup. I was scanned about a year and a half ago. I've aged. DigiDoug hasn't. On video calls, I never have to grow old.

Однако я предпочитаю думать о том, как эта технология сможет привести человечество к новым технологиям и сделать нас ближе друг к другу. Теперь, увидев это всё, подумайте о возможностях. Навскидку, вы сможете увидеть это на живых выступлениях, подобных этому. Цифровые знаменитости, особенно благодаря новым проекционным технологиям, будут создавать что-то наподобие кино, но вживую, в реальном времени. И придут новые формы общения. Уже сейчас вы можете взаимодействовать с Цифро-Дагом в виртуальной реальности. И это потрясающе. Это как будто мы с вами находимся в одной комнате, хотя между нами огромное расстояние. Черт побери, вскоре, когда вы будете делать видеозвонок, вы сможете выбрать ту версию себя, которую вы хотите показать людям. Это как очень-очень качественный макияж. Меня отсканировали полтора года назад. Я изменился за это время. А Цифро-Даг нет. На экране видео звонка я никогда не постарею.

And as you can imagine, this is going to be used to give virtual assistants a body and a face. A humanity. I already love it that when I talk to virtual assistants, they answer back in a soothing, humanlike voice. Now they'll have a face. And you'll get all the nonverbal cues that make communication so much easier. It's going to be really nice. You'll be able to tell when a virtual assistant is busy or confused or concerned about something.

И, как можно представить, эта технология будет использована, чтобы дать виртуальным ассистентам лицо и тело. И человечность. Уже сейчас мне очень нравится, что виртуальный ассистент отвечает мне успокаивающим человеческим голосом. А вскоре у них будет лицо. И появятся новые невербальные знаки, которые сделают общение гораздо проще. Это будет действительно мило. Вы сможете понять, когда ваш ассистент занят или озадачен или обеспокоен чем-то.

Now, I couldn't leave the stage without you actually being able to see my real face, so you can do some comparison. So let me take off my helmet here. Yeah, don't worry, it looks way worse than it feels.

Теперь я просто не могу покинуть сцену, не показав вам моего настоящего лица, а вы сможете немного сравнить. Позвольте мне снять мой шлем. О, не волнуйтесь, это не так ужасно, как выглядит.

(Laughter)

(Смех)

So this is where we are. Let me put this back on here.

Это то, чего мы уже достигли. Дайте-ка я верну все на место.

(Laughter) Doink!

(Смех) Ой!

So this is where we are. We're on the cusp of being able to interact with digital humans that are strikingly real, whether they're being controlled by a person or a machine. And like all new technology these days, it's going to come with some serious and real concerns that we have to deal with. But I am just so really excited about the ability to bring something that I've seen only in science fiction for my entire life into reality. Communicating with computers will be like talking to a friend. And talking to faraway friends will be like sitting with them together in the same room.

Вот чего мы уже достигли. И мы уже на грани настоящего взаимодействия с цифровыми людьми, невероятно реалистичного, вне зависимости от того, человек перед вами или машина. И как и все новые технологии сегодня, эта приносит с собой некоторые серьёзные и реальные опасения, с которыми нам придётся столкнуться. Но сейчас я невероятно взволнован возможностью воплотить то, что прежде можно было увидеть только в научной фантастике, в реальную жизнь. Общение с компьютером станет подобно разговору с другом. А разговор с друзьями, которые далеко, будет подобен тому, как будто они сидят с вами вместе в одной комнате.

Thank you very much.

Спасибо большое.

(Applause)

(Аплодисменты)

Hello.

Привет.

(Applause)

(Аплодисменты)

(Laughter)

(Смех)

(Laughter)

(Смех)

(Laughter)

(Смех)

But why did we do this? Well, there's two reasons, really. First of all, it is just crazy cool.

Но вообще, зачем мы всё это делаем? Ну, на самом деле тому есть две причины. Во-первых, это чертовски круто.

(Laughter)

(Смех)

(Laughter)

(Смех)

(Laughter)

(Смех)

So this is where we are. Let me put this back on here.

Это то, чего мы уже достигли. Дайте-ка я верну все на место.

(Laughter) Doink!

(Смех) Ой!

Thank you very much.

Спасибо большое.

(Applause)

(Аплодисменты)

Doug Roble: Digital humans that look just like us

Doug Roble: Digital humans that look just like us

Related talks

Paul Debevec: Animating a photo-real digital face

Danielle Feinberg: The magic ingredient that brings Pixar movies to life

Tasos Frantzolas: Everything you hear on film is a lie

James Bridle: The nightmare videos of children's YouTube -- and what's wrong with the internet today

Chris Milk: How virtual reality can create the ultimate empathy machine

Ariel Garten: Know thyself, with a brain scanner

Related talks

Paul Debevec: Animating a photo-real digital face

Danielle Feinberg: The magic ingredient that brings Pixar movies to life

Tasos Frantzolas: Everything you hear on film is a lie

James Bridle: The nightmare videos of children's YouTube -- and what's wrong with the internet today

Chris Milk: How virtual reality can create the ultimate empathy machine

Ariel Garten: Know thyself, with a brain scanner