All right. Good afternoon, y’all. Let's talk about blending reality and imagination. But first, let's take a step back in time to 2001. As an 11-year-old in India, I became obsessed with computer graphics and visual effects. Of course, at that age, it meant making cheesy videos kind of like this. But therein started a foundational theme in my life, the quest to blend reality and imagination. And that quest has stayed with me and permeated across my decade-long career in tech, working as a product manager at companies like Google and as a content creator on platforms like YouTube and TikTok.
안녕하세요, 여러분. 현실과 상상의 융합에 대해 이야기해 봅시다. 이야기하기에 앞서 2001년으로 돌아가 보죠. 11살이었을 때 저는 인도에서 컴퓨터 그래픽과 시각 효과에 완전히 빠져있었습니다. 물론 그 나이에는 이런 식의 싸구려 비디오를 만들었다는 것을 의미했죠. 그러나 그때가 제 삶의 토대가 되는 주제의 시작이었습니다. 현실과 상상의 융합을 탐구하는 것 말이죠. 그리고 그 탐구는 구글과 같은 기업의 제품 관리자로서 일할 때나 유튜브나 틱톡과 같은 플랫폼에서 콘텐츠 크리에이터로 활동할 때 같이 제 10년에 걸친 기술 분야 경력과 계속해서 함께했습니다.
So today, let's deconstruct this quest to blend reality and imagination and explore how it’s getting supercharged -- buzzword alert -- by artificial intelligence. Let's start with the reality bit.
그래서 오늘은 이 현실과 상상의 융합 탐구를 분석하고 이것이 어떻게 급격하게 발전하고 있는지 함께 알아보겠습니다. 요즘 유행하는 인공지능에 의해서 말이죠. 먼저 현실에 대해 이야기해 봅시다.
You probably heard about photogrammetry. It's the art and science of measuring stuff in the real world using photos and other sensors. What required massive data centers and teams of experts in the 2000s became increasingly democratized by the 2010s. Then, of course, machine learning came along and took things to a whole new level with techniques like neural radiance fields, or NeRFs.
아마도 사진 측량법에 대해 들어보신 분들이 계실 겁니다. 사진 측량법은 사진들과 여러 센서들을 이용하여 현실 세계의 사물을 측정하는 예술적인 과학입니다. 2000년대에는 거대한 데이터 센터와 전문가 팀이 필요했던 것이 2010년대에 들어와서는 상당히 대중화되었죠. 그리고 나선 기계 학습 기술이 등장해 이를 완전히 새로운 수준으로 끌어올렸습니다. 신경망 복사도 분야(NeRFs)와 같은 기술을 사용해서 말이죠.
What you're seeing here is an AI model creating a ground-up volumetric 3D representation using 2D images alone. But unlike older techniques for reality capture, NeRFs do a really good job of encapsulating the sheer complexity and nuance of reality. The vibe, if you will.
지금 보고 계신 이것은 인공지능 모델이 2D 이미지만을 사용하여 처음부터 끝까지 3D 묘사를 생성하고 있는 영상입니다. 하지만 예전의 리얼리티 캡처 기술들과는 달리, NeRFs는 현실 세계의 순수한 복잡성과 미묘함을 잘 포착합니다. 원하신다면 느낌과 분위기까지도 말이죠.
Twelve months later, you can do all of this stuff using the iPhone in your pocket, using apps like Luma. It's like 3D screenshots for the real world. Capture anything once and reframe it infinitely in postproduction, so you can start building that collection of spaces, places and objects that you truly care about and conjure them up in your future creations.
12개월 뒤에 여러분은 이 모든 것들을 루마 같은 앱을 사용하여 주머니 속 아이폰으로도 할 수 있게 되었습니다. 마치 현실 세계를 3D로 스크린샷 하는 것과 같죠. 한 번 캡쳐하면 후반 작업에서 무한으로 재구성 할 수 있어 여러분이 진심으로 좋아하시는 공간, 장소 및 사물의 컬렉션을 만들 수 있고 미래에 창작물을 만들 때 그것들을 손쉽게 불러올 수 있습니다.
So that's the reality bit. As NeRFs were popping off last year, the AI summer was also in full effect, with Midjourney, DALL-E 2, Stable Diffusion all hitting the market around the same time. But what I fell in love with was inpainting. This technique allows you to take existing imagery and augment it with whatever you like, and the results are photorealistically fantastic. It blew my mind because stuff that would have taken me like three hours in classical workflows I could pull off in just three minutes.
바로 이것이 현실 부분입니다. 지난해 NeRFs가 주목받으며 인공지능 열풍이 본격적으로 시작되었습니다. 미드저니, 달리 2, 스테이블 디퓨전 등이 거의 동시에 시장에 등장했죠. 하지만 제가 매료된 것은 인페인팅이었습니다. 이 기술을 이용하면 기존 이미지에 원하는 것을 덧붙일 수 있고 그 결과물은 사실적이고도 환상적입니다. 이건 저에게 정말 놀라운 일이었어요. 기존 방식의 작업에선 3시간이 걸릴 일을 3분만에 할 수 있게 되었기 때문이죠.
But I wanted more. Enter ControlNet, a game-changing technique by Stanford researchers that allows you to use various input conditions to guide and control the AI image generation process. So in my case, I could take the depth information and the texture detail from my 3D scans and use it to literally reskin reality.
하지만 저는 더 많은 것을 원했기에 컨트롤넷을 사용하기 시작했습니다. 컨트롤넷은 스탠퍼드 연구원들이 개발한 혁신적인 기술로 다양한 입력 조건을 사용하여 인공지능 이미지 생성 과정을 유도하고 제어할 수 있습니다. 제 경우에는 3D 스캔으로부터 깊이 있는 정보와 감촉 디테일을 가져와서 현실을 실제로 재구성할 수 있었습니다.
Now, this isn't just cool video. There’s a lot of useful use cases, too. For example, in this case I'm taking a 3D scan of my parents' drawing room, as my mother likes to call it, and reskinning it to different styles of Indian decor and doing so while respecting the spatial context and the layout of the interior space. If you squint, I'm sure you can see how this is going to transform architecture and interior design forever.
자, 지금 보시는 것은 단순히 멋진 비디오가 아니에요. 실용적인 이용 사례들도 많습니다. 예를 들면 여기서 저는 부모님의 미술실을 3D 스캔하여 저희 어머니가 미술실이라고 부르시더라고요. 다양한 인도 장식 스타일로 재구성하고 있습니다. 내부 공간의 공간적 맥락과 배치를 살리며 재구성하고 있는 것이죠. 눈을 살짝 감고 자세히 생각해 보시면 이러한 기술이 어떻게 건축과 인테리어 디자인을 변화시킬지 아실 수 있을 겁니다.
You could take that 2016 scan of a Buddha statue and reskin it to be gloriously golden while pulling off these impossible camera moves you just couldn't do any other way. Or you could take that vacation footage from your trip to Tokyo and bring these cherry blossoms to life in a whole new way. And let me tell you, cherry blossoms look really good during the day, but they look even better at night. Oh, my God. They sure are glowing.
2016년에 찍은 부처상의 스캔을 찬란한 황금빛으로 변신시킬 수 있고 또한 불가능한 카메라 움직임을 선보이며 다른 기술로는 할 수 없는 일을 해낼 수 있을 것입니다. 또는 여러분은 도쿄 여행 중에 촬영한 휴가 영상을 가져와 이 벚꽃을 완전히 새로운 방식으로 살려낼 수 있을 것입니다. 그리고 이 말씀을 드릴게요. 벚꽃은 낮에도 정말 아름답게 보이지만 밤에는 더욱더 아름다워집니다. 오, 정말 빛나고 있네요.
It's almost like this dreamlike quality where you can use AI to accentuate the best aspects of the real world. Natural landscapes look just as beautiful. Like this waterfall that could be on another planet. But of course, you could go over the hills and far away to the French Alps from another dimension.
인공지능을 이용해 현실 세계의 가장 좋은 측면을 강조할 수 있는 정말 꿈같은 일입니다. 자연 풍경 또한 매우 아름다워요. 다른 행성에 존재할 것 같은 이 폭포를 보세요. 물론 여러분은 언제든지 다른 차원에서 이 언덕을 넘어 프랑스 알프스로 여행하실 수 있습니다.
But it's not just static scenes. You can do this stuff with video, too. I can't wait till this technology is running at 30 frames per second because it's going to transform augmented reality and 3D rendering. I mean, how soon until we're channel-surfing realities layered on top of the real world?
하지만 정적인 장면에 한정된 것은 아닙니다. 비디오에도 적용시킬 수 있어요. 저는 이 기술이 초당 30프레임으로 동작하는 날이 빨리 왔으면 좋겠습니다. 이 기술은 증강 현실과 3D 렌더링을 변화시킬 것이기 때문이죠. 다시 말해, 현실을 실세계 위에 겹쳐놓은 채널의 서핑을 우리는 언제쯤 할 수 있게 될까요?
Of course, just like reality capture got democratized, all these tools from last year are getting even easier. So instead of me spending hours weaving together a bunch of different tools, tools like Runway and Kaiber let you do exactly the same stuff with just a couple clicks. Want to go from day to night? No problemo. Want to get that retro 90s aesthetic from "Full House"? You can do that too.
물론 리얼리티 캡쳐가 대중화된 것처럼 지난해에 사용된 이 모든 도구들이 더욱 다루기 쉬워지고 있습니다. 그래서 몇 시간 동안 수많은 도구들을 함께 사용해야 하는 대신 런웨이와 카이버 같은 도구들은 몇 번의 클릭만으로 똑같은 작업을 할 수 있게 해줍니다. 낮에서 밤으로 바꾸고 싶으신가요? 문제 없습니다. ‘풀 하우스’의 레트로 90년대 감성을 원하시나요? 그것도 가능합니다.
But it goes beyond reality capture. Companies like Wonder Dynamics are turning video into this immaculate form of performance capture so you can embody fantastical creatures using the phone in your pocket. This is stuff that James Cameron only dreamt about in the 2000s. And now you could do it with your iPhone? That’s absolutely wild to me.
하지만 이는 리얼리티 캡쳐를 넘어서고 있습니다. 원더 다이내믹스와 같은 기업들은 영상을 완벽한 형태의 퍼포먼스 캡쳐로 바꿔서 주머니의 휴대전화로 환상적인 생물을 구현할 수 있도록 해줍니다. 이것은 제임스 카메론이 2000년대에 꿈꾸기만 했던 것들이에요. 이젠 아이폰만으로 할 수 있다니 정말 믿기 어렵네요.
So when I look back at the past two decades and this ill-tailored tapestry of tools that I've had to learn, I feel a sense of optimism for what lies ahead for the next generation of creators. The 11-year-olds of today don't have to worry about all of that crap. All they need to do is have a creative vision and a knack for working in concert with these AI models, these AI models that are truly a distillation of human knowledge and creativity. And that's a future I'm excited about, a future where you can blend reality and imagination with your trusty AI copilot.
지난 20년을 되돌아보면서 제가 배워야 했던 이러한 난잡하게 얽힌 도구들을 생각해 보면 다음 세대의 크리에이터들에게 어떤 가능성이 기다리고 있을지 기대가 됩니다. 오늘날의 11살 아이들은 그 모든 것들에 대해 걱정할 필요가 없어요. 어린이들은 그저 창의적인 비전을 가지고 이러한 인공지능 모델들과 협업하는 요령을 갖기만 하면 됩니다. 이러한 인공지능 모델들은 정말로 인간의 지식과 창의성을 정제한 것이라고 볼 수 있어요. 그것이 바로 제가 기대하는 미래입니다. 여러분의 믿음직한 인공지능 조수와 함께 현실과 상상을 조화롭게 어우러지게 할 수 있는 미래 말이죠.
Thank you very much.
감사합니다.
(Applause)
(박수)