All right. Good afternoon, y’all. Let's talk about blending reality and imagination. But first, let's take a step back in time to 2001. As an 11-year-old in India, I became obsessed with computer graphics and visual effects. Of course, at that age, it meant making cheesy videos kind of like this. But therein started a foundational theme in my life, the quest to blend reality and imagination. And that quest has stayed with me and permeated across my decade-long career in tech, working as a product manager at companies like Google and as a content creator on platforms like YouTube and TikTok.
De acuerdo. Buenas tardes a todos. Hablemos de la mezcla realidad e imaginación. Pero primero, tomemos un paso atrás en el tiempo hasta el año 2001. A mis 11 años en la India, me obsesioné con gráficos por ordenador y efectos visuales. Por supuesto, a esa edad, significaba hacer vídeos cursis como estos: Pero ahí empezó un tema fundamental en mi vida, la búsqueda de mezclar la realidad con la imaginación. Y esa búsqueda ha permanecido a lo largo de mi carrera de una década en la tecnología como jefe de producto en empresas como Google y como creador de contenidos en YouTube y TikTok.
So today, let's deconstruct this quest to blend reality and imagination and explore how it’s getting supercharged -- buzzword alert -- by artificial intelligence. Let's start with the reality bit.
Deconstruyamos esta búsqueda de mezclar realidad e imaginación y exploremos cómo se potencia, atención, palabras de moda, por la inteligencia artificial. Empecemos por la realidad.
You probably heard about photogrammetry. It's the art and science of measuring stuff in the real world using photos and other sensors. What required massive data centers and teams of experts in the 2000s became increasingly democratized by the 2010s. Then, of course, machine learning came along and took things to a whole new level with techniques like neural radiance fields, or NeRFs.
Probablemente hayan oído hablar de la fotogrametría. Es el arte y la ciencia de medir cosas en el mundo real mediante fotos y otros sensores. Lo que requerían centros de datos masivos y equipos de expertos a principios de este siglo, cada vez más democratizado en la década de 2010. Entonces, claro, llegó el aprendizaje automático y se llegó a un nivel completamente nuevo con técnicas como campos de radiancia neural, o NeRF.
What you're seeing here is an AI model creating a ground-up volumetric 3D representation using 2D images alone. But unlike older techniques for reality capture, NeRFs do a really good job of encapsulating the sheer complexity and nuance of reality. The vibe, if you will.
Aquí vemos un modelo de IA que crea una representación volumétrica en 3D usando solo 2D. Pero a diferencia de las técnicas antiguas para captar la realidad, los NeRF encapsulan muy bien la enorme complejidad y matices de la realidad. El ambiente, por así decirlo.
Twelve months later, you can do all of this stuff using the iPhone in your pocket, using apps like Luma. It's like 3D screenshots for the real world. Capture anything once and reframe it infinitely in postproduction, so you can start building that collection of spaces, places and objects that you truly care about and conjure them up in your future creations.
Doce meses después, se puede hacer todas estas cosas con el iPhone en el bolsillo, con aplicaciones como Luma. Es como capturas de pantalla en 3D para el mundo real. Captar cualquier cosa una vez y reencuadrarla infinitamente en postproducción, para crear esa colección de espacios, lugares y objetos que realmente te importan y conjurarlos en tus futuras creaciones.
So that's the reality bit. As NeRFs were popping off last year, the AI summer was also in full effect, with Midjourney, DALL-E 2, Stable Diffusion all hitting the market around the same time. But what I fell in love with was inpainting. This technique allows you to take existing imagery and augment it with whatever you like, and the results are photorealistically fantastic. It blew my mind because stuff that would have taken me like three hours in classical workflows I could pull off in just three minutes.
Esa es la realidad. Mientras los NeRFs salían el año pasado, el verano IA también estaba en pleno apogeo, con Midjourney, DALL-E 2, Stable Diffusion, todos llegan al mercado más o menos al mismo tiempo. Me enamoré del “inpainting”. Esta técnica permite tomar imágenes existentes y aumentarlas como uno quiera, y los resultados visuales son fantásticos. Me impresionó porque algo que me hubiera llevado tres horas de trabajo usual lo podía hacer en solo tres minutos.
But I wanted more. Enter ControlNet, a game-changing technique by Stanford researchers that allows you to use various input conditions to guide and control the AI image generation process. So in my case, I could take the depth information and the texture detail from my 3D scans and use it to literally reskin reality.
Pero yo quería más. Esto es ControlNet, una técnica revolucionaria de investigadores de Stanford que permite utilizar varias condiciones de entrada para guiar y controlar el proceso de generación de imágenes de IA. En mi caso, podría tomar la información de profundidad y el detalle de la textura de mis escaneos 3D y, literalmente, cambiar el aspecto de la realidad.
Now, this isn't just cool video. There’s a lot of useful use cases, too. For example, in this case I'm taking a 3D scan of my parents' drawing room, as my mother likes to call it, and reskinning it to different styles of Indian decor and doing so while respecting the spatial context and the layout of the interior space. If you squint, I'm sure you can see how this is going to transform architecture and interior design forever.
Pero esto puede ir más allá. También hay muchos casos de uso útiles. Por ejemplo, en este caso estoy tomando un escáner 3D del salón de mis padres, como mi madre suele llamarlo, y cambiarle el aspecto a diferentes estilos de decoración india y hacerlo respetando el contexto espacial y la disposición del espacio interior. Entrecierren los ojos, y seguro pueden ver cómo esto va a transformar la arquitectura y el diseño de interiores para siempre.
You could take that 2016 scan of a Buddha statue and reskin it to be gloriously golden while pulling off these impossible camera moves you just couldn't do any other way. Or you could take that vacation footage from your trip to Tokyo and bring these cherry blossoms to life in a whole new way. And let me tell you, cherry blossoms look really good during the day, but they look even better at night. Oh, my God. They sure are glowing.
Podrían tomar ese escaneo de 2016 de una estatua de Buda y cambiarle el aspecto a un dorado glorioso con movimientos de cámara imposibles que no se podrían lograr de otra manera. O podrían tomar esas vacaciones de su viaje a Tokio y dar vida a estos cerezos en flor de una forma totalmente nueva. Y les diré que los cerezos en flor se ven muy bien durante el día, pero se ven aún mejor por la noche. Dios mío.
It's almost like this dreamlike quality where you can use AI to accentuate the best aspects of the real world. Natural landscapes look just as beautiful. Like this waterfall that could be on another planet. But of course, you could go over the hills and far away to the French Alps from another dimension.
Vaya que están brillando. Es casi una cualidad onírica poder usar IA para acentuar los mejores aspectos del mundo real. Los paisajes naturales son igual de bellos. Como esta cascada que podría estar en otro planeta. Por supuesto, podrían remontar las colinas y más allá a los Alpes franceses desde otra dimensión.
But it's not just static scenes. You can do this stuff with video, too. I can't wait till this technology is running at 30 frames per second because it's going to transform augmented reality and 3D rendering. I mean, how soon until we're channel-surfing realities layered on top of the real world?
Pero no se trata solo de escenas estáticas. Estas cosas también se pueden hacer con vídeo. No veo la hora de que esta tecnología funcione a 30 fotogramas por segundo porque va a transformar la realidad aumentada y renderización 3D. Es decir, ¿cuánto falta para sumar capas de realidad a las del mundo real?
Of course, just like reality capture got democratized, all these tools from last year are getting even easier. So instead of me spending hours weaving together a bunch of different tools, tools like Runway and Kaiber let you do exactly the same stuff with just a couple clicks. Want to go from day to night? No problemo. Want to get that retro 90s aesthetic from "Full House"? You can do that too.
Al igual que se democratizó la captura, todas estas herramientas del año pasado son cada vez más fáciles. Así que en vez de pasar horas entretejiendo herramientas diferentes, herramientas como Runway y Kaiber permiten hacer exactamente lo mismo con solo un par de clics. ¿Pasar del día a la noche? No hay problema. ¿Conseguir esa estética retro de los 90 de “Full House”? Tú también puedes hacerlo.
But it goes beyond reality capture. Companies like Wonder Dynamics are turning video into this immaculate form of performance capture so you can embody fantastical creatures using the phone in your pocket. This is stuff that James Cameron only dreamt about in the 2000s. And now you could do it with your iPhone? That’s absolutely wild to me.
Pero va más allá de la captura de la realidad Empresas como Wonder Dynamics convierten el vídeo en esta forma inmaculada de actuación para representar criaturas fantásticas con el móvil. Estas son cosas que James Cameron solo soñaba en la década de 2000. ¿Y ahora puedes hacerlo con el iPhone? Tremendo para mí.
So when I look back at the past two decades and this ill-tailored tapestry of tools that I've had to learn, I feel a sense of optimism for what lies ahead for the next generation of creators. The 11-year-olds of today don't have to worry about all of that crap. All they need to do is have a creative vision and a knack for working in concert with these AI models, these AI models that are truly a distillation of human knowledge and creativity. And that's a future I'm excited about, a future where you can blend reality and imagination with your trusty AI copilot.
Así que cuando repaso las dos últimas décadas y veo este tapiz maltrecho de herramientas aprendidas, siento optimismo por lo que nos espera para la próxima generación de creadores. Los niños de 11 años de hoy no tienen que preocuparse de toda esa maraña. Solo necesitan una visión creativa y un don para trabajar en tándem con estos modelos de IA, modelos de IA que son realmente una destilación del conocimiento y la creatividad humana. Y ese es un futuro que me entusiasma, un futuro en el que se pueda mezclar realidad e imaginación con tu fiel copiloto, la IA.
Thank you very much.
Muchas gracias.
(Applause)
(Aplausos)