All right. Good afternoon, y’all. Let's talk about blending reality and imagination. But first, let's take a step back in time to 2001. As an 11-year-old in India, I became obsessed with computer graphics and visual effects. Of course, at that age, it meant making cheesy videos kind of like this. But therein started a foundational theme in my life, the quest to blend reality and imagination. And that quest has stayed with me and permeated across my decade-long career in tech, working as a product manager at companies like Google and as a content creator on platforms like YouTube and TikTok.
Bien. Bonjour à tous. Nous allons parler de mêler réalité et imagination. Mais d’abord, revenons dans le passé, en 2001. En Inde, alors que j’avais onze ans, je me suis passionné pour l’infographie et les effets visuels. Bien sûr, à cet âge, ça voulait dire faire ce genre de vidéos bien kitsch. Mais de là a germé une idée qui est devenue fondamentale dans ma vie : ma quête pour mêler réalité et imagination. Et cette quête est restée avec moi et a imprégné mes dix ans de carrière dans la technologie, en tant que chef de produit dans des entreprises comme Google et en tant que créateur de contenu sur des plateformes comme YouTube et TikTok.
So today, let's deconstruct this quest to blend reality and imagination and explore how it’s getting supercharged -- buzzword alert -- by artificial intelligence. Let's start with the reality bit.
Je vous propose maintenant de déconstruire cette quête pour mêler réalité et imagination et d’explorer comment elle est boostée par (attention, terme à la mode) l’intelligence artificielle. Commençons par la réalité.
You probably heard about photogrammetry. It's the art and science of measuring stuff in the real world using photos and other sensors. What required massive data centers and teams of experts in the 2000s became increasingly democratized by the 2010s. Then, of course, machine learning came along and took things to a whole new level with techniques like neural radiance fields, or NeRFs.
Vous avez sans doute entendu parler de la photogrammétrie. C’est l’art et la science de mesurer des objets du monde réel grâce à des photos et d’autres capteurs. Ce qui nécessitait d’immenses centres des données et équipes d’experts dans les années 2000 s’est démocratisé de plus en plus vers les années 2010. Ensuite, bien sûr, le machine learning est arrivé et a amené les choses à un tout autre niveau grâce à des techniques comme les neural radiance fields ou NeRF.
What you're seeing here is an AI model creating a ground-up volumetric 3D representation using 2D images alone. But unlike older techniques for reality capture, NeRFs do a really good job of encapsulating the sheer complexity and nuance of reality. The vibe, if you will.
Ce que vous voyez là est un modèle d’IA créant à partir de rien une représentation 3D volumétrique uniquement à partir d’images 2D. Mais contrairement à des techniques antérieures de capture de la réalité, les NeRF font un très bon travail pour résumer la complexité et les nuances de la réalité. L’ambiance, si vous voulez.
Twelve months later, you can do all of this stuff using the iPhone in your pocket, using apps like Luma. It's like 3D screenshots for the real world. Capture anything once and reframe it infinitely in postproduction, so you can start building that collection of spaces, places and objects that you truly care about and conjure them up in your future creations.
Douze mois plus tard, vous pouvez faire tout ça avec votre iPhone grâce à des applis comme Luma. Ce sont comme des captures d’écran du monde réel. Saisissez n’importe quelle image, vous pourrez la recadrer autant que vous le voulez en postproduction et commencer à construire cette collection d’espaces, de lieux et d’objets qui vous tiennent vraiment à cœur pour pouvoir les évoquer dans vos créations futures.
So that's the reality bit. As NeRFs were popping off last year, the AI summer was also in full effect, with Midjourney, DALL-E 2, Stable Diffusion all hitting the market around the same time. But what I fell in love with was inpainting. This technique allows you to take existing imagery and augment it with whatever you like, and the results are photorealistically fantastic. It blew my mind because stuff that would have taken me like three hours in classical workflows I could pull off in just three minutes.
Ça, c’est pour la réalité. Tandis que les NeRF décollaient l’année dernière, l’AI summer était aussi en pleine action, avec Midjourney, DALL-E 2, Stable Diffusion arrivant tous sur le marché un peu près au même moment. Mais ce qui m’a séduit, c’est l’inpainting. Cette technique permet de prendre des images existantes pour y ajouter ce que vous voulez. Les résultats sont d’une qualité photoréaliste incroyable. Ça m’a renversé, parce que des trucs qui me prendraient normalement environ trois heures, je peux les faire en à peine trois minutes.
But I wanted more. Enter ControlNet, a game-changing technique by Stanford researchers that allows you to use various input conditions to guide and control the AI image generation process. So in my case, I could take the depth information and the texture detail from my 3D scans and use it to literally reskin reality.
Mais j’en voulais plus. Est arrivé ControlNet, une technique révolutionnaire développée par des chercheurs de Stanford permettant d’utiliser des conditions de saisie variées afin de guider et contrôler le processus de génération d’image par l’IA. Donc, dans mon cas, je peux prendre les informations de profondeur et les textures de mes numérisations 3D et m’en servir pour littéralement remodeler la réalité.
Now, this isn't just cool video. There’s a lot of useful use cases, too. For example, in this case I'm taking a 3D scan of my parents' drawing room, as my mother likes to call it, and reskinning it to different styles of Indian decor and doing so while respecting the spatial context and the layout of the interior space. If you squint, I'm sure you can see how this is going to transform architecture and interior design forever.
Ce ne sont pas que des vidéos sympas. Il y a aussi des tas d’utilisations concrètes. Par exemple, ici je fais une numérisation 3D du “boudoir” de mes parents, comme ma mère aime l’appeler, pour le redécorer dans différents styles indiens tout en respectant le contexte spatial et la disposition de l’espace. Je suis sûr que vous pouvez imaginer la manière dont ça va transformer l’architecture et la décoration d’intérieur à long terme.
You could take that 2016 scan of a Buddha statue and reskin it to be gloriously golden while pulling off these impossible camera moves you just couldn't do any other way. Or you could take that vacation footage from your trip to Tokyo and bring these cherry blossoms to life in a whole new way. And let me tell you, cherry blossoms look really good during the day, but they look even better at night. Oh, my God. They sure are glowing.
Vous pouvez prendre cette numération de 2016 d’une statue de Bouddha et la repeindre d’une magnifique couleur or tout en accomplissant ces mouvements de caméra impossibles à faire autrement. Ou vous pouvez prendre ce film de vos vacances à Tokyo et donner vie à ces fleurs de cerisier d’une toute nouvelle manière. Et je peux vous dire que si les fleurs de cerisier sont belles le jour, elles le sont plus encore la nuit. Oh mon Dieu. Elles rayonnent vraiment.
It's almost like this dreamlike quality where you can use AI to accentuate the best aspects of the real world. Natural landscapes look just as beautiful. Like this waterfall that could be on another planet. But of course, you could go over the hills and far away to the French Alps from another dimension.
Il y a comme un rendu onirique là où vous pouvez utiliser l’IA pour accentuer les plus beaux aspects du monde réel. Les paysages naturels sont tout aussi beaux. Comme cette cascade qui semble venir d’une autre planète. Bien sûr, vous pouvez dépasser les collines et aller au-delà jusqu’à ces Alpes françaises d’une autre dimension.
But it's not just static scenes. You can do this stuff with video, too. I can't wait till this technology is running at 30 frames per second because it's going to transform augmented reality and 3D rendering. I mean, how soon until we're channel-surfing realities layered on top of the real world?
Et ce ne sont pas que des scènes fixes. On peut faire ça avec des vidéos aussi. J’ai hâte que cette technologie atteigne 30 FPS, parce que ça va transformer la réalité augmentée et les rendus 3D. Combien de temps avant qu’on zappe entre plusieurs réalités superposées par-dessus sur le monde réel ?
Of course, just like reality capture got democratized, all these tools from last year are getting even easier. So instead of me spending hours weaving together a bunch of different tools, tools like Runway and Kaiber let you do exactly the same stuff with just a couple clicks. Want to go from day to night? No problemo. Want to get that retro 90s aesthetic from "Full House"? You can do that too.
Et tout comme la capture de la réalité s’est démocratisée, tous ces outils datant de l’année dernière deviennent plus accessibles. À la place de passer des heures à alterner entre un tas d’outils différents, des logiciels comme Runway et Kaiber vous permettent de faire la même chose en juste quelques clics. Envie de passer du jour à la nuit ? No problemo. Vous voulez l’esthétique des années 90 de “La Fête à la maison” ? Vous pouvez le faire aussi.
But it goes beyond reality capture. Companies like Wonder Dynamics are turning video into this immaculate form of performance capture so you can embody fantastical creatures using the phone in your pocket. This is stuff that James Cameron only dreamt about in the 2000s. And now you could do it with your iPhone? That’s absolutely wild to me.
Mais ça va au-delà de la capture de la réalité. Des compagnies comme Wonder Dynamics font des vidéos une forme de capture de mouvement d’une qualité impeccable afin de vous permettre d’incarner des créatures fantastiques grâce à votre téléphone portable. C’est le genre de truc dont James Cameron ne pouvait que rêver dans les années 2000. Et maintenant on peut le faire sur son portable. C’est juste dingue.
So when I look back at the past two decades and this ill-tailored tapestry of tools that I've had to learn, I feel a sense of optimism for what lies ahead for the next generation of creators. The 11-year-olds of today don't have to worry about all of that crap. All they need to do is have a creative vision and a knack for working in concert with these AI models, these AI models that are truly a distillation of human knowledge and creativity. And that's a future I'm excited about, a future where you can blend reality and imagination with your trusty AI copilot.
Donc, quand je repense aux vingt dernières années et à cet assemblage confus d’outils que j’ai dû apprendre à maîtriser, je me sens optimiste quant à ce qui attend la prochaine génération de créateurs. Ceux qui ont aujourd’hui onze ans n’ont pas à s’en faire à propos de tous ces trucs. Tout ce dont ils ont besoin, c’est d’une vision créative et de la capacité de travailler avec ces modèles d’IA, qui sont un vrai condensé de connaissance et de créativité humaines. Et je me réjouis qu’arrive ce futur où l’on pourra mêler réalité et imagination avec l’aide d’un copilote de confiance : l’IA.
Thank you very much.
Merci beaucoup.
(Applause)
(Applaudissements)