All right. Good afternoon, y’all. Let's talk about blending reality and imagination. But first, let's take a step back in time to 2001. As an 11-year-old in India, I became obsessed with computer graphics and visual effects. Of course, at that age, it meant making cheesy videos kind of like this. But therein started a foundational theme in my life, the quest to blend reality and imagination. And that quest has stayed with me and permeated across my decade-long career in tech, working as a product manager at companies like Google and as a content creator on platforms like YouTube and TikTok.
Baiklah. Selamat siang, hadirin sekalian. Mari kita bicara tentang memadukan realitas dan imajinasi. Tapi pertama, mari kita mundur ke masa lalu ke tahun 2001. Saat usiaku 11 tahun di India, Aku menjadi terobsesi dengan grafis komputer dan efek visual. Tentu saja, di umur itu, itu berarti untuk membuat video murahan seperti ini. Tapi di situlah dimulainya tema mendasar dalam hidupku, pencarian untuk memadukan realitas dan imajinasi. Dan pencarian itu tetap melekat padaku dan menyatu selama satu dekade karirku di bidang teknologi, bekerja sebagai manajer produk di perusahaan seperti Google dan sebagai pembuat konten di platform seperti YouTube dan TikTok.
So today, let's deconstruct this quest to blend reality and imagination and explore how it’s getting supercharged -- buzzword alert -- by artificial intelligence. Let's start with the reality bit.
Hari ini, mari kita mendekonstruksi upaya untuk memadukan realitas dan imajinasi dan jelajahi bagaimana teknologi semakin canggih --peringatan jargon -- oleh kecerdasan buatan. Mari kita mulai dengan kenyataan.
You probably heard about photogrammetry. It's the art and science of measuring stuff in the real world using photos and other sensors. What required massive data centers and teams of experts in the 2000s became increasingly democratized by the 2010s. Then, of course, machine learning came along and took things to a whole new level with techniques like neural radiance fields, or NeRFs.
Anda mungkin pernah mendengar fotogrametri. Ini adalah seni dan ilmu mengukur benda di dunia nyata menggunakan foto dan sensor lainnya. Hal yang membutuhkan pusat data dan tim ahli dalam jumlah besar tahun 2000an menjadi semakin demokratis pada tahun 2010an. Kemudian, tentunya, pembelajaran mesin pun muncul membawa segala hal ke tingkat yang baru dengan teknik seperti bidang pancaran saraf, atau NeRF.
What you're seeing here is an AI model creating a ground-up volumetric 3D representation using 2D images alone. But unlike older techniques for reality capture, NeRFs do a really good job of encapsulating the sheer complexity and nuance of reality. The vibe, if you will.
Apa yang Anda lihat di sini adalah model AI membuat representasi 3D volumetrik dari bawah ke atas menggunakan gambar 2D saja. Namun tidak seperti teknik lama untuk menangkap realitas, NeRF mampu merangkum kompleksitas yang ada dengan sangat baik dan nuansa realitas dengan sangat baik. Suasananya, jika Anda mau.
Twelve months later, you can do all of this stuff using the iPhone in your pocket, using apps like Luma. It's like 3D screenshots for the real world. Capture anything once and reframe it infinitely in postproduction, so you can start building that collection of spaces, places and objects that you truly care about and conjure them up in your future creations.
Dua belas bulan kemudian, Anda dapat lakukan semua ini menggunakan iPhone di saku Anda, menggunakan aplikasi seperti Luma. Ini seperti tangkapan layar 3D untuk dunia nyata. Tangkap apa pun sekali dan ubah bingkainya tanpa batas di pasca produksi, sehingga Anda dapat mulai membangun kumpulan ruang, tempat, dan objek tersebut yang benar-benar Anda pedulikan dan bayangkan mereka dalam kreasi masa depan Anda.
So that's the reality bit. As NeRFs were popping off last year, the AI summer was also in full effect, with Midjourney, DALL-E 2, Stable Diffusion all hitting the market around the same time. But what I fell in love with was inpainting. This technique allows you to take existing imagery and augment it with whatever you like, and the results are photorealistically fantastic. It blew my mind because stuff that would have taken me like three hours in classical workflows I could pull off in just three minutes.
Jadi itulah kenyataannya. Saat NeRF bermunculan tahun lalu, musim panas AI juga berdampak penuh, dengan Midjourney, DALL-E 2, Difusi Stabil semuanya memasuki pasar di waktu yang hampir bersamaan. Tapi yang membuat aku jatuh cinta adalah restorasi gambar. Teknik ini memungkinkan Anda mengambil citra yang ada dan menambahnya dengan apa pun yang Anda suka, dan hasilnya sungguh fantastis secara fotorealistik. Itu mengejutkanku karena hal-hal yang membutuhkan waktu sekitar tiga jam dalam alur kerja biasa Aku bisa melakukannya hanya dalam tiga menit.
But I wanted more. Enter ControlNet, a game-changing technique by Stanford researchers that allows you to use various input conditions to guide and control the AI image generation process. So in my case, I could take the depth information and the texture detail from my 3D scans and use it to literally reskin reality.
Tapi aku ingin lebih. Masuk ke ControlNet, teknik yang mengubah permainan oleh para peneliti Stanford yang memungkinkan Anda menggunakan berbagai kondisi masukan untuk memandu dan mengontrol proses pembuatan gambar AI. Jadi dalam kasusku, aku dapat mengambil informasi mendalam dan detail tekstur dari pindaian 3D-ku dan menggunakannya untuk benar-benar mengubah kenyataan.
Now, this isn't just cool video. There’s a lot of useful use cases, too. For example, in this case I'm taking a 3D scan of my parents' drawing room, as my mother likes to call it, and reskinning it to different styles of Indian decor and doing so while respecting the spatial context and the layout of the interior space. If you squint, I'm sure you can see how this is going to transform architecture and interior design forever.
Ini bukan hanya video keren. Ada banyak hal penggunaan yang berguna juga. Misalnya, dalam hal ini aku mengambil scan 3D dari ruang tamu orang tuaku, begitu ibuku menyebutnya, dan mengubahnya menjadi gaya dekorasi India yang berbeda dan melakukannya dengan tetap menghormati konteks spasial dan tata letaknya dari ruang interior. Jika menyipitkan mata, aku yakin Anda bisa lihat bagaimana hal ini akan mengubah arsitektur dan desain interior selamanya.
You could take that 2016 scan of a Buddha statue and reskin it to be gloriously golden while pulling off these impossible camera moves you just couldn't do any other way. Or you could take that vacation footage from your trip to Tokyo and bring these cherry blossoms to life in a whole new way. And let me tell you, cherry blossoms look really good during the day, but they look even better at night. Oh, my God. They sure are glowing.
Anda dapat mengambil pindaian patung Buddha tahun 2016 itu dan mengubah kulitnya menjadi emas yang megah sambil melakukan gerakan kamera yang mustahil ini Anda tidak dapat melakukan cara lain. Atau Anda dapat mengambil cuplikan liburan dari perjalanan Anda ke Tokyo dan menghidupkan bunga sakura ini dengan cara yang benar-benar baru. Dan aku beri tahu, bunga sakura terlihat sangat indah di siang hari, namun terlihat lebih indah di malam hari. Ya Tuhan. Mereka sungguh bersinar.
It's almost like this dreamlike quality where you can use AI to accentuate the best aspects of the real world. Natural landscapes look just as beautiful. Like this waterfall that could be on another planet. But of course, you could go over the hills and far away to the French Alps from another dimension.
Ini hampir seperti kualitas mimpi di mana Anda bisa menggunakan AI untuk menonjolkan aspek terbaik dunia nyata. Pemandangan alam pun terlihat tak kalah indahnya. Seperti air terjun ini yang mungkin ada di planet lain. Namun tentu saja, Anda bisa pergi ke perbukitan dan jauh ke Alpen Prancis dari dimensi lain.
But it's not just static scenes. You can do this stuff with video, too. I can't wait till this technology is running at 30 frames per second because it's going to transform augmented reality and 3D rendering. I mean, how soon until we're channel-surfing realities layered on top of the real world?
Namun ini bukan hanya layar statis. Anda bisa lakukan hal ini dengan video juga. Aku tidak sabar hingga teknologi ini berjalan dengan 30 bingkai per detik karena ini akan mengubah realitas bertambah dan mengubah 3D. Maksudku, seberapa cepat kita menjelajahi realitas penelusuran saluran berlapis di atas dunia nyata?
Of course, just like reality capture got democratized, all these tools from last year are getting even easier. So instead of me spending hours weaving together a bunch of different tools, tools like Runway and Kaiber let you do exactly the same stuff with just a couple clicks. Want to go from day to night? No problemo. Want to get that retro 90s aesthetic from "Full House"? You can do that too.
Seperti penangkapan realitas yang didemokratisasi, semua alat yang digunakan tahun lalu menjadi semakin mudah. Jadi daripada aku menghabiskan waktu merangkai berbagai alat yang berbeda, alat seperti Runway dan Kaiber membuat Anda melakukan hal yang persis sama hanya dengan beberapa klik. Ingin pergi dari siang hingga malam? Tidak masalah. Ingin mendapatkan estetika retro 90-an dari “Full House”? Anda bisa melakukannya juga.
But it goes beyond reality capture. Companies like Wonder Dynamics are turning video into this immaculate form of performance capture so you can embody fantastical creatures using the phone in your pocket. This is stuff that James Cameron only dreamt about in the 2000s. And now you could do it with your iPhone? That’s absolutely wild to me.
Namun hal ini lebih dari sekedar menangkap kenyataan. Perusahaan seperti <i>Wonder Dynamics</i> mengubah video menjadi bentuk penangkapan kinerja yang sempurna sehingga Anda dapat mewujudkan makhluk luar biasa dengan ponsel di saku Anda. Ini adalah hal yang hanya diimpikan oleh James Cameron di tahun 2000an. Dan sekarang Anda bisa melakukannya dengan iPhone? Itu sangat hebat.
So when I look back at the past two decades and this ill-tailored tapestry of tools that I've had to learn, I feel a sense of optimism for what lies ahead for the next generation of creators. The 11-year-olds of today don't have to worry about all of that crap. All they need to do is have a creative vision and a knack for working in concert with these AI models, these AI models that are truly a distillation of human knowledge and creativity. And that's a future I'm excited about, a future where you can blend reality and imagination with your trusty AI copilot.
Jadi ketika aku melihat kembali ke dua dekade terakhir dan permadani alat yang tidak dirancang dengan baik yang harus aku pelajari, Aku merasakan optimisme terhadap masa depan para kreator generasi berikutnya. Anak usia 11 tahun saat ini tidak perlu khawatirkan semua omong kosong itu. Yang perlu mereka lakukan hanyalah memiliki visi kreatif dan kemampuan untuk bekerja sama dengan model AI ini, model AI ini yang benar-benar merupakan hasil distilasi pengetahuan dan kreativitas manusia. itu masa depan yang membuatku bersemangat, masa depan di mana Anda dapat memadukan kenyataan dan imajinasi dengan kopilot AI terpercaya Anda.
Thank you very much.
Terima kasih banyak.
(Applause)
(Tepuk tangan)