All right. Good afternoon, y’all. Let's talk about blending reality and imagination. But first, let's take a step back in time to 2001. As an 11-year-old in India, I became obsessed with computer graphics and visual effects. Of course, at that age, it meant making cheesy videos kind of like this. But therein started a foundational theme in my life, the quest to blend reality and imagination. And that quest has stayed with me and permeated across my decade-long career in tech, working as a product manager at companies like Google and as a content creator on platforms like YouTube and TikTok.
ठीक है। आप सभी का स्वागत है। आइए वास्तविकता और कल्पना के मिश्रण के बारे में बात करें। लेकिन पहले, आइए 2001 में एक कदम पीछे चलते हैं। भारत में 11 साल की उम्र में, मैं कंप्यूटर ग्राफ़िक्स और विज़ुअल इफ़ेक्ट्स का दीवाना हो गया। बेशक, उस उम्र में, इसका मतलब इस तरह के अजीब-ओ-गरीब वीडियो बनाना था। लेकिन वहाँ मेरे जीवन का एक मूलभूत विषय शुरू हुआ, वास्तविकता और कल्पना को मिश्रित करने की खोज। और वह मेरे साथ बनी हुई है और मेरे एक दशक-लंबे तकनीकी पेशे में - गूगल जैसी कंपनियों में प्रोडक्ट मैनेजर और यूट्यूब, टिकटॉक इत्यादि पर कंटेंट क्रिएटर के रूप में काम करते हुए - व्याप्त हो गई है।
So today, let's deconstruct this quest to blend reality and imagination and explore how it’s getting supercharged -- buzzword alert -- by artificial intelligence. Let's start with the reality bit.
तो आज, वास्तविकता और कल्पना के मिश्रण की इस खोज का पुनर्निर्माण करते हैं और समझते हैं कि यह कैसे उत्तेजित हो रहा है -- बज़वर्ड की चेतावनी -- आर्टिफिशल इंटेलिजेंस द्वारा। चलिए वास्तविकता से शुरुआत करें।
You probably heard about photogrammetry. It's the art and science of measuring stuff in the real world using photos and other sensors. What required massive data centers and teams of experts in the 2000s became increasingly democratized by the 2010s. Then, of course, machine learning came along and took things to a whole new level with techniques like neural radiance fields, or NeRFs.
आपने शायद फोटोग्रामेट्री के बारे में सुना होगा। यह वास्तविक दुनिया में सामान को फ़ोटो और अन्य सेंसरों का उपयोग करके मापने की कला और विज्ञान है। 2000 के दशक में जिसको बड़े डेटा केंद्रों और विशेषज्ञों की आवश्यकता थी 2010 तक वह तेजी से सब के पास पहुँच गया। फिर, निस्संदेह, मशीन लर्निंग साथ आई और चीज़ों को बिल्कुल नए स्तर पर ले गई नेचुरल रेडियन्स फ़ील्ड्स, या एन ई आर एफ़ जैसी तकनीकों से।
What you're seeing here is an AI model creating a ground-up volumetric 3D representation using 2D images alone. But unlike older techniques for reality capture, NeRFs do a really good job of encapsulating the sheer complexity and nuance of reality. The vibe, if you will.
आप यहाँ जो देख रहे हैं वह एक ए आई मॉडल है जो सिर्फ़ 2डी छवियों का उपयोग करके शुरआत से 3डी प्रतिरूप बना रहा है। लेकिन वास्तविकता को पकड़ने की पुरानी तकनीकों के विपरीत, एन ई आर एफ़ वास्तविकता की जटिलता और सूक्ष्मता को अच्छे से समेटते हैं। जिसे आप वातावरण भी कह सकते हैं।
Twelve months later, you can do all of this stuff using the iPhone in your pocket, using apps like Luma. It's like 3D screenshots for the real world. Capture anything once and reframe it infinitely in postproduction, so you can start building that collection of spaces, places and objects that you truly care about and conjure them up in your future creations.
बारह महीने बाद, आप यह सब अपनी जेब में रखे आईफ़ोन से लूमा जैसे ऐप्स का इस्तेमाल करके खुद कर सकते हैं। यह वास्तविक दुनिया के लिए 3डी स्क्रीनशॉट के समान है। किसी भी चीज़ को एक बार कैप्चर करें और फिर असीमित रूप से रीफ़्रेम करें, तो आप उन स्थानों और वस्तुओं के संग्रह का निर्माण कर सकें जो आपके लिए वाकई अमूल्य हैं और उन्हें अपनी भावी रचनाओं में शामिल करें।
So that's the reality bit. As NeRFs were popping off last year, the AI summer was also in full effect, with Midjourney, DALL-E 2, Stable Diffusion all hitting the market around the same time. But what I fell in love with was inpainting. This technique allows you to take existing imagery and augment it with whatever you like, and the results are photorealistically fantastic. It blew my mind because stuff that would have taken me like three hours in classical workflows I could pull off in just three minutes.
तो यह वास्तविकता की बात हो गयी। पिछले वर्ष जैसे एन ई आर एफ़ सामने आ रहे थे, एआई की धूम भी पूरे प्रभाव में थी, मिडजर्नी, डैल-ई 2, स्टेबल डिफ़्यूशन, सभी के एक ही समय पर बाज़ार में आने से। लेकिन जिस चीज़ से मुझे प्यार हुआ वह इनपेंटिंग थी। यह तकनीक आपको मौजूदा छवि लेकर आप जो चाहें, उसके साथ उसे संवर्धित करने देती है और परिणाम बिलकुल किसी असली तस्वीर जैसे शानदार हैं। मेरा तो सर ही चकरा गया क्योंकि सामान्य तरीकों से मुझे यह करने में लगभग तीन घंटे लगेंगे मैं केवल तीन मिनट में ही इसे पूरा कर सका।
But I wanted more. Enter ControlNet, a game-changing technique by Stanford researchers that allows you to use various input conditions to guide and control the AI image generation process. So in my case, I could take the depth information and the texture detail from my 3D scans and use it to literally reskin reality.
लेकिन मैं और करना चाहता था। फिर आया कंट्रोलनेट, स्टैनफोर्ड शोधकर्ताओं द्वारा इस खेल को बदल देने वाली तकनीक जो ए आई छवि निर्माण प्रक्रिया को मार्गदर्शित व नियंत्रित करने के लिए विभिन्न इनपुट स्थितियाँ डालने देती है। तो मेरे काम के लिए, मैं अपने 3डी स्कैनों से गहराई और बनावट की जानकारी ले सकता हूँ और इससे वास्तविकता को नया रूप दे सकता हूँ।
Now, this isn't just cool video. There’s a lot of useful use cases, too. For example, in this case I'm taking a 3D scan of my parents' drawing room, as my mother likes to call it, and reskinning it to different styles of Indian decor and doing so while respecting the spatial context and the layout of the interior space. If you squint, I'm sure you can see how this is going to transform architecture and interior design forever.
अब यह केवल एक बढ़िया वीडियो नहीं इसके बहुत सारे उपयोग भी हैं। उदाहरण के लिए, मैं अपने माता-पिता के ड्राइंग रूम - मेरी माँ इसे यह बुलाती हैं - उसका 3डी स्कैन ले रहा हूँ, और भारतीय सजावट की विभिन्न शैलियों के अनुसार नया रूप दे रहा हूँ इस जगह के स्थानिक संदर्भ और नक़्शे का ध्यान रखते हुए। यदि आप तिरछी नज़र से देखेंगे, आप देख सकते हैं यह कैसे वास्तुकला और इंटीरियर डिजाइन को हमेशा के लिए बदल देगा।
You could take that 2016 scan of a Buddha statue and reskin it to be gloriously golden while pulling off these impossible camera moves you just couldn't do any other way. Or you could take that vacation footage from your trip to Tokyo and bring these cherry blossoms to life in a whole new way. And let me tell you, cherry blossoms look really good during the day, but they look even better at night. Oh, my God. They sure are glowing.
आप बुद्ध प्रतिमा का 2016 का स्कैन ले सकते हैं और इसे शानदार ढंग से सुनहरा बना सकते हैं इन असंभव कैमरा चालों के साथ जो आप किसी अन्य तरीके से नहीं कर सकते। या आप अपनी टोक्यो यात्रा का वीडियो ले सकते हैं और इन चेरी ब्लॉसम को बिल्कुल नए तरीके से जीवंत कर सकते हैं। और मैं आपको बता दूँ, चेरी ब्लॉसम दिन में बहुत अच्छे लगते हैं, लेकिन वे रात में और भी अच्छे दिखते हैं। अरे बाप रे। वे निश्चित रूप से चमक रहे हैं।
It's almost like this dreamlike quality where you can use AI to accentuate the best aspects of the real world. Natural landscapes look just as beautiful. Like this waterfall that could be on another planet. But of course, you could go over the hills and far away to the French Alps from another dimension.
यह लगभग सपने जैसा ही है आप वास्तविक दुनिया के सर्वोत्तम पहलुओं को एआई द्वारा उजागर सकते हैं। प्राकृतिक परिदृश्य भी उतने ही सुंदर लगते हैं। इस झरने की तरह जो किसी दूसरे ग्रह पर हो सकता है। लेकिन आप पहाड़ियों के ऊपर और बहुत दूर तक जा सकते हैं दूसरे आयाम से फ़्रांसीसी आल्प्स तक।
But it's not just static scenes. You can do this stuff with video, too. I can't wait till this technology is running at 30 frames per second because it's going to transform augmented reality and 3D rendering. I mean, how soon until we're channel-surfing realities layered on top of the real world?
लेकिन ये सिर्फ स्थिर दृश्य नहीं हैं। आप यह काम वीडियो के साथ भी कर सकते हैं। मैं तब तक इंतजार नहीं कर सकता जब तक यह तकनीक 30 फ्रेम प्रति सेकंड पर न चले क्योंकि यह ऑग्मेंटिड रियालिटी और 3डी रेंडरिंगको बदल देगा। मेरा मतलब है, हम कितनी जल्दी वास्तविक दुनिया के ऊपर स्तरित वास्तविकताओं में घूमेंगे ?
Of course, just like reality capture got democratized, all these tools from last year are getting even easier. So instead of me spending hours weaving together a bunch of different tools, tools like Runway and Kaiber let you do exactly the same stuff with just a couple clicks. Want to go from day to night? No problemo. Want to get that retro 90s aesthetic from "Full House"? You can do that too.
निःसंदेह, जैसे वास्तविकता को पकड़ना सुलभ हो गया, वैसे ही, पिछले वर्ष के ये सभी उपकरण और भी आसान होते जा रहे हैं। तो बजाय इसके कि मैं घंटों बिताऊँ विभिन्न उपकरणों का एक साथ प्रयोग करके, रनवे और काइबर जैसे उपकरण बिल्कुल वही काम करते हैं बस कुछ ही क्लिक में। क्या आप दिन से रात में जाना चाहते हैं? कोई समस्या नहीं। क्या आप “फुल हाउस” के 90 के दशक का रेट्रो सौंदर्य चाहते हैं? आप ऐसा भी कर सकते हैं।
But it goes beyond reality capture. Companies like Wonder Dynamics are turning video into this immaculate form of performance capture so you can embody fantastical creatures using the phone in your pocket. This is stuff that James Cameron only dreamt about in the 2000s. And now you could do it with your iPhone? That’s absolutely wild to me.
लेकिन यह वास्तविकता को पकड़ने से परे है। वंडर डायनेमिक्स जैसी कंपनियाँ वीडियो को प्रदर्शन कैप्चर के इस बेदाग रूप में बदल रही हैं जिससे आप अपनी जेब में रखे फ़ोन से काल्पनिक प्राणियों को मूर्त रूप दे सकते हैं। यह वही है जिसका जेम्स कैमरून ने 2000 के दशक में सिर्फ़ सपना देखा था। और अब आप इसे आईफ़ोन पर कर सकते हैं? यह मेरे लिए बिल्कुल अविश्वसनीय है।
So when I look back at the past two decades and this ill-tailored tapestry of tools that I've had to learn, I feel a sense of optimism for what lies ahead for the next generation of creators. The 11-year-olds of today don't have to worry about all of that crap. All they need to do is have a creative vision and a knack for working in concert with these AI models, these AI models that are truly a distillation of human knowledge and creativity. And that's a future I'm excited about, a future where you can blend reality and imagination with your trusty AI copilot.
इसलिए जब मैं पिछले दो दशकों और इन उपकरणों - जो मुझे सीखना पड़ा - के झंझट पर नजर डालता हूँ मैं रचनाकारों की अगली पीढ़ी के लिए आने वाली चीज़ों के प्रति आशावादी महसूस करता हूँ। आज के 11 साल के बच्चों को उस सब बकवास की चिंता करने की ज़रूरत नहीं होगी। उनके पास बस एक रचनात्मक दृष्टिकोण होना चाहिए और इन एआई मॉडलों के साथ मिलकर काम करने की आदत, ये एआई मॉडल वास्तव में मानव ज्ञान और रचनात्मकता का परिष्करण हैं। और ऐसे भविष्य के लिए ही मैं उत्सुक हूँ, एक ऐसा भविष्य जहाँ आप वास्तविकता और कल्पना का मिश्रण कर सकें अपने भरोसेमंद एआई सहपायलट के साथ।
Thank you very much.
आपका बहुत-बहुत धन्यवाद।
(Applause)
(तालियाँ)