حسناً، مساء الخير عليكم جميعاً. هيا نتحدث عن الدمج بين الواقع والخيال. لكن قبل ذلك دعونا نرجع بالزمن إلى عام 2001. حين كنت طفلاً بعمر 11 في الهند، أصبحت مهووساً بالرسومات الحاسوبية والمؤثرات البصرية. بالطبع، في هذا العمر، كنت أصنع فيديوهات رديئة كهذه. ولكن من هناك بدأت تأسيس هدف لحياتي، ألا وهو السعي لدمج الواقع بالخيال. وقد ظل هذا الهدف يلازمني، وتخلل مسيرتي المهنية، التي استمرت عقداً من الزمان في مجال التكنولوجيا، عملت فيها مدير إنتاج في شركات مثل جوجل وأيضاً منشئ محتوى على منصات مثل يوتيوب وتيكتوك.
All right. Good afternoon, y’all. Let's talk about blending reality and imagination. But first, let's take a step back in time to 2001. As an 11-year-old in India, I became obsessed with computer graphics and visual effects. Of course, at that age, it meant making cheesy videos kind of like this. But therein started a foundational theme in my life, the quest to blend reality and imagination. And that quest has stayed with me and permeated across my decade-long career in tech, working as a product manager at companies like Google and as a content creator on platforms like YouTube and TikTok.
لذا فاليوم سنحلل هذا الهدف المتمثل في الدمج بين الواقع والخيال ونستكشف كيف أنه يسير بوتيرة سريعة بفضل الذكاء الاصطناعي. فلنبدأ بالواقع قليلاً. لعلك سمعت عن المسح التصويري. إنه فن وعلم قياس الأشياء في العالم الحقيقي باستخدام الصور، وأجهزة الاستشعار الأخرى.
So today, let's deconstruct this quest to blend reality and imagination and explore how it’s getting supercharged -- buzzword alert -- by artificial intelligence. Let's start with the reality bit. You probably heard about photogrammetry. It's the art and science of measuring stuff in the real world using photos and other sensors.
إن ما كان يتطلب مراكز بيانات ضخمة وفرق من الخبراء في العقد الأول من القرن الحادي والعشرين أصبح بمتناول الجميع مع بداية عقده الثاني. بعد ذلك بالطبع، جاء التعلم الآلي ونقل التكنولوجيا إلى مستوًى جديد تماماً مع تقنيات جديدة مثل تقنية مجال الإشعاع العصبي، أو ما يسمى “نيرف“.
What required massive data centers and teams of experts in the 2000s became increasingly democratized by the 2010s. Then, of course, machine learning came along and took things to a whole new level with techniques like neural radiance fields, or NeRFs.
ما تراه هنا هو نموذج للذكاء الاصطناعي بإمكانه إنشاء مجسمات ثلاثية الأبعاد بدايةً من حجر الأساس مستعملاً صوراً ثنائية الأبعاد فقط. لكن على عكس التقنيات القديمة المستعملة في التصوير، تقوم تقنية “نيرف” بعمل جيد حقّاً في تجسيد تعقيدات ودقة العالم الواقعي، الطابع العام إن صح التعبير.
What you're seeing here is an AI model creating a ground-up volumetric 3D representation using 2D images alone. But unlike older techniques for reality capture, NeRFs do a really good job of encapsulating the sheer complexity and nuance of reality. The vibe, if you will.
بعد اثني عشر شهراً، يمكنك فعل كل هذه الأشياء باستخدام هاتفك الذي في جيبك باستخدام تطبيقات مثل تطبيق “لوما“. و هو يُمَكِّنك من التقاط مشاهد ثلاثية الأبعاد للعالم الحقيقي. التقط صورةً لأي شيء مرةً واحدةً وقم بتعديله بحرية في مرحلة ما بعد الإنتاج، حتى تتمكن من البدء في بناء مجموعتك من المرافق والأماكن والأشياء التي تحبها ووضعها في إبداعاتك المستقبلية.
Twelve months later, you can do all of this stuff using the iPhone in your pocket, using apps like Luma. It's like 3D screenshots for the real world. Capture anything once and reframe it infinitely in postproduction, so you can start building that collection of spaces, places and objects that you truly care about and conjure them up in your future creations.
وكان هذا جانب الواقع. عندما ظهرت تقنية “نيرف” العام الماضي، كان مجال الذكاء الاصطناعي قد حقق تطوراً ملحوظاً أيضاً، مع ظهور تقنيات مثل “Midjourney” و“DALL-E 2”و“Stable Diffusion” التي عصفت بالسوق في نفس الفترة. لكن الشيء الذي وقعت في حبه حقّاً كان تقنية “الترقيع“. هذه التقنية تسمح لك بأخذ أي صورة وإدخال ما تود عليها، والصور المُنتجة واقعية لدرجة مذهلة. لقد أذهلتني حقّاً لأنه من خلالها يمكن للأعمال التي كانت تأخذ مني ثلاث ساعات أن تُنهى في ثلاث دقائق فقط.
So that's the reality bit. As NeRFs were popping off last year, the AI summer was also in full effect, with Midjourney, DALL-E 2, Stable Diffusion all hitting the market around the same time. But what I fell in love with was inpainting. This technique allows you to take existing imagery and augment it with whatever you like, and the results are photorealistically fantastic. It blew my mind because stuff that would have taken me like three hours in classical workflows I could pull off in just three minutes.
لكنني أردت المزيد. فلتدخل إلى “ControlNet”، وهي تقنية واعدة جدّاً صُممت من قبل معهد أبحاث ستانفورد التي تسمح لك بالتحكم في العديد من المدخلات كي تسير وتوجه عملية توليد الصور بالذكاء الاصطناعي. فعند استعمالي لها، كنت آخذ معلومات العمق وتفاصيل المجسمات من عمليات المسح ثلاثية الأبعاد وأستعملها لإعادة تشكيل الواقع بلا مبالغة.
But I wanted more. Enter ControlNet, a game-changing technique by Stanford researchers that allows you to use various input conditions to guide and control the AI image generation process. So in my case, I could take the depth information and the texture detail from my 3D scans and use it to literally reskin reality.
إنها لا تُستعمل على الفيديوهات فقط،
Now, this isn't just cool video.
هناك عدة استعمالات أخرى مفيدة لها كذلك. هنا على سبيل المثال قمت بأخذ نسخة ثلاثية الأبعاد لغرفة الرسومات الخاص بوالدي كما تحب أمي تسميتها، وإعادة تشكيلها لأنماط مختلفة من الديكور الهندي مع أخذ البيئة والتخطيط للمساحة الداخلية في عين الاعتبار. إن تفكرت قليلاً في هذا، أنا متأكد أنك سترى كيف لهذا أن يغير الهندسة المعمارية والتصاميم الداخلية بشكل تام.
There’s a lot of useful use cases, too. For example, in this case I'm taking a 3D scan of my parents' drawing room, as my mother likes to call it, and reskinning it to different styles of Indian decor and doing so while respecting the spatial context and the layout of the interior space. If you squint, I'm sure you can see how this is going to transform architecture and interior design forever.
يمكنك أن تأخذ صورةً ثلاثية الأبعاد لتمثال بوذا من 2016 وتعيد تشكيله كي يبدو ذهبيّاً لامعاً وسيتم ضبط تحركات الكاميرا المستحيلة هذه التي ما كنت لتضبطها وحدك تلقائيّاً. أو يمكنك أخذ صورة لك من رحلة إلى مدينة ما كطوكيو وتعيد بعث الحياة لأشجار الساكورا هذه بطريقة غير مسبوقة أبداً. ولمعلوماتك، أشجار الساكورا تبدو جميلةً خلال النهار، لكنها أجمل مع حلول الليل. يا إلهي، إنها تشع.
You could take that 2016 scan of a Buddha statue and reskin it to be gloriously golden while pulling off these impossible camera moves you just couldn't do any other way. Or you could take that vacation footage from your trip to Tokyo and bring these cherry blossoms to life in a whole new way. And let me tell you, cherry blossoms look really good during the day, but they look even better at night. Oh, my God. They sure are glowing. It's almost like this dreamlike quality
إن هذا أشبه بحلم يمكنك فيه استخدام تقنيات الذكاء الاصطناعي هذه لإبراز أفضل جوانب العالم الحقيقي. و إن المناظر الطبيعية بنفس الجمال كذلك مثل هذا الشلال الذي يبدو من كوكب آخر. ولكن يمكنك بكل تأكيد أن تعبر الهضاب وتسافر إلى جبال الإلب الفرنسية من بعد آخر.
where you can use AI to accentuate the best aspects of the real world. Natural landscapes look just as beautiful. Like this waterfall that could be on another planet. But of course, you could go over the hills and far away to the French Alps from another dimension.
لكنها لسيت صوراً ثابتةً فحسب. يمكنك فعل هذا عن طريق الفيديوهات أيضاً. لا أستطيع الانتظار حتى تتطور هذه التقنية لتعمل على 30 إطاراً في الثانية لأنها ستغير من تقنيتي الواقع المعزز والتصيير ثلاثي الأبعاد. أعني، متى ستأتي المرحلة التي نصير فيها ننتقل بين عوالم مختلفة فوق العالم الحقيقي؟
But it's not just static scenes. You can do this stuff with video, too. I can't wait till this technology is running at 30 frames per second because it's going to transform augmented reality and 3D rendering. I mean, how soon until we're channel-surfing realities layered on top of the real world?
تماماً كما أصبحت تقنية التصوير العادية متاحاً للعامة، كل هذه البرامج التي أُنشئت العام الماضي بدأت تصبح أسهل الاستعمال. لذا بدل أن أضيع ساعات طويلة في الجمع بين عدة برامج مختلفة، برامج مثل “Runway” و “Kaiber” تمكنك من فعل نفس الشيء تماماً ببضع ضغطات فقط. أتود الانتقال من النهار إلى الليل؟ لا مشكلة. أتريد الحصول على طراز التسعينيات القديم لمسلسل “Full House”؟ يمكنك فعل هذا كذلك.
Of course, just like reality capture got democratized, all these tools from last year are getting even easier. So instead of me spending hours weaving together a bunch of different tools, tools like Runway and Kaiber let you do exactly the same stuff with just a couple clicks. Want to go from day to night? No problemo. Want to get that retro 90s aesthetic from "Full House"? You can do that too.
لكن هناك ما يذهب لأبعد من التصوير في العالم الحقيقي. شركات مثل “Wonder Dynamics” بدأت حاليّاً بمعالجة الفيديوهات لتشكل نموذج التقاط الحركة الدقيق هذا ومن خلاله يمكنك محاكاة عدة كائنات خيالية باستعمال هاتفك الذي بين يديك. لم يتعدَ جيمس كاميرون حاجز الحلم بهذه الأشياء في بداية الألفية الثانية. والآن يمكنك القيام بها على هاتفك، أرى هذا في قمة الروعة صراحةً.
But it goes beyond reality capture. Companies like Wonder Dynamics are turning video into this immaculate form of performance capture so you can embody fantastical creatures using the phone in your pocket. This is stuff that James Cameron only dreamt about in the 2000s. And now you could do it with your iPhone? That’s absolutely wild to me.
والآن عندما أتمعن في العقدين الماضيين وأرى شبكة الأدوات المتعددة هذه التي كان علي تعلمها ينتابني التفاؤل بما هو بانتظار الأجيال القادمة. أطفال اليوم لن يقلقوا أبداً من هذا. كل ما سيحتاجونه هو امتلاك الحس الإبداعي والقدرة على العمل مع برامج الذكاء الاصطناعي هذه، والتي تمثل حقيقةً زُبدة علم الإنسان وإبداعه. وأنا متحمس لرؤية هذا المستقبل، مستقبل يمكنك فيه دمج الواقع مع الخيال باستعمال الذكاء الاصطناعي الذي سيكون مساعدك الأمين.
So when I look back at the past two decades and this ill-tailored tapestry of tools that I've had to learn, I feel a sense of optimism for what lies ahead for the next generation of creators. The 11-year-olds of today don't have to worry about all of that crap. All they need to do is have a creative vision and a knack for working in concert with these AI models, these AI models that are truly a distillation of human knowledge and creativity. And that's a future I'm excited about, a future where you can blend reality and imagination with your trusty AI copilot.
شكراً جزيلاً
Thank you very much.
(تصفيق)
(Applause)