All right. Good afternoon, y’all. Let's talk about blending reality and imagination. But first, let's take a step back in time to 2001. As an 11-year-old in India, I became obsessed with computer graphics and visual effects. Of course, at that age, it meant making cheesy videos kind of like this. But therein started a foundational theme in my life, the quest to blend reality and imagination. And that quest has stayed with me and permeated across my decade-long career in tech, working as a product manager at companies like Google and as a content creator on platforms like YouTube and TikTok.
Được rồi, chào tất cả mọi người. Hãy cùng tôi tìm hiểu về sự pha trộn giữa thực tại và trí tưởng tượng nhé. Trước tiên, hãy cùng tôi quay ngược thời gian về năm 2001 Là một thằng nhóc Ấn Độ 11 tuổi, tôi đã luôn bị đắm chìm với đồ họa máy tính và hiệu ứng hình ảnh. Dĩ nhiên là, ở tuổi ấy, điều đó chỉ đơn thuần là làm mấy video sến sẩm như này. Nhưng chính từ đây đã tạo tiền đề cho cuộc đời tôi, dấn thân vào sứ mệnh hợp nhất thực tại và trí tưởng tượng. Và sứ mệnh ấy đã gắn liền với tôi và đi cùng tôi suốt hàng thập kỉ trong sự nghiệp làm công nghệ, với vai trò là quản lí sản xuất của một công ty như Google và là nhà sáng tạo nội dung trên các nền tảng như Youtube và Tiktok.
So today, let's deconstruct this quest to blend reality and imagination
Vậy thì hôm nay,
and explore how it’s getting supercharged -- buzzword alert -- by artificial intelligence. Let's start with the reality bit.
hãy cùng tôi thực hiện sứ mệnh hợp nhất thực tại và trí tưởng tượng và khám phá xem nó kích thích thế nào nhé --Hơi bị đỉnh đấy -- bằng trí tuệ nhân tạo. Hãy bắt đầu với thực tế nhé.
You probably heard about photogrammetry. It's the art and science of measuring stuff in the real world using photos and other sensors. What required massive data centers and teams of experts in the 2000s became increasingly democratized by the 2010s. Then, of course, machine learning came along and took things to a whole new level with techniques like neural radiance fields, or NeRFs.
Hẳn mọi người đều đã nghe về phép quang trắc. Đó là thứ nghệ thuật đậm chất khoa học để đo lường những thứ trong thế giới thực sử dụng các bức ảnh và vài bộ cảm biến. Thứ vốn cần tới những trung tâm dữ liệu lớn và đội ngũ chuyên gia vào những năm 2000 đã dần trở nên phổ cập vào những năm 2010. Và rồi, sau đó, học máy ra đời và nó nâng tầm mọi thứ lên tầm cao mới với những kĩ thuật như neural radiance fields, hay NeRFs.
What you're seeing here is an AI model creating a ground-up volumetric 3D representation using 2D images alone. But unlike older techniques for reality capture, NeRFs do a really good job of encapsulating the sheer complexity and nuance of reality. The vibe, if you will.
Thứ bạn đang thấy đây là một mô hình AI đang tạo ra một tác phẩm điêu khắc 3D chỉ bằng cách sử dụng các tấm ảnh 2D. Nhưng không như các kĩ thuật dựng ảnh cũ, NeRFs đã làm rất tốt trong việc nắm bắt những yếu tố phức tạp và sắc thái tả thực. Hay sự rung cảm, nếu muốn.
Twelve months later, you can do all of this stuff using the iPhone in your pocket, using apps like Luma. It's like 3D screenshots for the real world. Capture anything once and reframe it infinitely in postproduction, so you can start building that collection of spaces, places and objects that you truly care about and conjure them up in your future creations.
12 tháng sau, bạn có thể làm tất cả những điều này chỉ với chiếc Iphone trong túi, với những ứng dụng như Luma. Nó như thể là chụp màn hình 3D thế giới thực vậy. Chỉ cần chụp một lần và dùng tới những căn chỉnh vô hạn trong hậu kì, bạn hoàn toàn có thể tự tạo một bộ sưu tập về không gian, nơi chốn và vật thể mà bạn thích và tha hồ phối chúng với nhau cho những tạo tác về sau.
So that's the reality bit. As NeRFs were popping off last year, the AI summer was also in full effect, with Midjourney, DALL-E 2, Stable Diffusion all hitting the market around the same time. But what I fell in love with was inpainting. This technique allows you to take existing imagery and augment it with whatever you like, and the results are photorealistically fantastic. It blew my mind because stuff that would have taken me like three hours in classical workflows I could pull off in just three minutes.
Đó là thực tế. Với việc NeRFs ra mắt vào năm ngoái, nghành AI thật sự đang có một mùa hè sôi động, với việc Midjourney, DALL-E 2, Stable Diffusion được công khai trên thị trường gần như cùng lúc. Tuy nhiên, cái tôi thấy hứng thú nhất là khả năng phục chế ảnh. Kĩ thuật này cho phép bạn tận dụng kho ảnh sẵn có và chế tác nó theo ý bạn, và cho ra kết quả tuyệt vời đậm chất nhiếp ảnh. Nó khiến não tôi nổ tung bởi những thứ vốn từng khiến tôi mất gần 3 tiếng để có thể hoàn thành, giờ đây tôi chỉ cần mất 3 phút.
But I wanted more. Enter ControlNet, a game-changing technique by Stanford researchers that allows you to use various input conditions to guide and control the AI image generation process. So in my case, I could take the depth information and the texture detail from my 3D scans and use it to literally reskin reality.
Nhưng tôi muốn nhiều hơn thế. Enter ControlNet, một kĩ thuật đột phá của các nghiên cứu sinh Stanford cho phép bạn đa dạng hóa các yếu tố đầu vào để định hướng và kiểm soát quá trình chuyển đổi ảnh của AI Trong trường hợp này, tôi có thể tận dụng chiều sâu thông tin và các kết cấu chi tiết từ máy quét 3D của bọn tôi rồi dùng nó để tô điểm lại thực tại.
Now, this isn't just cool video. There’s a lot of useful use cases, too. For example, in this case I'm taking a 3D scan of my parents' drawing room, as my mother likes to call it, and reskinning it to different styles of Indian decor and doing so while respecting the spatial context and the layout of the interior space. If you squint, I'm sure you can see how this is going to transform architecture and interior design forever.
Nó không chỉ tạo những video như này. Mà còn áp dụng được cho nhiều cái khác nữa. Chẳng hạn, trong trường hợp này, tôi đang lấy bản quét 3D phòng tranh của ba mẹ, đó là mẹ tôi gọi thế, và tô điểm lại nó theo những phong cách bày trí đậm chất Ấn Độ trong khi vẫn giữ nguyên bối cảnh và cách bố trí của không gian nội thất. Nếu bạn nheo mắt, hẳn bạn sẽ thấy rằng thứ này sẽ thay đổi nghành kiến trúc và thiết kế nội thất mãi mãi.
You could take that 2016 scan of a Buddha statue and reskin it to be gloriously golden while pulling off these impossible camera moves you just couldn't do any other way. Or you could take that vacation footage from your trip to Tokyo and bring these cherry blossoms to life in a whole new way. And let me tell you, cherry blossoms look really good during the day, but they look even better at night. Oh, my God. They sure are glowing.
Bạn có thể lấy ảnh quét một bức tượng Phật vào năm 2016 và tô điểm bức tượng thành một màu vàng chói lọi trong lúc thực hiện những bước luân chuyển ảnh mượt mà bạn khó mà làm khác được. Hoặc bạn có thể lên hẳn một chuyến du lịch đến Tokyo và mang về cho mình những bông hoa đào nở rộ theo cách cực kì độc đáo. Và để tôi chỉ cho cái này, hoa đào nở rất đẹp vào buổi sáng, nhưng buổi tối chúng còn trông đẹp hơn cơ. Ôi, Chúa ơi. Chúng hẳn là đang phát sáng.
It's almost like this dreamlike quality where you can use AI to accentuate the best aspects of the real world. Natural landscapes look just as beautiful. Like this waterfall that could be on another planet. But of course, you could go over the hills and far away to the French Alps from another dimension.
Nó không khác gì 1 thực tại đầy ảo mộng, nơi mà bạn có thể dùng AI để điểm tô những góc nhìn choáng ngợp nhất của thực tại. Cảnh quan thiên nhiên trông cũng kì vĩ không kém. Cái thác nước này tưởng chừng như là của một hành tinh khác vậy. Dĩ nhiên, bạn còn có thể đi qua các ngọn đồi và xa hơn đến dãy Alps của Pháp từ chiều không gian khác.
But it's not just static scenes. You can do this stuff with video, too. I can't wait till this technology is running at 30 frames per second because it's going to transform augmented reality and 3D rendering. I mean, how soon until we're channel-surfing realities layered on top of the real world?
Cơ mà nó không chỉ là những cảnh vật vô tri Bạn còn có thể ứng dụng nó với video nữa. Tôi đang nóng lòng chờ ngày mà công nghệ này đạt đến mức 30 khung hình/ giây vì khi đó nó có thể tác động mạnh đến mảng thực tế ảo tăng cường và kết xuất 3D. Ý tôi là, liệu sớm thôi ta sẽ có thể lướt trên những kênh thực tại ảo được chiếu trên những nóc nhà ở thế giới thực?
Of course, just like reality capture got democratized, all these tools from last year are getting even easier. So instead of me spending hours weaving together a bunch of different tools, tools like Runway and Kaiber let you do exactly the same stuff with just a couple clicks. Want to go from day to night? No problemo. Want to get that retro 90s aesthetic from "Full House"? You can do that too.
Tương tự như sự phổ cập của công nghệ bắt ảnh thực tại những thứ công cụ có từ năm ngoái cũng bắt đầu phổ cập hơn. Thay vì dành ra cả tiếng đồng hồ để gộp thành phẩm từ vô số các công cụ, các công cụ như Runway và Kaiber có thể giúp bạn làm điều tương tự chỉ với một cú đúp chuột. Muốn biến ngày thành đêm à? Không vấn đề gì. Muốn phong cách của mấy năm 90 như trong phim “Full House” à? Bạn có thể làm được luôn nhé.
But it goes beyond reality capture. Companies like Wonder Dynamics are turning video into this immaculate form of performance capture so you can embody fantastical creatures using the phone in your pocket. This is stuff that James Cameron only dreamt about in the 2000s. And now you could do it with your iPhone? That’s absolutely wild to me.
Nhưng còn hơn cả việc bắt ảnh thực tại. Các công ty như Wonder Dynamics đã có thể tạo ra video với sự nắm bắt chuyển động mượt mà như trên, điều này có nghĩa là bạn có thể hóa thân thành các dị vật chỉ với cái điện thoại. Đây là thứ công nghệ mà James Cameron có mơ cũng chẳng có vào những năm 2000. Và giờ bạn có thể làm nó chỉ với Iphone? Điều này với tôi là quá sức tưởng tượng.
So when I look back at the past two decades and this ill-tailored tapestry of tools that I've had to learn, I feel a sense of optimism for what lies ahead for the next generation of creators. The 11-year-olds of today don't have to worry about all of that crap. All they need to do is have a creative vision and a knack for working in concert with these AI models, these AI models that are truly a distillation of human knowledge and creativity. And that's a future I'm excited about, a future where you can blend reality and imagination with your trusty AI copilot.
Nên là khi tôi nhìn lại 2 thập kỉ gần đây về vô số những thứ công cụ phức tạp mà tôi cần phải học, tôi cảm thấy lạc quan về những thứ nằm ở phía trước của thế hệ các nhà sáng tạo kế cận. Mấy đứa nhóc 11 tuổi thời nay không cần phải lo về mấy cái phức tạp ấy nữa. Tất cả những gì chúng cần là có một nhãn quan sáng tạo và năng lực để làm việc trong một môi trường với đầy rẫy các công cụ AI, những công cụ AI trên chính là thành quả của sự tổng hòa từ kiến thức và sự sáng tạo của nhân loại. và đó chính là tương lai mà tôi trông đợi, 1 tương lai mà bạn có thể pha trộn giữa thực tại và trí tưởng tượng bằng người bạn đồng hành AI của mình.
Thank you very much.
Cám ơn mọi người.
(Applause)
(Vỗ tay)