Blaise Agüera y Arcas: How PhotoSynth can connect the world's images

What I'm going to show you first, as quickly as I can, is some foundational work, some new technology that we brought to Microsoft as part of an acquisition almost exactly a year ago. This is Seadragon, and it's an environment in which you can either locally or remotely interact with vast amounts of visual data.

Thứ mà tôi sẽ trình bày đến các bạn trước, một cách nhanh nhất có thể là một công trình cơ bản, một công nghệ mới mà chúng tôi đã mang đến Microsoft trong cuộc sát nhập cách đây một năm. Đây là Seadragon. Là một môi trường mà bạn có thể tương tác trong phạm vi xa hoặc gần với nhiều loại dữ liệu hình ảnh.

We're looking at many, many gigabytes of digital photos here and kind of seamlessly and continuously zooming in, panning through it, rearranging it in any way we want. And it doesn't matter how much information we're looking at, how big these collections are or how big the images are. Most of them are ordinary digital camera photos, but this one, for example, is a scan from the Library of Congress, and it's in the 300 megapixel range. It doesn't make any difference because the only thing that ought to limit the performance of a system like this one is the number of pixels on your screen at any given moment. It's also very flexible architecture. This is an entire book, so this is an example of non-image data. This is "Bleak House" by Dickens. Every column is a chapter. To prove to you that it's really text, and not an image, we can do something like so, to really show that this is a real representation of the text; it's not a picture. Maybe this is an artificial way to read an e-book. I wouldn't recommend it.

Chúng ta đang nhìn thấy rất nhiều Gb ảnh điện tử ở đây và gần như đang liên tục thu hẹp lại, xoay trái phải, xếp đặt lại chúng bằng mọi cách mà ta muốn Và không quan trọng chuyện lượng thông tin ta cần đến lớn bao nhiêu, những bộ sưu tập này và những hình ảnh đó lớn bao nhiêu. Tất cả đều là những hình ảnh chụp từ máy ảnh số, nhưng cái này chẳng hạn, là bản quét từ Thư viện Quốc hội, và có khối lượng khoảng 300 mega điểm ảnh. Những cũng chẳng có gì khác biệt vì điều duy nhất làm giới hạn khả năng của một hệ thống như thế này chính là số điểm ảnh trên màn hình của bạn tại bất cứ thời điểm nào. Kiến trúc của nó cũng rất đa dạng. Đây là một quyển sách, ví dụ về dữ liệu không hình ảnh. Đây là quyển Ngôi nhà lạnh lẽo của Dickens. Mỗi cột là một chương. Để chứng minh với các bạn rằng đây chính là một văn bản và không phải là hình ảnh, chúng ta có thể làm như thế này, để thực sự thấy rằng đây là phần trình bày của một văn bản; nó không phải là một bức tranh. Có thể đây là một cách để đọc một quyển sách điện tử Tôi không khuyến khích cách này.

This is a more realistic case, an issue of The Guardian. Every large image is the beginning of a section. And this really gives you the joy and the good experience of reading the real paper version of a magazine or a newspaper, which is an inherently multi-scale kind of medium. We've done something with the corner of this particular issue of The Guardian. We've made up a fake ad that's very high resolution -- much higher than in an ordinary ad -- and we've embedded extra content. If you want to see the features of this car, you can see it here. Or other models, or even technical specifications. And this really gets at some of these ideas about really doing away with those limits on screen real estate. We hope that this means no more pop-ups and other rubbish like that -- shouldn't be necessary.

Đây là một trường hợp thực tế hơn. Đây là một số báo của tờ The Guardian. Mỗi bức ảnh to bắt đầu một mục. Và nó thực sự mang lại cho bạn sự hứng khởi và vui vẻ khi đọc một tờ báo thực sự và là một phương tiện đa dạng xuyên suốt. Chúng tôi đã làm thay đổi một chút với góc của tờ báo The Guardian này. Chúng tôi đã tạo ra một mẩu quảng cáo với độ phân giải cao-- cao hơn hẳn cái thường có ở quảng cáo thông thường -- và chúng tôi đính thêm nhiều nội dung khác. Nếu bạn muốn xem các nét đặc trưng của chiếc xe này, bạn có thể xem ở đây. Cũng có thể xem các mẫu khác, thậm chí cả đặc tính kĩ thuật. Và điều này mang đến một vài ý tưởng về việc vượt qua giới hạn trên màn hình. Chúng tôi mong rằng điều này có nghĩa là sẽ không còn các quảng cáo dạng pop-up và các dạng tương tự -- chúng không cần thiết.

Of course, mapping is one of those obvious applications for a technology like this. And this one I really won't spend any time on, except to say that we have things to contribute to this field as well. But those are all the roads in the U.S. superimposed on top of a NASA geospatial image. So let's pull up, now, something else. This is actually live on the Web now; you can go check it out.

Tất nhiên, bản đồ là một trong những ứng dụng thiết yếu cho công nghệ dạng này. Và tôi sẽ không dành thời gian nói nhiều về nói ngoài việc nói rằng chúng tôi cũng đóng góp vào lĩnh vực này. Nhưng đó là những con đường ở nước Mỹ được xếp chồng trên bản đồ của NASA. Nên hãy kéo lên, bây giờ, xem một thứ khác. Nó đã có ở trên trang web và bạn có thể tìm hiểu thêm.

This is a project called Photosynth, which marries two different technologies. One of them is Seadragon and the other is some very beautiful computer-vision research done by Noah Snavely, a graduate student at the University of Washington, co-advised by Steve Seitz at U.W. and Rick Szeliski at Microsoft Research. A very nice collaboration. And so this is live on the Web. It's powered by Seadragon. You can see that when we do these sorts of views, where we can dive through images and have this kind of multi-resolution experience.

Đây là một dự án tên gọi Photosynth, kết hợp hai công nghệ khác nhau. Một trong số đó là Seadragon và công nghệ còn lại là một nghiên cứu tầm nhìn điện tử bởi Noah Snavely, sinh viên cao học của trường đại học Washington, đồng chỉ đạo bởi Steve Seitz ở UW và Rick Szeliski ở Trung tâm nghiên cứu Microsoft. Một sự hợp tác rất tuyệt vời. Dự án này đã có trên mạng. Được cấp nguồn bởi Seadragon. Bạn có thể thấy khi chúng tôi tiến hành thử những góc nhìn này, khi chúng tôi lướt qua các hình ảnh và có sự trải nghiệm về sự phân giải nhiều lớp.

But the spatial arrangement of the images here is actually meaningful. The computer vision algorithms have registered these images together so that they correspond to the real space in which these shots -- all taken near Grassi Lakes in the Canadian Rockies -- all these shots were taken. So you see elements here of stabilized slide-show or panoramic imaging, and these things have all been related spatially. I'm not sure if I have time to show you any other environments. Some are much more spatial. I would like to jump straight to one of Noah's original data-sets -- this is from an early prototype that we first got working this summer -- to show you what I think is really the punch line behind the Photosynth technology, It's not necessarily so apparent from looking at the environments we've put up on the website. We had to worry about the lawyers and so on.

Nhưng sự sắp đặp không gian của các hình ảnh ở đây rất có ý nghĩa. Các thuật toán máy tính đã xắp xếp những hình ảnh này cùng nhau. và chúng tương ứng với không gian thật, trong đó những bức hình này -- tất cả được chụp gần Grassi Lakes ở Canadian Rockies -- Giờ các bạn có thể thấy ở đây những yếu tố của slide-show được ổn định hoặc toàn bộ hình ảnh, và những thứ này được liên hệ không gian với nhau. Tôi không chắc mình có đủ thời gian để trình bày về các môi trường khác. Có một vài môi trường với nhiều không gian hơn rất nhiều. Tôi muốn đề cập thẳng đến một trong những bộ dữ liệu nguyên bản của Noah -- có nguồn gốc từ một mẫu nguyên thủy của Photosynth mà chúng tôi bắt đầu nghiên cứu lần đầu vào mùa hè -- để trình bày cho các bạn những gì tôi nghĩ là điểm nút đằng sau công nghệ này, công nghệ Photosynth. Và nó thực sự không rõ rệt nếu chỉ nhìn vào những môi trường được tạo dựng trên trang web. Chúng tôi đã phải lo lắng về luật sư và những điều khác.

This is a reconstruction of Notre Dame Cathedral that was done entirely computationally from images scraped from Flickr. You just type Notre Dame into Flickr, and you get some pictures of guys in T-shirts, and of the campus and so on. And each of these orange cones represents an image that was discovered to belong to this model. And so these are all Flickr images, and they've all been related spatially in this way. We can just navigate in this very simple way.

Đây là bản tái thiết nhà thờ Notre Dame đã được làm hoàn toàn bằng máy tính từ những hình ảnh lấy từ Flickr. Bạn chỉ cần đánh "Notre Dame" vào Flickr, và bạn có thể thấy hình ảnh những cậu sinh viên mặc áo phông, hoặc ảnh của trường và nhiều nữa. Và mỗi hình nón màu cam này báo hiệu một hình ảnh được coi là thuộc mẫu hình này. Và đây là tất cả những hình ảnh lấy từ Flickr, và chúng được liên kết không gian theo cách này. Chúng ta chỉ cần tìm hiểu chúng một cách rất đơn giản.

(Applause)

(Vỗ tay).

(Applause ends)

You know, I never thought that I'd end up working at Microsoft. It's very gratifying to have this kind of reception here.

Bạn biết đấy, tôi chưa từng nghĩ rằng cuối cùng mình lại làm việc ở Microsoft. Và thật phấn khởi khi được đón nhận như thế này.

(Laughter)

(Cười).

I guess you can see this is lots of different types of cameras: it's everything from cell-phone cameras to professional SLRs, quite a large number of them, stitched together in this environment. If I can find some of the sort of weird ones -- So many of them are occluded by faces, and so on. Somewhere in here there is actually a series of photographs -- here we go. This is actually a poster of Notre Dame that registered correctly. We can dive in from the poster to a physical view of this environment.

Tôi nghĩ các bạn có thể thấy ở đây có rất nhiều các loại máy ảnh: nó có tất cả từ máy ảnh điện thoại đến máy SLR chuyên nghiệp, một số lớn trong chúng được cài vào trong môi trường này. Và nếu có thể, tôi sẽ tìm những loại kì cục nhất. Có rất nhiều loại được bít kín bởi các mặt, và nhiều hơn nữa. Vài nơi trong này thực ra đã có một series các bức ảnh -- chúng ta bắt đầu. Đây là một bức ảnh của Notre Dame được đăng kí đúng. Chúng ta có thể khám phá bức ảnh này để có cái nhìn của môi trường này.

What the point here really is is that we can do things with the social environment. This is now taking data from everybody -- from the entire collective memory, visually, of what the Earth looks like -- and link all of that together. Those photos become linked, and they make something emergent that's greater than the sum of the parts. You have a model that emerges of the entire Earth. Think of this as the long tail to Stephen Lawler's Virtual Earth work. And this is something that grows in complexity as people use it, and whose benefits become greater to the users as they use it. Their own photos are getting tagged with meta-data that somebody else entered. If somebody bothered to tag all of these saints and say who they all are, then my photo of Notre Dame Cathedral suddenly gets enriched with all of that data, and I can use it as an entry point to dive into that space, into that meta-verse, using everybody else's photos, and do a kind of a cross-modal and cross-user social experience that way. And of course, a by-product of all of that is immensely rich virtual models of every interesting part of the Earth, collected not just from overhead flights and from satellite images and so on, but from the collective memory.

Ý chính ở đây là chúng ta có thể làm những điều tương tự với môi trường xã hội. Giờ nó đang lấy dữ liệu từ tất cả mọi người -- từ một bộ nhớ về hình ảnh trái đất và nối chúng lại với nhau. Tất cả những bức ảnh đó được nối lại với nhau và nó tạo nên những thứ còn tuyệt vời hơn tất cả các phần góp lại. Giờ ta có một mẫu mô phỏng toàn bộ Trái đất. Hãy coi nó như bản thêm của chương trình Trái đất Ảo của Stepehn Lawler. Và đây là thứ mà càng trở nên phức tạp khi người ta sử dụng, và lợi ích từ nó càng trở nên lớn hơn cho người dùng. Những bức ảnh của người dùng sẽ được đính với dữ liệu dang meta khi một người khác nhập vào. Nếu có ai đó có thể tag tất cả những vị thánh này và điền thông tin về họ, thì bức ảnh về nhà thờ Notre Dame của tôi sẽ cập nhật những thông tin này luôn, và tôi có thể dùng nó như điểm vào để lướt vào không gian đó, dữ liệu đó, sử dụng hình ảnh của những người khác, và thực hiện thao tác xuyên mô hình và xuyên mạng lưới người xử dụng. Và tất nhiên, sản phẩm đi kèm sau đó là những mô hình giàu tính hình ảnh về những khu vực thú vị của thế giới, được thu thập không chỉ từ những ảnh chụp từ trên máy bay hay vệ tinh mà còn từ bộ nhớ có tính năng thu thập dữ liệu.

Thank you so much.

Cảm ơn các bạn rất nhiều.

(Applause)

(Vỗ tay)

(Applause ends)

Chris Anderson: Do I understand this right? What your software is going to allow, is that at some point, really within the next few years, all the pictures that are shared by anyone across the world are going to link together?

Chris Anderson: Không biết tôi hiểu có đúng không? Rằng điều mà phần mềm của ngài đang cho phép, đó là tại một thời điểm nào đó, trong vòng vài năm tới, tất cả những bức ảnh được chia sẻ bởi bất cứ ai trên thế giới chúng sẽ được kết nối với nhau?

BAA: Yes. What this is really doing is discovering, creating hyperlinks, if you will, between images. It's doing that based on the content inside the images. And that gets really exciting when you think about the richness of the semantic information a lot of images have. Like when you do a web search for images, you type in phrases, and the text on the web page is carrying a lot of information about what that picture is of. What if that picture links to all of your pictures? The amount of semantic interconnection and richness that comes out of that is really huge. It's a classic network effect.

BAA: Đúng vậy. Những gì phầm mềm này là để khám phá. Nó tạo nên những siêu kết nối giữa những hình ảnh. Và nó làm điều đó dựa trên nội dung bên trong bức ảnh. và điều đó làm bạn thực sự phấn khích khi nghĩ đến những thông tin phong phú mà những hình ảnh này có. Chẳng hạn khi bạn thực hiện lệnh tìm kiếm hình ảnh trên mạng, bạn gõ vào những cụm từ, và những từ khóa trên trang web chứa rất nhiều thông tin về bức ảnh đó. Giờ, nếu bức ảnh đó được kết nối với tất cả những bức ảnh của bạn thì sao? Thì khối lượng của liên kết ngữ nghĩa và khối lượng thông tin phong phú kèm với nó là rất lớn. Đây chính là hiệu ứng mạng lưới điển hình. CA: Blaise, điều này thực sự kì diệu. Xin chúc mừng.

CA: Truly incredible. Congratulations.

BAA: Cảm ơn rất nhiều.

(Applause)

(Vỗ tay).

(Applause ends)

You know, I never thought that I'd end up working at Microsoft. It's very gratifying to have this kind of reception here.

Bạn biết đấy, tôi chưa từng nghĩ rằng cuối cùng mình lại làm việc ở Microsoft. Và thật phấn khởi khi được đón nhận như thế này.

(Laughter)

(Cười).

Thank you so much.

Cảm ơn các bạn rất nhiều.

(Applause)

(Vỗ tay)

(Applause ends)

CA: Truly incredible. Congratulations.

BAA: Cảm ơn rất nhiều.

Blaise Agüera y Arcas: How PhotoSynth can connect the world's images

Blaise Agüera y Arcas: How PhotoSynth can connect the world's images

Related talks

David Bolinsky: Visualizing the wonder of a living cell

Johnny Lee: Free or cheap Wii Remote hacks

Anand Agarawala: Rethink the desktop with BumpTop

Levon Biss: Mind-blowing, magnified portraits of insects

Christoph Niemann: You are fluent in this language (and don't even know it)

Sarah Sze: How we experience time and memory through art

Related talks

David Bolinsky: Visualizing the wonder of a living cell

Johnny Lee: Free or cheap Wii Remote hacks

Anand Agarawala: Rethink the desktop with BumpTop

Levon Biss: Mind-blowing, magnified portraits of insects

Christoph Niemann: You are fluent in this language (and don't even know it)

Sarah Sze: How we experience time and memory through art