What I'm going to show you first, as quickly as I can, is some foundational work, some new technology that we brought to Microsoft as part of an acquisition almost exactly a year ago. This is Seadragon, and it's an environment in which you can either locally or remotely interact with vast amounts of visual data.
最初に手早く 基盤技術をお見せします ちょうど1年前に 買収の一部として Microsoft社にもっていった 新テクノロジーです これはSeadragonで ローカルあるいはリモートにある 膨大な量の ビジュアルデータを 操作可能にする環境です
We're looking at many, many gigabytes of digital photos here and kind of seamlessly and continuously zooming in, panning through it, rearranging it in any way we want. And it doesn't matter how much information we're looking at, how big these collections are or how big the images are. Most of them are ordinary digital camera photos, but this one, for example, is a scan from the Library of Congress, and it's in the 300 megapixel range. It doesn't make any difference because the only thing that ought to limit the performance of a system like this one is the number of pixels on your screen at any given moment. It's also very flexible architecture. This is an entire book, so this is an example of non-image data. This is "Bleak House" by Dickens. Every column is a chapter. To prove to you that it's really text, and not an image, we can do something like so, to really show that this is a real representation of the text; it's not a picture. Maybe this is an artificial way to read an e-book. I wouldn't recommend it.
ご覧のように 何ギガバイトものデジタル写真を スムーズに連続的に ズームインしたり パンしたり 自由にアレンジし直したりできます 見ている情報の多さ コレクションの規模 画像の大きさなどは 問題ではありません ほとんどはデジカメで 撮った写真ですが これは 米国議会図書館から スキャンしたもので 300メガピクセルほどあります でも何の違いもありません なぜなら このシステムの パフォーマンスを制限するものは 画面表示のピクセル数 だけだからです また 大変柔軟なアーキテクチャに なっています これはまるまる1冊の本です 画像ではないデータの1例です ディケンズの“荒涼館”です 各段が章です これは本当にテキストであり 画像ではありません テキストだという証拠に こんな事ができます 画像ではありません e-ブックを読む手段にも なるかもしれませんが お奨めはしません
This is a more realistic case, an issue of The Guardian. Every large image is the beginning of a section. And this really gives you the joy and the good experience of reading the real paper version of a magazine or a newspaper, which is an inherently multi-scale kind of medium. We've done something with the corner of this particular issue of The Guardian. We've made up a fake ad that's very high resolution -- much higher than in an ordinary ad -- and we've embedded extra content. If you want to see the features of this car, you can see it here. Or other models, or even technical specifications. And this really gets at some of these ideas about really doing away with those limits on screen real estate. We hope that this means no more pop-ups and other rubbish like that -- shouldn't be necessary.
これはもっと実用的な例で ガーディアン紙 1部分のデータです 大きい写真は皆 項目の始めです 本物の印刷版の 雑誌や新聞を読む 楽しい経験を 与えてくれます 新聞や雑誌というのは本質的に 多重スケールのメディアなのです この紙面の隅に ちょっとした仕掛けをしました 大変高い解像度のニセモノの広告を でっちあげました 普通の広告より ずっと高い解像度です 追加のコンテンツも 足しました 車の特徴をここで ご覧いただけます ほかのモデル あるいは 技術仕様まであります こういったアイデアによって 画面サイズという 制限をなくせます これによりポップアップなど 不必要なガラクタをなくせればと 願っています
Of course, mapping is one of those obvious applications for a technology like this. And this one I really won't spend any time on, except to say that we have things to contribute to this field as well. But those are all the roads in the U.S. superimposed on top of a NASA geospatial image. So let's pull up, now, something else. This is actually live on the Web now; you can go check it out.
もちろん地図にも このテクノロジーは 応用できます 今回は 時間を取れませんが この領域にも使えるとだけ 言っておきます これは NASAの 衛星画像の上に 米国のすべての道路を 重ね合わせたものです ほかのものを 見てみましょう これは現在ウェブで見られるので 確認してください
This is a project called Photosynth, which marries two different technologies. One of them is Seadragon and the other is some very beautiful computer-vision research done by Noah Snavely, a graduate student at the University of Washington, co-advised by Steve Seitz at U.W. and Rick Szeliski at Microsoft Research. A very nice collaboration. And so this is live on the Web. It's powered by Seadragon. You can see that when we do these sorts of views, where we can dive through images and have this kind of multi-resolution experience.
Photosynthといって 2つの技術からなります ひとつは Seadragon もうひとつは ワシントン大学の大学院生 ノア・スネーヴェリが 同大学の スティーブ・サイツと Microsoft Researchのリック・セリスキーの指導の下で行った コンピューター ビジョンの研究です ウェブで公開され Seadragonを使っています 画像の中に飛び込んで このような見方もできますし 多重のスケールも 体験できます
But the spatial arrangement of the images here is actually meaningful. The computer vision algorithms have registered these images together so that they correspond to the real space in which these shots -- all taken near Grassi Lakes in the Canadian Rockies -- all these shots were taken. So you see elements here of stabilized slide-show or panoramic imaging, and these things have all been related spatially. I'm not sure if I have time to show you any other environments. Some are much more spatial. I would like to jump straight to one of Noah's original data-sets -- this is from an early prototype that we first got working this summer -- to show you what I think is really the punch line behind the Photosynth technology, It's not necessarily so apparent from looking at the environments we've put up on the website. We had to worry about the lawyers and so on.
この画像の空間的配置には 意味があります このコンピューター ビジョン アルゴリズムは このような画像を 撮影された実際の場所に 対応させて登録します 全てカナディアンロッキーの グラッシーレイクで撮影されており 連続したスライドショーや パノラマ風のイメージの 要素を見ると 全てが空間的に 関連づけられています 別の場所も見ている 時間はなさそうですが もっと空間を感じさせる 例もあります ノア氏のオリジナルのデータセットの ひとつに進みましょう これはその夏に作業を始めた Photosynthの 初期プロトのデータで Photosynthの テクノロジーの本質が これでわかると思います ウェブサイトに載せた 環境を見るだけでは あまり良く わからない かもしれません
This is a reconstruction of Notre Dame Cathedral
法的な制約があるものですから
that was done entirely computationally from images scraped from Flickr. You just type Notre Dame into Flickr, and you get some pictures of guys in T-shirts, and of the campus and so on. And each of these orange cones represents an image that was discovered to belong to this model. And so these are all Flickr images, and they've all been related spatially in this way. We can just navigate in this very simple way.
Flickr画像から ノートルダム寺院を コンピューターで再現しました Flickrで"Notre Dame"と タイプすると Tシャツを着た人たちや キャンパスの画像などが出てきます 小さなオレンジの円錐は それぞれこのモデルに適合することが 見出された画像を示しています 全てFlickrの画像です このように皆 空間的に 関連づけられています 簡単にナビゲートしていけます
(Applause)
(拍手)
(Applause ends)
You know, I never thought that I'd end up working at Microsoft. It's very gratifying to have this kind of reception here.
私もMicrosoftで仕事するなんて 思ってもいませんでした こんなに好評だなんて 驚いています
(Laughter)
(笑)
I guess you can see this is lots of different types of cameras: it's everything from cell-phone cameras to professional SLRs, quite a large number of them, stitched together in this environment. If I can find some of the sort of weird ones -- So many of them are occluded by faces, and so on. Somewhere in here there is actually a series of photographs -- here we go. This is actually a poster of Notre Dame that registered correctly. We can dive in from the poster to a physical view of this environment.
ご推察のとおり いろいろなタイプの カメラがあります 携帯電話のカメラから プロ用の一眼レフまでの 多数の写真を この環境でつなぎ 合わせています 変わりダネを 探してみましょう 顔が写ったものも たくさんあります 確かこの辺の 写真の中に…ありました ノートルダムのポスターです こんなのでも認識できました このポスターから この環境に飛び込む ことができます
What the point here really is is that we can do things with the social environment. This is now taking data from everybody -- from the entire collective memory, visually, of what the Earth looks like -- and link all of that together. Those photos become linked, and they make something emergent that's greater than the sum of the parts. You have a model that emerges of the entire Earth. Think of this as the long tail to Stephen Lawler's Virtual Earth work. And this is something that grows in complexity as people use it, and whose benefits become greater to the users as they use it. Their own photos are getting tagged with meta-data that somebody else entered. If somebody bothered to tag all of these saints and say who they all are, then my photo of Notre Dame Cathedral suddenly gets enriched with all of that data, and I can use it as an entry point to dive into that space, into that meta-verse, using everybody else's photos, and do a kind of a cross-modal and cross-user social experience that way. And of course, a by-product of all of that is immensely rich virtual models of every interesting part of the Earth, collected not just from overhead flights and from satellite images and so on, but from the collective memory.
これは社会的環境だ という点が重要です データをあらゆる人から 得ています 地球の姿への 集合的記憶全体から データを取り 全てをリンクします 全ての写真が リンクされることで 新たなものが現れます 部分の集まりよりも 価値のあるものです 地球全体から立ち現れる モデルを手にしています スティーブン・ローラーの “バーチャルアース”の続きのようなものです 人々が利用するにつれ 複雑に成長します ユーザーが利用するにつれ 利点が大きくなります ユーザー自身の写真に 他の人が入力した メタデータが 埋め込まれます 誰かが聖人達のデータを 埋めこんでおけば 私のノートルダム寺院の写真が そのデータにより 更に豊かなものになります そこを入り口にして この空間に飛び込み みんなの写真が作る 仮想空間の中で 様式やユーザーの 垣根を超えた 社会的体験ができます 副産物は もちろん 地球の興味深い場所全ての きわめて豊かな バーチャルモデルです 航空写真や 衛星画像を集めた だけのものではなく 集合的記憶を 集めたものなのです
Thank you so much.
ありがとうございました
(Applause)
(拍手)
(Applause ends)
Chris Anderson: Do I understand this right? What your software is going to allow, is that at some point, really within the next few years, all the pictures that are shared by anyone across the world are going to link together?
僕の理解は正しいですか? あなたのソフトウェアで ここ2~3年のうちに 世界中の誰でも 全ての写真を共有し リンクできるように なるのですか?
BAA: Yes. What this is really doing is discovering, creating hyperlinks, if you will, between images. It's doing that based on the content inside the images. And that gets really exciting when you think about the richness of the semantic information a lot of images have. Like when you do a web search for images, you type in phrases, and the text on the web page is carrying a lot of information about what that picture is of. What if that picture links to all of your pictures? The amount of semantic interconnection and richness that comes out of that is really huge. It's a classic network effect.
ええ やろうとしているのは 実は発見です 画像間にハイパーリンクを 作成しています 画像の内容を元に それを行います 多くの写真が持っている 意味的情報の豊かさを考えれば これはとても すごい事です たとえば画像の ウェブ検索を行う時 言葉を入力しますよね ウェブ上のテキストは その画像が何であるかについて 多くの情報を持っています では写真がすべて リンクし合うようになったら? 意味の相互のつながりと そこから出てくる 豊かさは実に大きい 典型的なネットワーク効果が 現れます ブレイスさん 実にすばらしい やりましたね
CA: Truly incredible. Congratulations.
ありがとうございます