sponsored links
TED2007

Blaise Agüera y Arcas: How PhotoSynth can connect the world's images

ブレイス・アグエラ・ヤルカス Photosynthを実演説明

March 3, 2007

ブレイス・アグエラ・ヤルカスが Photosynth の実演をします。 デジタル画像への見方を変えてしまうかもしれないソフトウェアです。 Photosynth はウェブから取り出した画像を使って息を飲む夢のような風景を構築し、 それをナビゲートさせてくれます。

Blaise Agüera y Arcas - Software architect
Blaise Agüera y Arcas works on machine learning at Google. Previously a Distinguished Engineer at Microsoft, he has worked on augmented reality, mapping, wearable computing and natural user interfaces. Full bio

sponsored links
Double-click the English subtitles below to play the video.
What I'm going to show you first, as quickly as I can,
最初に手早く基盤技術をお見せします
00:25
is some foundational work, some new technology
ちょうど1年前に買収の一部として
00:27
that we brought to Microsoft as part of an acquisition
Microsoft社にもっていった新テクノロジーです。
00:31
almost exactly a year ago. This is Seadragon,
これはSeadragonで
00:34
and it's an environment in which you can either locally or remotely
ローカルあるいはリモートにある膨大な量の
00:37
interact with vast amounts of visual data.
ビジュアルデータを操作可能にする環境です。
00:40
We're looking at many, many gigabytes of digital photos here
ご覧のように、 何ギガバイトものデジタル写真を
00:43
and kind of seamlessly and continuously zooming in,
スムーズに連続的に ズームインしたり パンしたり
00:46
panning through the thing, rearranging it in any way we want.
自由にアレンジし直したりできます。
00:50
And it doesn't matter how much information we're looking at,
見ている情報の多さ、コレクションの規模
00:52
how big these collections are or how big the images are.
画像の大きさなどは問題ではありません。
00:56
Most of them are ordinary digital camera photos,
ほとんどはデジカメで撮った写真ですが
00:59
but this one, for example, is a scan from the Library of Congress,
これは、米国議会図書館からスキャンしたもので
01:01
and it's in the 300 megapixel range.
300メガピクセルほどあります。
01:05
It doesn't make any difference
でも何の違いもありません。
01:08
because the only thing that ought to limit the performance
なぜなら、 このシステムのパフォーマンスを制限するものは
01:09
of a system like this one is the number of pixels on your screen
画面表示のピクセル数だけだからです。
01:12
at any given moment. It's also very flexible architecture.
また 大変柔軟なアーキテクチャになっています
01:15
This is an entire book, so this is an example of non-image data.
これはまるまる1冊の本です。 画像ではないデータの1例です。
01:18
This is "Bleak House" by Dickens. Every column is a chapter.
ディケンズの“荒涼館”です。  各段が章です。
01:22
To prove to you that it's really text, and not an image,
これは本当にテキストであり、 画像ではありません。
01:27
we can do something like so, to really show
テキストだという証拠に
01:31
that this is a real representation of the text; it's not a picture.
こんな事ができます。画像ではありません。
01:33
Maybe this is a kind of an artificial way to read an e-book.
e-ブックを読む手段にも なるかもしれませんが
01:37
I wouldn't recommend it.
お奨めはしません。
01:39
This is a more realistic case. This is an issue of The Guardian.
これはもっと実用的な例で、ガーディアン紙 1部分のデータです。
01:40
Every large image is the beginning of a section.
大きい写真は皆、 項目の始めです。
01:43
And this really gives you the joy and the good experience
本物の印刷版の雑誌や新聞を読む
01:45
of reading the real paper version of a magazine or a newspaper,
楽しい経験を与えてくれます。  新聞や雑誌というのは 本質的に多重スケールの
01:48
which is an inherently multi-scale kind of medium.
メディアなのです。
01:54
We've also done a little something
この紙面の隅に
01:56
with the corner of this particular issue of The Guardian.
ちょっとした仕掛けをしました。
01:57
We've made up a fake ad that's very high resolution --
大変高い解像度のニセモノの広告をでっちあげました。
02:00
much higher than you'd be able to get in an ordinary ad --
普通の広告より、ずっと高い解像度です。
02:03
and we've embedded extra content.
追加のコンテンツも足しました。
02:05
If you want to see the features of this car, you can see it here.
車の特徴をここで ご覧いただけます。
02:07
Or other models, or even technical specifications.
ほかのモデル、 あるいは技術仕様まであります。
02:10
And this really gets at some of these ideas
こういったアイデアによって
02:15
about really doing away with those limits on screen real estate.
画面サイズという制限をなくせます。
02:18
We hope that this means no more pop-ups
これによりポップアップなど
02:22
and other kind of rubbish like that -- shouldn't be necessary.
不必要なガラクタをなくせればと願っています。
02:24
Of course, mapping is one of those really obvious applications
もちろん地図にも このテクノロジーは
02:27
for a technology like this.
応用できます。
02:29
And this one I really won't spend any time on,
今回は 時間を取れませんが
02:31
except to say that we have things to contribute to this field as well.
この領域にも使えるとだけ言っておきます。
02:33
But those are all the roads in the U.S.
これは NASAの衛星画像の上に
02:37
superimposed on top of a NASA geospatial image.
米国のすべての道路を重ね合わせたものです。
02:39
So let's pull up, now, something else.
ほかのものを見てみましょう。
02:44
This is actually live on the Web now; you can go check it out.
これは現在ウェブで見られるので、確認してください。
02:46
This is a project called Photosynth,
Photosynthといって
02:49
which really marries two different technologies.
2つの技術からなります
02:51
One of them is Seadragon
ひとつは、Seadragon
02:52
and the other is some very beautiful computer vision research
もうひとつは
02:54
done by Noah Snavely, a graduate student at the University of Washington,
ワシントン大学の大学院生 ノア スネーヴェリが
02:57
co-advised by Steve Seitz at U.W.
同大学の スティーブ サイツと
03:00
and Rick Szeliski at Microsoft Research. A very nice collaboration.
Microsoft Researchのリック セリスキーの指導の下で行った コンピューター ビジョンの研究です。
03:02
And so this is live on the Web. It's powered by Seadragon.
ウェブで公開され、Seadragonを使っています。
03:07
You can see that when we kind of do these sorts of views,
画像の中に飛び込んで、このような
03:09
where we can dive through images
見方もできますし
03:12
and have this kind of multi-resolution experience.
多重のスケールも体験できます
03:14
But the spatial arrangement of the images here is actually meaningful.
この画像の空間的配置には意味があります。
03:16
The computer vision algorithms have registered these images together
このコンピューター ビジョン アルゴリズムは、このような画像を
03:20
so that they correspond to the real space in which these shots --
撮影された実際の場所に対応させて登録します。
03:23
all taken near Grassi Lakes in the Canadian Rockies --
全てカナディアンロッキーのグラッシーレイクで
03:27
all these shots were taken. So you see elements here
撮影されており、 連続したスライドショーや
03:31
of stabilized slide-show or panoramic imaging,
パノラマ風のイメージの要素を見ると
03:33
and these things have all been related spatially.
全てが空間的に関連づけられています。
03:40
I'm not sure if I have time to show you any other environments.
別の場所も見ている時間はなさそうですが もっと空間を感じさせる
03:42
There are some that are much more spatial.
例もあります。
03:45
I would like to jump straight to one of Noah's original data-sets --
ノア氏のオリジナルのデータセットのひとつに進みましょう。
03:47
and this is from an early prototype of Photosynth
これはその夏に作業を始めた
03:50
that we first got working in the summer --
Photosynthの初期プロトのデータで
03:52
to show you what I think
Photosynthのテクノロジーの
03:54
is really the punch line behind this technology,
本質がこれでわかると思います。
03:55
the Photosynth technology. And it's not necessarily so apparent
ウェブサイトに載せた環境を見るだけでは
03:59
from looking at the environments that we've put up on the website.
あまり良く わからないかもしれません。
04:01
We had to worry about the lawyers and so on.
法的な制約があるものですから。
04:04
This is a reconstruction of Notre Dame Cathedral
Flickr画像から
04:07
that was done entirely computationally
ノートルダム寺院をコンピューターで再現しました。
04:09
from images scraped from Flickr. You just type Notre Dame into Flickr,
Flickrで"Notre Dame"とタイプすると
04:11
and you get some pictures of guys in t-shirts, and of the campus
Tシャツを着た人たちや キャンパスの画像などが出てきます。
04:14
and so on. And each of these orange cones represents an image
小さなオレンジの円錐は、それぞれこのモデルに適合することが
04:17
that was discovered to belong to this model.
見出された画像を示しています。
04:22
And so these are all Flickr images,
全てFlickrの画像です。
04:26
and they've all been related spatially in this way.
このように皆、空間的に関連づけられています。
04:28
And we can just navigate in this very simple way.
簡単にナビゲートしていけます。
04:31
(Applause)
(拍手)
04:35
You know, I never thought that I'd end up working at Microsoft.
私もMicrosoftで仕事するなんて
04:44
It's very gratifying to have this kind of reception here.
思ってもいませんでした。  こんなに好評だなんて驚いています。
04:46
(Laughter)
(笑)
04:50
I guess you can see
ご推察のとおり
04:53
this is lots of different types of cameras:
いろいろなタイプのカメラがあります。
04:56
it's everything from cell phone cameras to professional SLRs,
携帯電話のカメラから プロ用の一眼レフまでの
04:58
quite a large number of them, stitched
多数の写真を
05:02
together in this environment.
この環境でつなぎ合わせています。
05:03
And if I can, I'll find some of the sort of weird ones.
変わりダネを探してみましょう。
05:04
So many of them are occluded by faces, and so on.
顔が写ったものもたくさんあります。
05:08
Somewhere in here there are actually
確かこの辺の
05:13
a series of photographs -- here we go.
写真の中に…ありました
05:15
This is actually a poster of Notre Dame that registered correctly.
ノートルダムのポスターです。  こんなのでも認識できました。
05:17
We can dive in from the poster
このポスターから
05:21
to a physical view of this environment.
この環境に飛び込むことができます。
05:24
What the point here really is is that we can do things
これは社会的環境だという点が重要です。
05:31
with the social environment. This is now taking data from everybody --
データをあらゆる人から得ています。
05:34
from the entire collective memory
地球の姿への
05:39
of, visually, of what the Earth looks like --
集合的記憶全体からデータを取り
05:40
and link all of that together.
全てをリンクします。
05:43
All of those photos become linked together,
全ての写真がリンクされることで
05:44
and they make something emergent
新たなものが現れます
05:46
that's greater than the sum of the parts.
部分の集まりよりも 価値のあるものです。
05:47
You have a model that emerges of the entire Earth.
地球全体から立ち現れるモデルを手にしています。
05:49
Think of this as the long tail to Stephen Lawler's Virtual Earth work.
スティーブン ローラーの “バーチャルアース”の続きのようなものです。
05:51
And this is something that grows in complexity
人々が利用するにつれ複雑に成長します。
05:56
as people use it, and whose benefits become greater
ユーザーが利用するにつれ利点が
05:58
to the users as they use it.
大きくなります。
06:01
Their own photos are getting tagged with meta-data
ユーザー自身の写真に他の人が入力した
06:03
that somebody else entered.
メタデータが埋め込まれます。
06:05
If somebody bothered to tag all of these saints
誰かが聖人達のデータを埋めこんでおけば
06:07
and say who they all are, then my photo of Notre Dame Cathedral
私のノートルダム寺院の写真が
06:10
suddenly gets enriched with all of that data,
そのデータにより、 更に豊かなものになります。
06:13
and I can use it as an entry point to dive into that space,
そこを入り口にして この空間に飛び込み
06:15
into that meta-verse, using everybody else's photos,
みんなの写真が作る仮想空間の中で
06:18
and do a kind of a cross-modal
様式やユーザーの垣根を超えた
06:21
and cross-user social experience that way.
社会的体験ができます。
06:25
And of course, a by-product of all of that
副産物は、もちろん
06:28
is immensely rich virtual models
地球の興味深い場所全ての
06:30
of every interesting part of the Earth, collected
きわめて豊かなバーチャルモデルです。
06:32
not just from overhead flights and from satellite images
航空写真や、 衛星画像を集めただけのものではなく
06:35
and so on, but from the collective memory.
集合的記憶を集めたものなのです。
06:38
Thank you so much.
ありがとうございました。
06:40
(Applause)
(拍手)
06:42
Chris Anderson: Do I understand this right? That what your software is going to allow,
僕の理解は正しいですか? あなたのソフトウェアで、
06:53
is that at some point, really within the next few years,
ここ2~3年のうちに
06:58
all the pictures that are shared by anyone across the world
世界中の誰でも全ての写真を共有し
07:01
are going to basically link together?
リンクできるようになるのですか?
07:05
BAA: Yes. What this is really doing is discovering.
ええ、 やろうとしているのは実は発見です。
07:07
It's creating hyperlinks, if you will, between images.
画像間にハイパーリンクを作成しています。
07:09
And it's doing that
画像の内容を元に
07:12
based on the content inside the images.
それを行います。
07:13
And that gets really exciting when you think about the richness
多くの写真が持っている意味的情報の豊かさを考えれば、
07:14
of the semantic information that a lot of those images have.
これはとても すごい事です。
07:17
Like when you do a web search for images,
たとえば画像のウェブ検索を行う時、
07:19
you type in phrases, and the text on the web page
言葉を入力しますよね。  ウェブ上のテキストは
07:22
is carrying a lot of information about what that picture is of.
その画像が何であるかについて多くの情報を持っています。
07:24
Now, what if that picture links to all of your pictures?
では写真がすべてリンクし合うようになったら?
07:27
Then the amount of semantic interconnection
意味の相互のつながりと、 そこから出てくる
07:29
and the amount of richness that comes out of that
豊かさは実に大きい。
07:31
is really huge. It's a classic network effect.
典型的なネットワーク効果が現れます。
07:32
CA: Blaise, that is truly incredible. Congratulations.
ブレイスさん、 実にすばらしい。  やりましたね。
07:35
BAA: Thanks so much.
ありがとうございます。
07:37
Reviewer:Yasushi Aoki

sponsored links

Blaise Agüera y Arcas - Software architect
Blaise Agüera y Arcas works on machine learning at Google. Previously a Distinguished Engineer at Microsoft, he has worked on augmented reality, mapping, wearable computing and natural user interfaces.

Why you should listen

Blaise Agüera y Arcas is principal scientist at Google, where he leads a team working on machine intelligence for mobile devices. His group works extensively with deep neural nets for machine perception and distributed learning, and it also investigates so-called "connectomics" research, assessing maps of connections within the brain.

Agüera y Arcas' background is as multidimensional as the visions he helps create. In the 1990s, he authored patents on both video compression and 3D visualization techniques, and in 2001, he made an influential computational discovery that cast doubt on Gutenberg's role as the father of movable type.

He also created Seadragon (acquired by Microsoft in 2006), the visualization technology that gives Photosynth its amazingly smooth digital rendering and zoom capabilities. Photosynth itself is a vastly powerful piece of software capable of taking a wide variety of images, analyzing them for similarities, and grafting them together into an interactive three-dimensional space. This seamless patchwork of images can be viewed via multiple angles and magnifications, allowing us to look around corners or “fly” in for a (much) closer look. Simply put, it could utterly transform the way we experience digital images.

He joined Microsoft when Seadragon was acquired by Live Labs in 2006. Shortly after the acquisition of Seadragon, Agüera y Arcas directed his team in a collaboration with Microsoft Research and the University of Washington, leading to the first public previews of Photosynth several months later. His TED Talk on Seadragon and Photosynth in 2007 is rated one of TED's "most jaw-dropping." He returned to TED in 2010 to demo Bing’s augmented reality maps.

Fun fact: According to the author, Agüera y Arcas is the inspiration for the character Elgin in the 2012 best-selling novel Where'd You Go, Bernadette?

sponsored links

If you need translations, you can install "Google Translate" extension into your Chrome Browser.
Furthermore, you can change playback rate by installing "Video Speed Controller" extension.

Data provided by TED.

This website is owned and operated by Tokyo English Network.
The developer's blog is here.