ABOUT THE SPEAKER
Blaise Agüera y Arcas - Software architect
Blaise Agüera y Arcas works on machine learning at Google. Previously a Distinguished Engineer at Microsoft, he has worked on augmented reality, mapping, wearable computing and natural user interfaces.

Why you should listen

Blaise Agüera y Arcas is principal scientist at Google, where he leads a team working on machine intelligence for mobile devices. His group works extensively with deep neural nets for machine perception and distributed learning, and it also investigates so-called "connectomics" research, assessing maps of connections within the brain.

Agüera y Arcas' background is as multidimensional as the visions he helps create. In the 1990s, he authored patents on both video compression and 3D visualization techniques, and in 2001, he made an influential computational discovery that cast doubt on Gutenberg's role as the father of movable type.

He also created Seadragon (acquired by Microsoft in 2006), the visualization technology that gives Photosynth its amazingly smooth digital rendering and zoom capabilities. Photosynth itself is a vastly powerful piece of software capable of taking a wide variety of images, analyzing them for similarities, and grafting them together into an interactive three-dimensional space. This seamless patchwork of images can be viewed via multiple angles and magnifications, allowing us to look around corners or “fly” in for a (much) closer look. Simply put, it could utterly transform the way we experience digital images.

He joined Microsoft when Seadragon was acquired by Live Labs in 2006. Shortly after the acquisition of Seadragon, Agüera y Arcas directed his team in a collaboration with Microsoft Research and the University of Washington, leading to the first public previews of Photosynth several months later. His TED Talk on Seadragon and Photosynth in 2007 is rated one of TED's "most jaw-dropping." He returned to TED in 2010 to demo Bing’s augmented reality maps.

Fun fact: According to the author, Agüera y Arcas is the inspiration for the character Elgin in the 2012 best-selling novel Where'd You Go, Bernadette?

More profile about the speaker
Blaise Agüera y Arcas | Speaker | TED.com
TED2007

Blaise Agüera y Arcas: How PhotoSynth can connect the world's images

Blaise Aguera y Arcas demonstra o Photosynth

Filmed:
5,831,957 views

Blaise Aguera y Arcas conduz uma demonstração fascinante do Photosynth, um software que pode transformar o modo como observamos imagens digitais. Usando fotografias selecionadas na Web, o Photosynth monta cenários impressionantes e nos permite navegar por eles.
- Software architect
Blaise Agüera y Arcas works on machine learning at Google. Previously a Distinguished Engineer at Microsoft, he has worked on augmented reality, mapping, wearable computing and natural user interfaces. Full bio

Double-click the English transcript below to play the video.

00:25
What I'm going to show you first, as quickly as I can,
0
0
2000
O que vou mostrar primeiro, o mais rápido possível,
00:27
is some foundational work, some new technology
1
2000
4000
é um trabalho de base, uma nova tecnologia
00:31
that we brought to Microsoft as part of an acquisition
2
6000
3000
que levamos para a Microsoft como parte de uma aquisição
00:34
almost exactly a year ago. This is Seadragon,
3
9000
3000
há quase um ano. Este é o Seadragon.
00:37
and it's an environment in which you can either locally or remotely
4
12000
3000
É um ambiente onde é possível interagir local ou remotamente
00:40
interact with vast amounts of visual data.
5
15000
3000
com amplas quantidades de dados visuais.
00:43
We're looking at many, many gigabytes of digital photos here
6
18000
3000
Estamos vendo muitos, muitos gigabytes de fotos digitais aqui,
00:46
and kind of seamlessly and continuously zooming in,
7
21000
3000
ampliando-as quase que contínua e ininterruptamente,
00:50
panning through the thing, rearranging it in any way we want.
8
25000
2000
deslocando-nos sobre a montagem, reorganizando da forma que desejamos.
00:52
And it doesn't matter how much information we're looking at,
9
27000
4000
E não importa a quantidade de informação que estamos vendo,
00:56
how big these collections are or how big the images are.
10
31000
3000
nem o tamanho destas coleções, ou das imagens.
00:59
Most of them are ordinary digital camera photos,
11
34000
2000
A maioria é composta por fotos de câmeras digitais comuns,
01:01
but this one, for example, is a scan from the Library of Congress,
12
36000
3000
mas esta aqui, por exemplo, foi escaneada da biblioteca do congresso,
01:05
and it's in the 300 megapixel range.
13
40000
2000
e tem cerca de 300 megapixels.
01:08
It doesn't make any difference
14
43000
1000
Não faz diferença,
01:09
because the only thing that ought to limit the performance
15
44000
3000
pois a única coisa que limita o desempenho
01:12
of a system like this one is the number of pixels on your screen
16
47000
3000
de um sistema como esse é o número de pixels na sua tela
01:15
at any given moment. It's also very flexible architecture.
17
50000
3000
em dado momento. Ele também apresenta arquitetura muito flexível.
01:18
This is an entire book, so this is an example of non-image data.
18
53000
3000
Isto é um livro inteiro, um exemplo de dados que não são imagens.
01:22
This is "Bleak House" by Dickens. Every column is a chapter.
19
57000
5000
Esse livro é Bleak House, de Dickens. Cada coluna é um capítulo.
01:27
To prove to you that it's really text, and not an image,
20
62000
4000
Para provar que é realmente texto, e não uma imagem,
01:31
we can do something like so, to really show
21
66000
2000
podemos fazer algo assim, para deixar claro
01:33
that this is a real representation of the text; it's not a picture.
22
68000
3000
que isto é uma representação real do texto, e não uma foto.
01:37
Maybe this is a kind of an artificial way to read an e-book.
23
72000
2000
Talvez seja uma maneira artificial de se ler um livro eletrônico.
01:39
I wouldn't recommend it.
24
74000
1000
Eu não recomendo.
01:40
This is a more realistic case. This is an issue of The Guardian.
25
75000
3000
Aqui temos um caso mais realista. Esta é uma edição do The Guardian.
01:43
Every large image is the beginning of a section.
26
78000
2000
Cada imagem grande é o início de uma seção.
01:45
And this really gives you the joy and the good experience
27
80000
3000
E isso realmente lhe dá a alegria e a experiência agradável
01:48
of reading the real paper version of a magazine or a newspaper,
28
83000
5000
de ler a versão real em papel de uma revista ou jornal,
01:54
which is an inherently multi-scale kind of medium.
29
89000
1000
um tipo de mídia que é naturalmente disposto em escalas múltiplas.
01:56
We've also done a little something
30
91000
1000
Também fizemos uma coisa aqui
01:57
with the corner of this particular issue of The Guardian.
31
92000
3000
com o canto desta edição específica do The Guardian.
02:00
We've made up a fake ad that's very high resolution --
32
95000
3000
Criamos um anúncio falso com resolução bem alta --
02:03
much higher than you'd be able to get in an ordinary ad --
33
98000
2000
muito mais alta do que poderíamos ver em um anúncio comum --
02:05
and we've embedded extra content.
34
100000
2000
e incorporamos conteúdo extra.
02:07
If you want to see the features of this car, you can see it here.
35
102000
2000
Se quiser ver as características deste carro, pode vê-las aqui.
02:10
Or other models, or even technical specifications.
36
105000
4000
Ou outros modelos, ou até especificações técnicas.
02:15
And this really gets at some of these ideas
37
110000
2000
E isto realmente trabalha algumas daquelas idéias
02:18
about really doing away with those limits on screen real estate.
38
113000
4000
sobre o problema dos limites impostos pelas telas.
02:22
We hope that this means no more pop-ups
39
117000
2000
Esperamos que isso signifique um adeus aos pop-ups
02:24
and other kind of rubbish like that -- shouldn't be necessary.
40
119000
2000
e porcarias do gênero -- não devem mais ser necessários.
02:27
Of course, mapping is one of those really obvious applications
41
122000
2000
Obviamente, mapeamento é uma das aplicações óbvias
02:29
for a technology like this.
42
124000
2000
para uma tecnologia como essa.
02:31
And this one I really won't spend any time on,
43
126000
2000
E neste não vou gastar muito tempo,
02:33
except to say that we have things to contribute to this field as well.
44
128000
2000
exceto para dizer que também temos coisas para contribuir neste campo.
02:37
But those are all the roads in the U.S.
45
132000
2000
Mas essas são todas as estradas dos EUA,
02:39
superimposed on top of a NASA geospatial image.
46
134000
4000
superpostas a uma imagem geoespacial da NASA.
02:44
So let's pull up, now, something else.
47
139000
2000
Agora, vamos apresentar outra coisa.
02:46
This is actually live on the Web now; you can go check it out.
48
141000
3000
Isto está vindo direto da Internet; você pode conferir lá agora.
02:49
This is a project called Photosynth,
49
144000
1000
Este é um projeto chamado Photosynth,
02:51
which really marries two different technologies.
50
146000
1000
que realmente casa duas tecnologias diferentes.
02:52
One of them is Seadragon
51
147000
1000
Uma é a do Seadragon
02:54
and the other is some very beautiful computer vision research
52
149000
2000
e a outra é uma linda pesquisa de processamento de imagens por computador
02:57
done by Noah Snavely, a graduate student at the University of Washington,
53
152000
2000
feita por Noah Snavely, estudante da Universidade de Washington,
03:00
co-advised by Steve Seitz at U.W.
54
155000
2000
orientado por Steve Seitz, da U.W.
03:02
and Rick Szeliski at Microsoft Research. A very nice collaboration.
55
157000
4000
e Rick Szeliski, da Microsoft Research. Um belo trabalho em equipe.
03:07
And so this is live on the Web. It's powered by Seadragon.
56
162000
2000
E isto está disponível na Internet. Através do Seadragon.
03:09
You can see that when we kind of do these sorts of views,
57
164000
2000
Você pode ver que, quando fazemos essas visualizações,
03:12
where we can dive through images
58
167000
1000
podemos mergulhar através das imagens
03:14
and have this kind of multi-resolution experience.
59
169000
1000
e experimentar esse ambiente de resolução múltipla.
03:16
But the spatial arrangement of the images here is actually meaningful.
60
171000
4000
Mas a disposição espacial das imagens aqui é realmente significativa.
03:20
The computer vision algorithms have registered these images together
61
175000
3000
Os algoritmos de processamento de imagem registraram essas imagens juntas,
03:23
so that they correspond to the real space in which these shots --
62
178000
4000
de forma a corresponderem ao espaço real onde estas fotos --
03:27
all taken near Grassi Lakes in the Canadian Rockies --
63
182000
2000
todas tiradas perto dos Lagos Grassi, nas Montanhas Rochosas Canadenses --
03:31
all these shots were taken. So you see elements here
64
186000
2000
foram tiradas. Então você vê elementos aqui
03:33
of stabilized slide-show or panoramic imaging,
65
188000
4000
de "slideshow" estabilizado, ou imagens panorâmicas,
03:40
and these things have all been related spatially.
66
195000
2000
e tudo isso estava relacionado espacialmente.
03:42
I'm not sure if I have time to show you any other environments.
67
197000
3000
Não sei se vou ter tempo de mostrar outras paisagens.
03:45
There are some that are much more spatial.
68
200000
1000
Há algumas bem mais amplas.
03:47
I would like to jump straight to one of Noah's original data-sets --
69
202000
3000
Gostaria de passar direto para um dos conjuntos de dados originais do Noah --
03:50
and this is from an early prototype of Photosynth
70
205000
2000
e este é de um protótipo anterior do Photosynth
03:52
that we first got working in the summer --
71
207000
2000
com o qual começamos a trabalhar no verão --
03:54
to show you what I think
72
209000
1000
para mostrar o que eu acho
03:55
is really the punch line behind this technology,
73
210000
3000
que é realmente o principal por trás dessa tecnologia,
03:59
the Photosynth technology. And it's not necessarily so apparent
74
214000
2000
a tecnologia Photosynth. Algo que não é necessariamente tão visível
04:01
from looking at the environments that we've put up on the website.
75
216000
3000
quando observamos as cenas que estão no website.
04:04
We had to worry about the lawyers and so on.
76
219000
2000
Tivemos que tomar cuidado com advogados, e coisas assim.
04:07
This is a reconstruction of Notre Dame Cathedral
77
222000
1000
Esta é uma reconstrução da Catedral de Notre Dame
04:09
that was done entirely computationally
78
224000
2000
que foi feita inteiramente por computador
04:11
from images scraped from Flickr. You just type Notre Dame into Flickr,
79
226000
3000
através de imagens encontradas no Flickr. Se digitar "Notre Dame" no Flickr,
04:14
and you get some pictures of guys in t-shirts, and of the campus
80
229000
3000
aparecem fotos de gente com camiseta da faculdade Notre Dame, do campus,
04:17
and so on. And each of these orange cones represents an image
81
232000
4000
e por aí vai. E cada um desses cones laranja representa uma imagem
04:22
that was discovered to belong to this model.
82
237000
2000
que descobrimos pertencer a este modelo.
04:26
And so these are all Flickr images,
83
241000
2000
Portanto, estas são todas imagens do Flickr,
04:28
and they've all been related spatially in this way.
84
243000
3000
e foram todas espacialmente relacionadas, como podem ver.
04:31
And we can just navigate in this very simple way.
85
246000
2000
E podemos navegar por elas dessa forma muito simples.
04:35
(Applause)
86
250000
9000
(Aplausos)
04:44
You know, I never thought that I'd end up working at Microsoft.
87
259000
2000
Sabem, eu nunca pensei que um dia ia trabalhar na Microsoft.
04:46
It's very gratifying to have this kind of reception here.
88
261000
4000
É muito gratificante ter esse tipo de recepção aqui.
04:50
(Laughter)
89
265000
3000
(Risos)
04:53
I guess you can see
90
268000
3000
Acho que podem notar
04:56
this is lots of different types of cameras:
91
271000
2000
que isso tudo vem de diversos tipos de câmeras:
04:58
it's everything from cell phone cameras to professional SLRs,
92
273000
3000
desde câmeras de celulares às SLR profissionais,
05:02
quite a large number of them, stitched
93
277000
1000
cedendo grande número de fotos, alinhavadas
05:03
together in this environment.
94
278000
1000
nesse ambiente.
05:04
And if I can, I'll find some of the sort of weird ones.
95
279000
2000
E se eu conseguir, vou encontrar algumas esquisitas.
05:08
So many of them are occluded by faces, and so on.
96
283000
3000
Muitas estão obstruídas por rostos, e coisas assim.
05:13
Somewhere in here there are actually
97
288000
1000
Em algum lugar aqui há
05:15
a series of photographs -- here we go.
98
290000
1000
uma série de fotos -- aqui está.
05:17
This is actually a poster of Notre Dame that registered correctly.
99
292000
3000
Isso, na verdade, era só um cartaz de Notre Dame, mas a câmera pegou muito bem.
05:21
We can dive in from the poster
100
296000
2000
Podemos mergulhar no cartaz,
05:24
to a physical view of this environment.
101
299000
3000
para obtermos uma visão detalhada deste ambiente.
05:31
What the point here really is is that we can do things
102
306000
3000
A idéia aqui é que podemos fazer coisas
05:34
with the social environment. This is now taking data from everybody --
103
309000
5000
com o ambiente social. Estamos pegando dados de todos --
05:39
from the entire collective memory
104
314000
1000
de toda a memória coletiva
05:40
of, visually, of what the Earth looks like --
105
315000
2000
sobre como é a Terra, visualmente --
05:43
and link all of that together.
106
318000
1000
e conectando tudo.
05:44
All of those photos become linked together,
107
319000
2000
Todas essas fotos são conectadas,
05:46
and they make something emergent
108
321000
1000
e fazem emergir algo
05:47
that's greater than the sum of the parts.
109
322000
2000
que é maior do que a soma das partes.
05:49
You have a model that emerges of the entire Earth.
110
324000
2000
Produz-se um modelo de toda a Terra.
05:51
Think of this as the long tail to Stephen Lawler's Virtual Earth work.
111
326000
5000
Pensem nisso como uma extensão do trabalho de Stephen Lawler, Virtual Earth.
05:56
And this is something that grows in complexity
112
331000
2000
E isto é algo que cresce em complexidade
05:58
as people use it, and whose benefits become greater
113
333000
3000
conforme as pessoas o utilizam, e cujos benefícios aumentam
06:01
to the users as they use it.
114
336000
2000
para os usuários conforme o utilizam.
06:03
Their own photos are getting tagged with meta-data
115
338000
2000
Suas próprias fotos estão sendo identificadas via "tags meta-data"
06:05
that somebody else entered.
116
340000
1000
que outra pessoa inseriu.
06:07
If somebody bothered to tag all of these saints
117
342000
3000
Se alguém tiver a paciência de preencher "tags" para identificar cada um desses santos
06:10
and say who they all are, then my photo of Notre Dame Cathedral
118
345000
3000
e dizer quem são, então a minha foto da Catedral de Notre Dame
06:13
suddenly gets enriched with all of that data,
119
348000
2000
repentinamente torna-se enriquecida com toda essa informação,
06:15
and I can use it as an entry point to dive into that space,
120
350000
3000
e eu posso usar isso como um ponto de entrada para mergulhar naquele espaço,
06:18
into that meta-verse, using everybody else's photos,
121
353000
2000
naquele mundo virtual, usando as fotos de todos,
06:21
and do a kind of a cross-modal
122
356000
2000
e viver um tipo de experiência social
06:25
and cross-user social experience that way.
123
360000
3000
interligando modos e usuários.
06:28
And of course, a by-product of all of that
124
363000
1000
E, obviamente, um subproduto de tudo aquilo
06:30
is immensely rich virtual models
125
365000
2000
são os modelos virtuais imensamente ricos
06:32
of every interesting part of the Earth, collected
126
367000
2000
de cada parte interessante da Terra, obtidos
06:35
not just from overhead flights and from satellite images
127
370000
3000
não somente por fotos aéreas, de satélites
06:38
and so on, but from the collective memory.
128
373000
2000
e coisas assim, mas pela memória coletiva.
06:40
Thank you so much.
129
375000
2000
Muito obrigado.
06:42
(Applause)
130
377000
11000
(Aplausos)
06:53
Chris Anderson: Do I understand this right? That what your software is going to allow,
131
388000
4000
Chris Anderson: Eu entendi isso direito? Que o seu software vai permitir,
06:58
is that at some point, really within the next few years,
132
393000
2000
em algum momento, na verdade dentro de alguns anos,
07:01
all the pictures that are shared by anyone across the world
133
396000
4000
que todas as fotos compartilhadas por qualquer pessoa em todo o mundo
07:05
are going to basically link together?
134
400000
2000
sejam, basicamente, conectadas?
07:07
BAA: Yes. What this is really doing is discovering.
135
402000
2000
BAA: Sim. O que isto realmente faz é descobri-las.
07:09
It's creating hyperlinks, if you will, between images.
136
404000
3000
Criar "links", por assim dizer, entre imagens.
07:12
And it's doing that
137
407000
1000
E fazer isso
07:13
based on the content inside the images.
138
408000
1000
com base no conteúdo das imagens.
07:14
And that gets really exciting when you think about the richness
139
409000
3000
E isto fica empolgante quando você pensa na riqueza
07:17
of the semantic information that a lot of those images have.
140
412000
2000
da informação semântica que muitas dessas imagens têm.
07:19
Like when you do a web search for images,
141
414000
2000
Como quando você faz uma busca na Internet por imagens,
07:22
you type in phrases, and the text on the web page
142
417000
2000
você digita uma frase, e esse texto na página web
07:24
is carrying a lot of information about what that picture is of.
143
419000
3000
carrega muitas informações sobre o que é aquela foto.
07:27
Now, what if that picture links to all of your pictures?
144
422000
2000
Bem, e se aquela foto estiver conectada a todas as suas fotos?
07:29
Then the amount of semantic interconnection
145
424000
2000
Então, a interconexão semântica
07:31
and the amount of richness that comes out of that
146
426000
1000
e a riqueza de detalhes que virá disso
07:32
is really huge. It's a classic network effect.
147
427000
3000
será realmente imensa. É um efeito clássico de rede.
07:35
CA: Blaise, that is truly incredible. Congratulations.
148
430000
2000
CA: Blaise, isso é incrível. Parabéns.
07:37
BAA: Thanks so much.
149
432000
1000
BAA: Muito obrigado.

▲Back to top

ABOUT THE SPEAKER
Blaise Agüera y Arcas - Software architect
Blaise Agüera y Arcas works on machine learning at Google. Previously a Distinguished Engineer at Microsoft, he has worked on augmented reality, mapping, wearable computing and natural user interfaces.

Why you should listen

Blaise Agüera y Arcas is principal scientist at Google, where he leads a team working on machine intelligence for mobile devices. His group works extensively with deep neural nets for machine perception and distributed learning, and it also investigates so-called "connectomics" research, assessing maps of connections within the brain.

Agüera y Arcas' background is as multidimensional as the visions he helps create. In the 1990s, he authored patents on both video compression and 3D visualization techniques, and in 2001, he made an influential computational discovery that cast doubt on Gutenberg's role as the father of movable type.

He also created Seadragon (acquired by Microsoft in 2006), the visualization technology that gives Photosynth its amazingly smooth digital rendering and zoom capabilities. Photosynth itself is a vastly powerful piece of software capable of taking a wide variety of images, analyzing them for similarities, and grafting them together into an interactive three-dimensional space. This seamless patchwork of images can be viewed via multiple angles and magnifications, allowing us to look around corners or “fly” in for a (much) closer look. Simply put, it could utterly transform the way we experience digital images.

He joined Microsoft when Seadragon was acquired by Live Labs in 2006. Shortly after the acquisition of Seadragon, Agüera y Arcas directed his team in a collaboration with Microsoft Research and the University of Washington, leading to the first public previews of Photosynth several months later. His TED Talk on Seadragon and Photosynth in 2007 is rated one of TED's "most jaw-dropping." He returned to TED in 2010 to demo Bing’s augmented reality maps.

Fun fact: According to the author, Agüera y Arcas is the inspiration for the character Elgin in the 2012 best-selling novel Where'd You Go, Bernadette?

More profile about the speaker
Blaise Agüera y Arcas | Speaker | TED.com