ABOUT THE SPEAKER
Deb Roy - Cognitive scientist
Deb Roy studies how children learn language, and designs machines that learn to communicate in human-like ways. On sabbatical from MIT Media Lab, he's working with the AI company Bluefin Labs.

Why you should listen

Deb Roy directs the Cognitive Machines group at the MIT Media Lab, where he studies how children learn language, and designs machines that learn to communicate in human-like ways. To enable this work, he has pioneered new data-driven methods for analyzing and modeling human linguistic and social behavior. He has authored numerous scientific papers on artificial intelligence, cognitive modeling, human-machine interaction, data mining, and information visualization.

Deb Roy was the co-founder and serves as CEO of Bluefin Labs, a venture-backed technology company. Built upon deep machine learning principles developed in his research over the past 15 years, Bluefin has created a technology platform that analyzes social media commentary to measure real-time audience response to TV ads and shows.

Follow Deb Roy on Twitter>

Roy adds some relevant papers:

Deb Roy. (2009). New Horizons in the Study of Child Language Acquisition. Proceedings of Interspeech 2009. Brighton, England. bit.ly/fSP4Qh

Brandon C. Roy, Michael C. Frank and Deb Roy. (2009). Exploring word learning in a high-density longitudinal corpus. Proceedings of the 31st Annual Meeting of the Cognitive Science Society. Amsterdam, Netherlands. bit.ly/e1qxej

Plenty more papers on our research including technology and methodology can be found here, together with other research from my lab at MIT: bit.ly/h3paSQ

The work that I mentioned on relationships between television content and the social graph is being done at Bluefin Labs (www.bluefinlabs.com). Details of this work have not been published. The social structures we are finding (and that I highlighted in my TED talk) are indeed new. The social media communication channels that are leading to their formation did not even exist a few years ago, and Bluefin's technology platform for discovering these kinds of structures is the first of its kind. We'll certainly have more to say about all this as we continue to dig into this fascinating new kind of data, and as new social structures continue to evolve!

More profile about the speaker
Deb Roy | Speaker | TED.com
TED2011

Deb Roy: The birth of a word

Deb Roy: O nascimento de uma palavra

Filmed:
2,809,941 views

O pesquisador do MIT Deb Roy queria entender como seu filho pequeno aprendia linguagem - então, ele espalhou câmeras pela casa para gravar todos os momentos (com exceções) da vida do seu filho e analisou 90.000 horas de vídeo para ver um "gaaaa" lentamente transformar-se em "água". Uma pesquisa fascinante e riquíssima em dados, com profundas implicações sobre a maneira como aprendemos.
- Cognitive scientist
Deb Roy studies how children learn language, and designs machines that learn to communicate in human-like ways. On sabbatical from MIT Media Lab, he's working with the AI company Bluefin Labs. Full bio

Double-click the English transcript below to play the video.

00:15
Imagine if you could record your life --
0
0
4000
Imagine se você pudesse gravar sua vida -
00:19
everything you said, everything you did,
1
4000
3000
tudo que você disse, tudo que você fez,
00:22
available in a perfect memory store at your fingertips,
2
7000
3000
disponível em um perfeito banco de memória, ao alcance das mãos,
00:25
so you could go back
3
10000
2000
então você poderia voltar
00:27
and find memorable moments and relive them,
4
12000
3000
e encontrar momentos memoráveis e revivê-los,
00:30
or sift through traces of time
5
15000
3000
ou examinar períodos de tempo
00:33
and discover patterns in your own life
6
18000
2000
e descobrir padrões em sua vida
00:35
that previously had gone undiscovered.
7
20000
3000
que não haviam sido descobertos antes.
00:38
Well that's exactly the journey
8
23000
2000
Esta é exatamente a jornada
00:40
that my family began
9
25000
2000
que minha família começou
00:42
five and a half years ago.
10
27000
2000
há cinco anos e meio.
00:44
This is my wife and collaborator, Rupal.
11
29000
3000
Esta é minha mulher e colaboradora, Rupal.
00:47
And on this day, at this moment,
12
32000
2000
E neste dia, neste momento,
00:49
we walked into the house with our first child,
13
34000
2000
entramos em casa com nosso primeiro filho,
00:51
our beautiful baby boy.
14
36000
2000
nosso lindo garotinho.
00:53
And we walked into a house
15
38000
3000
E entramos em uma casa
00:56
with a very special home video recording system.
16
41000
4000
com um sistema de gravação de vídeos caseiros muito especial.
01:07
(Video) Man: Okay.
17
52000
2000
(Vídeo) Homem: OK.
01:10
Deb Roy: This moment
18
55000
1000
Deb Roy: Este momento
01:11
and thousands of other moments special for us
19
56000
3000
e milhares de outros momentos especiais para nós,
01:14
were captured in our home
20
59000
2000
foram captados em nossa casa
01:16
because in every room in the house,
21
61000
2000
porque em cada cômodo,
01:18
if you looked up, you'd see a camera and a microphone,
22
63000
3000
se você olhasse para cima, veria uma câmera e um microfone,
01:21
and if you looked down,
23
66000
2000
e se olhasse para baixo,
01:23
you'd get this bird's-eye view of the room.
24
68000
2000
teria uma visão panorâmica do cômodo.
01:25
Here's our living room,
25
70000
3000
Esta é nossa sala,
01:28
the baby bedroom,
26
73000
3000
o quarto do bebê,
01:31
kitchen, dining room
27
76000
2000
cozinha, sala de jantar
01:33
and the rest of the house.
28
78000
2000
e o resto da casa.
01:35
And all of these fed into a disc array
29
80000
3000
E tudo isto ia para uma série de discos
01:38
that was designed for a continuous capture.
30
83000
3000
desenvolvidos para uma captação ininterrupta.
01:41
So here we are flying through a day in our home
31
86000
3000
Aqui estamos sobrevoando um dia em nossa casa
01:44
as we move from sunlit morning
32
89000
3000
à medida em que passamos de uma manhã de sol
01:47
through incandescent evening
33
92000
2000
a uma noite incandescente
01:49
and, finally, lights out for the day.
34
94000
3000
e, finalmente, luzes apagadas.
01:53
Over the course of three years,
35
98000
3000
Ao longo de três anos,
01:56
we recorded eight to 10 hours a day,
36
101000
2000
gravamos de oito a dez horas por dia,
01:58
amassing roughly a quarter-million hours
37
103000
3000
coletando cerca de 250 mil horas
02:01
of multi-track audio and video.
38
106000
3000
de multi-faixas de áudio e vídeo.
02:04
So you're looking at a piece of what is by far
39
109000
2000
Então, vocês estão vendo o que é certamente
02:06
the largest home video collection ever made.
40
111000
2000
a maior coleção de vídeos caseiros já feita.
02:08
(Laughter)
41
113000
3000
(Risos)
02:11
And what this data represents
42
116000
2000
E o que esses dados representam
02:13
for our family at a personal level,
43
118000
4000
para nossa família, pessoalmente,
02:17
the impact has already been immense,
44
122000
2000
o impacto tem sido imenso,
02:19
and we're still learning its value.
45
124000
3000
e ainda estamos aprendendo seu valor.
02:22
Countless moments
46
127000
2000
Inúmeros momentos
02:24
of unsolicited natural moments, not posed moments,
47
129000
3000
de expressões naturais, não ensaiados,
02:27
are captured there,
48
132000
2000
foram captados lá,
02:29
and we're starting to learn how to discover them and find them.
49
134000
3000
e estamos aprendendo como descobri-los e encontrá-los.
02:32
But there's also a scientific reason that drove this project,
50
137000
3000
Mas também há uma razão científica para este projeto,
02:35
which was to use this natural longitudinal data
51
140000
4000
que era usar estes dados naturais e longitudinais
02:39
to understand the process
52
144000
2000
para entender o processo
02:41
of how a child learns language --
53
146000
2000
de como uma criança aprende linguagem -
02:43
that child being my son.
54
148000
2000
essa criança sendo meu filho.
02:45
And so with many privacy provisions put in place
55
150000
4000
Então, com várias cláusulas de privacidade
02:49
to protect everyone who was recorded in the data,
56
154000
3000
para proteger todos que foram gravados,
02:52
we made elements of the data available
57
157000
3000
nós disponibilizamos elementos dos dados
02:55
to my trusted research team at MIT
58
160000
3000
para a minha confiável equipe de pesquisadores no MIT,
02:58
so we could start teasing apart patterns
59
163000
3000
para que pudéssemos separar padrões
03:01
in this massive data set,
60
166000
3000
neste conjunto maciço de dados,
03:04
trying to understand the influence of social environments
61
169000
3000
tentando entender a influência de ambientes sociais
03:07
on language acquisition.
62
172000
2000
na aquisição da linguagem.
03:09
So we're looking here
63
174000
2000
Aqui, estamos vendo
03:11
at one of the first things we started to do.
64
176000
2000
uma das primeiras coisas que fizemos.
03:13
This is my wife and I cooking breakfast in the kitchen,
65
178000
4000
Eu e minha esposa fazendo o café da manhã na cozinha.
03:17
and as we move through space and through time,
66
182000
3000
E à medida em que avançamos no espaço e no tempo,
03:20
a very everyday pattern of life in the kitchen.
67
185000
3000
há um padrão de vida bem cotidiano na cozinha.
03:23
In order to convert
68
188000
2000
Para converter
03:25
this opaque, 90,000 hours of video
69
190000
3000
este vídeo opaco de 90 mil horas
03:28
into something that we could start to see,
70
193000
2000
em algo que poderíamos começar a ver,
03:30
we use motion analysis to pull out,
71
195000
2000
usamos a análise de movimentos para selecionar,
03:32
as we move through space and through time,
72
197000
2000
à medida em que avançamos no espaço e no tempo,
03:34
what we call space-time worms.
73
199000
3000
o que chamamos de vermes do espaço-tempo.
03:37
And this has become part of our toolkit
74
202000
3000
E isso se tornou parte das nossas ferramentas
03:40
for being able to look and see
75
205000
3000
para sermos capazes de olhar e ver
03:43
where the activities are in the data,
76
208000
2000
onde estão as atividades nos dados
03:45
and with it, trace the pattern of, in particular,
77
210000
3000
e, com isso, traçar um padrão
03:48
where my son moved throughout the home,
78
213000
2000
de onde meu filho se movia pela casa,
03:50
so that we could focus our transcription efforts,
79
215000
3000
para que pudéssemos focar nossos esforços de transcrição
03:53
all of the speech environment around my son --
80
218000
3000
em todo o ambiente de fala em volta do meu filho -
03:56
all of the words that he heard from myself, my wife, our nanny,
81
221000
3000
todas as palavras que ele ouviu de mim, minha esposa, nossa babá
03:59
and over time, the words he began to produce.
82
224000
3000
e, com o tempo, as palavras que ele começou a produzir.
04:02
So with that technology and that data
83
227000
3000
Então, com essa tecnologia e aqueles dados
04:05
and the ability to, with machine assistance,
84
230000
2000
e a habilidade de, com ajuda da máquina,
04:07
transcribe speech,
85
232000
2000
transcrever as falas,
04:09
we've now transcribed
86
234000
2000
nós já transcrevemos
04:11
well over seven million words of our home transcripts.
87
236000
3000
mais de sete milhões de palavras das nossas transcrições caseiras.
04:14
And with that, let me take you now
88
239000
2000
Com isso, deixem-me levá-los agora
04:16
for a first tour into the data.
89
241000
3000
para uma primeira turnê pelos dados.
04:19
So you've all, I'm sure,
90
244000
2000
Tenho certeza de que todos já viram
04:21
seen time-lapse videos
91
246000
2000
filmes com lapso de tempo,
04:23
where a flower will blossom as you accelerate time.
92
248000
3000
onde a flor desabrocha quando aceleramos o tempo.
04:26
I'd like you to now experience
93
251000
2000
Agora, eu gostaria que vocês presenciassem
04:28
the blossoming of a speech form.
94
253000
2000
o desabrochar de uma fala.
04:30
My son, soon after his first birthday,
95
255000
2000
Meu filho, logo após seu primeiro aniversário,
04:32
would say "gaga" to mean water.
96
257000
3000
dizia "gaga" significando "água".
04:35
And over the course of the next half-year,
97
260000
3000
E ao longo dos seis meses seguintes,
04:38
he slowly learned to approximate
98
263000
2000
ele lentamente aprendeu a aproximar-se
04:40
the proper adult form, "water."
99
265000
3000
da forma apropriada do adulto, "água".
04:43
So we're going to cruise through half a year
100
268000
2000
Então vamos atravessar meio ano
04:45
in about 40 seconds.
101
270000
2000
em cerca de 40 segundos.
04:47
No video here,
102
272000
2000
Não há vídeo aqui,
04:49
so you can focus on the sound, the acoustics,
103
274000
3000
para que vocês foquem no som, na acústica,
04:52
of a new kind of trajectory:
104
277000
2000
de uma nova trajetória:
04:54
gaga to water.
105
279000
2000
gaga para água.
04:56
(Audio) Baby: Gagagagagaga
106
281000
12000
(Áudio) Bebê: Gagagagagaga
05:08
Gaga gaga gaga
107
293000
4000
Gaga gaga gaga
05:12
guga guga guga
108
297000
5000
guga guga guga
05:17
wada gaga gaga guga gaga
109
302000
5000
uada, gaga, gaga, gaga, gaga
05:22
wader guga guga
110
307000
4000
ága guga guga
05:26
water water water
111
311000
3000
água água água
05:29
water water water
112
314000
6000
água água água
05:35
water water
113
320000
4000
água água
05:39
water.
114
324000
2000
água.
05:41
DR: He sure nailed it, didn't he.
115
326000
2000
DR: Ele pegou direitinho, não é?
05:43
(Applause)
116
328000
7000
(Aplausos)
05:50
So he didn't just learn water.
117
335000
2000
Então ele não aprendeu só água.
05:52
Over the course of the 24 months,
118
337000
2000
Ao longo de 24 meses,
05:54
the first two years that we really focused on,
119
339000
3000
os dois primeiros anos, que realmente focamos,
05:57
this is a map of every word he learned in chronological order.
120
342000
4000
este é um mapa de cada palava que ele aprendeu em ordem cronológica.
06:01
And because we have full transcripts,
121
346000
3000
E como temos transcrições completas,
06:04
we've identified each of the 503 words
122
349000
2000
identificamos cada uma das 503 palavras
06:06
that he learned to produce by his second birthday.
123
351000
2000
que ele aprendeu a produzir até seu segundo aniversário.
06:08
He was an early talker.
124
353000
2000
Ele aprendeu a falar cedo.
06:10
And so we started to analyze why.
125
355000
3000
Então começamos a analisar o porquê.
06:13
Why were certain words born before others?
126
358000
3000
Por que algumas palavras apareceram antes de outras?
06:16
This is one of the first results
127
361000
2000
Este é um dos primeiros resultados
06:18
that came out of our study a little over a year ago
128
363000
2000
obtidos no nosso estudo há pouco mais de um ano
06:20
that really surprised us.
129
365000
2000
que realmente nos surpreendeu.
06:22
The way to interpret this apparently simple graph
130
367000
3000
A maneira de interpretar este gráfico aparentemente simples
06:25
is, on the vertical is an indication
131
370000
2000
é na vertical, e é uma indicação
06:27
of how complex caregiver utterances are
132
372000
3000
do quão complexo é o discurso de quem cuida
06:30
based on the length of utterances.
133
375000
2000
baseado na extensão do discurso.
06:32
And the [horizontal] axis is time.
134
377000
3000
E o eixo vertical é tempo.
06:35
And all of the data,
135
380000
2000
E todos os dados,
06:37
we aligned based on the following idea:
136
382000
3000
nós alinhamos baseado na seguinte ideia:
06:40
Every time my son would learn a word,
137
385000
3000
Toda vez que meu filho aprendia uma palavra,
06:43
we would trace back and look at all of the language he heard
138
388000
3000
nós rastreávamos e víamos toda a linguagem que ele escutou
06:46
that contained that word.
139
391000
2000
que continha a palavra.
06:48
And we would plot the relative length of the utterances.
140
393000
4000
E traçávamos o comprimento relativo de cada discurso.
06:52
And what we found was this curious phenomena,
141
397000
3000
E o que encontramos foram estes fenômenos curiosos,
06:55
that caregiver speech would systematically dip to a minimum,
142
400000
3000
a fala de quem cuidava dele sistematicamente caía a um mínimo,
06:58
making language as simple as possible,
143
403000
3000
fazendo linguagem da maneira mais simples possível,
07:01
and then slowly ascend back up in complexity.
144
406000
3000
e então lentamente ascendendo de volta em complexidade.
07:04
And the amazing thing was
145
409000
2000
E o incrível foi que
07:06
that bounce, that dip,
146
411000
2000
este decréscimo, esta caída,
07:08
lined up almost precisely
147
413000
2000
se alinhou quase precisamente
07:10
with when each word was born --
148
415000
2000
com quando cada palavra nasceu -
07:12
word after word, systematically.
149
417000
2000
palavra após palavra, sistematicamente.
07:14
So it appears that all three primary caregivers --
150
419000
2000
Então parece que as três pessoas que tomavam conta -
07:16
myself, my wife and our nanny --
151
421000
3000
eu, minha esposa e nossa babá -
07:19
were systematically and, I would think, subconsciously
152
424000
3000
estávamos sistematicamente e, eu pensaria, subconscientemente
07:22
restructuring our language
153
427000
2000
reestruturando nossa linguagem
07:24
to meet him at the birth of a word
154
429000
3000
para encontrá-lo no nascimento da palavra
07:27
and bring him gently into more complex language.
155
432000
4000
e trazê-lo gentilmente para uma linguagem mais complexa.
07:31
And the implications of this -- there are many,
156
436000
2000
E as implicações disso - existem muitas,
07:33
but one I just want to point out,
157
438000
2000
mas eu gostaria de destacar uma,
07:35
is that there must be amazing feedback loops.
158
440000
3000
é que devem haver incríveis círculos de retorno.
07:38
Of course, my son is learning
159
443000
2000
É claro, meu filho está aprendendo
07:40
from his linguistic environment,
160
445000
2000
com este ambiente linguístico,
07:42
but the environment is learning from him.
161
447000
3000
mas o ambiente está aprendendo com ele.
07:45
That environment, people, are in these tight feedback loops
162
450000
3000
Esse ambiente, pessoas, estão nesses ajustados círculos de retorno
07:48
and creating a kind of scaffolding
163
453000
2000
e criando uma espécie de andaime
07:50
that has not been noticed until now.
164
455000
3000
que não tinha sido notado até agora.
07:54
But that's looking at the speech context.
165
459000
2000
Mas isso é olhando para o contexto do discurso.
07:56
What about the visual context?
166
461000
2000
Mas e o contexto visual?
07:58
We're not looking at --
167
463000
2000
Não estamos olhando para ele -
08:00
think of this as a dollhouse cutaway of our house.
168
465000
2000
pense nisto como uma casa de bonecas, réplica de nossa casa.
08:02
We've taken those circular fish-eye lens cameras,
169
467000
3000
Nós pegamos as câmeras olho-de-peixe,
08:05
and we've done some optical correction,
170
470000
2000
e fizemos algumas correções óticas,
08:07
and then we can bring it into three-dimensional life.
171
472000
4000
e então podemos trazê-la para o mundo tridimensional.
08:11
So welcome to my home.
172
476000
2000
Então bem-vindos à minha casa.
08:13
This is a moment,
173
478000
2000
Este é um momento,
08:15
one moment captured across multiple cameras.
174
480000
3000
um momento captado por várias câmeras.
08:18
The reason we did this is to create the ultimate memory machine,
175
483000
3000
Nós fizemos isso para criar a máquina de memória definitiva,
08:21
where you can go back and interactively fly around
176
486000
3000
onde você pode voltar no tempo e interagir
08:24
and then breathe video-life into this system.
177
489000
3000
e então aspirar a vida do vídeo neste sistema.
08:27
What I'm going to do
178
492000
2000
O que eu vou fazer
08:29
is give you an accelerated view of 30 minutes,
179
494000
3000
será mostrar-lhes uma visão acelerada de 30 minutos,
08:32
again, of just life in the living room.
180
497000
2000
de novo, de vida na sala de estar.
08:34
That's me and my son on the floor.
181
499000
3000
Eu e meu filho no chão.
08:37
And there's video analytics
182
502000
2000
E há a análise de vídeo
08:39
that are tracking our movements.
183
504000
2000
que está rastreando nossos movimentos.
08:41
My son is leaving red ink. I am leaving green ink.
184
506000
3000
Meu filho está deixando tinta vermelha, e eu tinta verde.
08:44
We're now on the couch,
185
509000
2000
Agora estamos no sofá,
08:46
looking out through the window at cars passing by.
186
511000
3000
olhando pela janela os carros passando.
08:49
And finally, my son playing in a walking toy by himself.
187
514000
3000
E finalmente, meu filho brincando num andador sozinho.
08:52
Now we freeze the action, 30 minutes,
188
517000
3000
Agora congelamos tudo, 30 minutos,
08:55
we turn time into the vertical axis,
189
520000
2000
transformamos o tempo em eixo vertical,
08:57
and we open up for a view
190
522000
2000
e abrimos para uma vista
08:59
of these interaction traces we've just left behind.
191
524000
3000
desses traços interativos que recém deixamos para trás.
09:02
And we see these amazing structures --
192
527000
3000
E nós vemos estas surpreendentes estruturas -
09:05
these little knots of two colors of thread
193
530000
3000
estes pequenos nós de duas cores de filamentos
09:08
we call "social hot spots."
194
533000
2000
que nós chamamos de pontos quentes sociais.
09:10
The spiral thread
195
535000
2000
O fio espiral
09:12
we call a "solo hot spot."
196
537000
2000
nós chamamos ponto quente único.
09:14
And we think that these affect the way language is learned.
197
539000
3000
E nós pensamos que isto afeta a maneira como a linguagem é aprendida.
09:17
What we'd like to do
198
542000
2000
O que nós gostariamos de fazer
09:19
is start understanding
199
544000
2000
é começar a entender
09:21
the interaction between these patterns
200
546000
2000
a interação entre estes padrões
09:23
and the language that my son is exposed to
201
548000
2000
e a linguagem a que o meu filho está exposto
09:25
to see if we can predict
202
550000
2000
para ver se nós podemos prever
09:27
how the structure of when words are heard
203
552000
2000
como a estrutura de quando as palavras são ouvidas
09:29
affects when they're learned --
204
554000
2000
afeta quando elas são aprendidas -
09:31
so in other words, the relationship
205
556000
2000
então em outras palavras, a relação
09:33
between words and what they're about in the world.
206
558000
4000
entre palavras e o que elas significam no mundo.
09:37
So here's how we're approaching this.
207
562000
2000
Então aqui está como estamos abordando isto.
09:39
In this video,
208
564000
2000
Neste vídeo,
09:41
again, my son is being traced out.
209
566000
2000
de novo, meu filho está sendo seguido
09:43
He's leaving red ink behind.
210
568000
2000
Ele está deixando tinta vermelha para trás.
09:45
And there's our nanny by the door.
211
570000
2000
E nossa babá está na porta.
09:47
(Video) Nanny: You want water? (Baby: Aaaa.)
212
572000
3000
(Vídeo) Babá. Você quer água? ( Bebê. Aaaa)
09:50
Nanny: All right. (Baby: Aaaa.)
213
575000
3000
Babá. Tudo Bem. (Bebê. Aaaa)
09:53
DR: She offers water,
214
578000
2000
DR. Ela oferece água,
09:55
and off go the two worms
215
580000
2000
e lá vão os dois vermes
09:57
over to the kitchen to get water.
216
582000
2000
até a cozinha para apanhar água.
09:59
And what we've done is use the word "water"
217
584000
2000
E o que nós fizemos foi usar a palavra "água".
10:01
to tag that moment, that bit of activity.
218
586000
2000
para assinalar aquele momento, aquele ponto de atividade.
10:03
And now we take the power of data
219
588000
2000
E agora nós pegamos o poder dos dados
10:05
and take every time my son
220
590000
3000
e pegamos todos os momentos em que meu filho
10:08
ever heard the word water
221
593000
2000
ouviu a palavra água
10:10
and the context he saw it in,
222
595000
2000
e o contexto no qual ele a viu
10:12
and we use it to penetrate through the video
223
597000
3000
e nós os usamos para penetrar através do vídeo
10:15
and find every activity trace
224
600000
3000
e encontrar cada traço de atividade
10:18
that co-occurred with an instance of water.
225
603000
3000
que ocorreu juntamente com um exemplo de água.
10:21
And what this data leaves in its wake
226
606000
2000
E o que esta informação deixa em sua esteira
10:23
is a landscape.
227
608000
2000
é uma paisagem.
10:25
We call these wordscapes.
228
610000
2000
Nós a chamamos de paisagens de palavras.
10:27
This is the wordscape for the word water,
229
612000
2000
Esta é a paisagem de palavra para a palavra água
10:29
and you can see most of the action is in the kitchen.
230
614000
2000
e vocês podem ver que grande parte da ação é na cozinha.
10:31
That's where those big peaks are over to the left.
231
616000
3000
É lá onde aqueles grandes picos estão à esquerda.
10:34
And just for contrast, we can do this with any word.
232
619000
3000
E apenas para contrastar, podemos fazer isto com qualquer palavra.
10:37
We can take the word "bye"
233
622000
2000
Nós podemos pegar a palavra "até"
10:39
as in "good bye."
234
624000
2000
como em "até logo".
10:41
And we're now zoomed in over the entrance to the house.
235
626000
2000
E nós agora estamos dando um zoom na entrada da casa.
10:43
And we look, and we find, as you would expect,
236
628000
3000
E olhamos, e encontramos, como poderiam esperar,
10:46
a contrast in the landscape
237
631000
2000
um contraste na paisagem
10:48
where the word "bye" occurs much more in a structured way.
238
633000
3000
onde a palavra "até" ocorre de uma maneira muito mais estruturada.
10:51
So we're using these structures
239
636000
2000
Então nós estamos usando estas estruturas
10:53
to start predicting
240
638000
2000
para começar a prever
10:55
the order of language acquisition,
241
640000
3000
a ordem de aquisição da linguagem
10:58
and that's ongoing work now.
242
643000
2000
e é no que estamos trabalhando agora.
11:00
In my lab, which we're peering into now, at MIT --
243
645000
3000
No meu laboratório, onde estamos pesquisando, no MIT --
11:03
this is at the media lab.
244
648000
2000
este é o laboratório de comunicação.
11:05
This has become my favorite way
245
650000
2000
Isto se tornou a minha maneira favorita
11:07
of videographing just about any space.
246
652000
2000
de videografar sobre qualquer espaço.
11:09
Three of the key people in this project,
247
654000
2000
Três das principais pessoas neste projeto
11:11
Philip DeCamp, Rony Kubat and Brandon Roy are pictured here.
248
656000
3000
Philip DeCamp, Rony Kubat e Brandon Roy estão nesta fotografia.
11:14
Philip has been a close collaborator
249
659000
2000
Philip tem sido um colaborador muito próximo
11:16
on all the visualizations you're seeing.
250
661000
2000
em todas as visualizações que vocês viram.
11:18
And Michael Fleischman
251
663000
3000
E Michael Fleischman
11:21
was another Ph.D. student in my lab
252
666000
2000
era outro estudante de PH.D. no meu laboratório
11:23
who worked with me on this home video analysis,
253
668000
3000
que trabalhou comigo na análise deste vídeo caseiro
11:26
and he made the following observation:
254
671000
3000
e ele fez a seguinte observação:
11:29
that "just the way that we're analyzing
255
674000
2000
que "a maneira pela qual nós estamos analisando
11:31
how language connects to events
256
676000
3000
como a linguagem se conecta com eventos
11:34
which provide common ground for language,
257
679000
2000
os quais fornecem um campo comum para a linguagem,
11:36
that same idea we can take out of your home, Deb,
258
681000
4000
essa mesma idéia podemos pegar fora da nossa casa, Deb,
11:40
and we can apply it to the world of public media."
259
685000
3000
e podemos aplicá-la ao mundo da comunicação pública.".
11:43
And so our effort took an unexpected turn.
260
688000
3000
E então nosso esforço deu uma virada inesperada.
11:46
Think of mass media
261
691000
2000
Pensem na comunicação de massa
11:48
as providing common ground
262
693000
2000
como fornecendo um campo comum
11:50
and you have the recipe
263
695000
2000
e vocês têm a receita
11:52
for taking this idea to a whole new place.
264
697000
3000
para levar esta idéia a um novo contexto.
11:55
We've started analyzing television content
265
700000
3000
Nós começamos a analisar o conteúdo televisivo
11:58
using the same principles --
266
703000
2000
usando o mesmo princípio -
12:00
analyzing event structure of a TV signal --
267
705000
3000
analizando a estrutura de um evento de um sinal de TV -
12:03
episodes of shows,
268
708000
2000
episódios de shows,
12:05
commercials,
269
710000
2000
comerciais,
12:07
all of the components that make up the event structure.
270
712000
3000
todos os componentes que fazem a estrutura do evento.
12:10
And we're now, with satellite dishes, pulling and analyzing
271
715000
3000
E estamos agora, com discos de satélites, captando e analisando
12:13
a good part of all the TV being watched in the United States.
272
718000
3000
uma boa parte de toda a TV que é vista nos Estados Unidos.
12:16
And you don't have to now go and instrument living rooms with microphones
273
721000
3000
E vocês não tem mais que instalar microfones em todas as salas de estar
12:19
to get people's conversations,
274
724000
2000
para captar a conversa das pessoas,
12:21
you just tune into publicly available social media feeds.
275
726000
3000
basta sintonizarem no conteúdo público de comunicação social disponível.
12:24
So we're pulling in
276
729000
2000
Então estamos recebendo
12:26
about three billion comments a month,
277
731000
2000
cerca de três bilhões de comentários por mês.
12:28
and then the magic happens.
278
733000
2000
E então a magia acontece.
12:30
You have the event structure,
279
735000
2000
Vocês têm a estutura do evento,
12:32
the common ground that the words are about,
280
737000
2000
o campo comum das palavras,
12:34
coming out of the television feeds;
281
739000
3000
vindos dos programas de televisão,
12:37
you've got the conversations
282
742000
2000
vocês têm as conversas
12:39
that are about those topics;
283
744000
2000
que são sobre aqueles tópicos;
12:41
and through semantic analysis --
284
746000
3000
e através da análise semântica --
12:44
and this is actually real data you're looking at
285
749000
2000
e essas são informações reais que vocês estão vendo
12:46
from our data processing --
286
751000
2000
do nosso processador de informações --
12:48
each yellow line is showing a link being made
287
753000
3000
cada linha amarela está mostrando um elo sendo feito
12:51
between a comment in the wild
288
756000
3000
entre um comentário no ar
12:54
and a piece of event structure coming out of the television signal.
289
759000
3000
e uma peça da estrutura de um evento vindo de um sinal de televisão.
12:57
And the same idea now
290
762000
2000
E a mesma idéia agora
12:59
can be built up.
291
764000
2000
pode ser construída.
13:01
And we get this wordscape,
292
766000
2000
E nós temos esta paisagem de palavra,
13:03
except now words are not assembled in my living room.
293
768000
3000
exceto que agora as palavras não são montadas na minha sala.
13:06
Instead, the context, the common ground activities,
294
771000
4000
Em vez disso, o contexto, o campo comum de atividades
13:10
are the content on television that's driving the conversations.
295
775000
3000
são o conteúdo na televisão que está dirigindo a conversa.
13:13
And what we're seeing here, these skyscrapers now,
296
778000
3000
E o que nós estamos vendo aqui, estes arranha-céus agora
13:16
are commentary
297
781000
2000
são comentários
13:18
that are linked to content on television.
298
783000
2000
que estão ligados ao conteúdo na televisão.
13:20
Same concept,
299
785000
2000
O mesmo conceito,
13:22
but looking at communication dynamics
300
787000
2000
mas olhando a dinâmica da comunicação
13:24
in a very different sphere.
301
789000
2000
em uma esfera diferente.
13:26
And so fundamentally, rather than, for example,
302
791000
2000
E então fundamentalmente, em vez de, por exemplo,
13:28
measuring content based on how many people are watching,
303
793000
3000
medir o conteúdo baseado na quantidade de pessoas que está assistindo,
13:31
this gives us the basic data
304
796000
2000
isto nos dá a informação básica
13:33
for looking at engagement properties of content.
305
798000
3000
para procurar propriedades de conexão do conteúdo .
13:36
And just like we can look at feedback cycles
306
801000
3000
E assim como podemos olhar os ciclos de retorno
13:39
and dynamics in a family,
307
804000
3000
e dinâmicas numa família,
13:42
we can now open up the same concepts
308
807000
3000
nós podemos agora abrir os mesmos conceitos
13:45
and look at much larger groups of people.
309
810000
3000
e olhar para grupos muito maiores de pessoas.
13:48
This is a subset of data from our database --
310
813000
3000
Isto é um subconjunto de dados da nossa base de dados -
13:51
just 50,000 out of several million --
311
816000
3000
apenas 50 mil de diversos milhões -
13:54
and the social graph that connects them
312
819000
2000
e o gráfico social que os conecta
13:56
through publicly available sources.
313
821000
3000
através de fontes públicas disponíveis.
13:59
And if you put them on one plain,
314
824000
2000
E se vocês os colocam em um plano,
14:01
a second plain is where the content lives.
315
826000
3000
um segundo plano é onde está o conteúdo.
14:04
So we have the programs
316
829000
3000
Então nós temos os programas
14:07
and the sporting events
317
832000
2000
e os eventos esportivos
14:09
and the commercials,
318
834000
2000
e os comerciais,
14:11
and all of the link structures that tie them together
319
836000
2000
e todas as estruturas que os conectam
14:13
make a content graph.
320
838000
2000
fazem um gráfico de conteúdo.
14:15
And then the important third dimension.
321
840000
4000
E então a importante terceira dimensão.
14:19
Each of the links that you're seeing rendered here
322
844000
2000
Cada uma das conexões que vocês vêem apresentadas aqui
14:21
is an actual connection made
323
846000
2000
é uma conexão real feita
14:23
between something someone said
324
848000
3000
entre alguma coisa que alguém disse
14:26
and a piece of content.
325
851000
2000
e uma parte de conteúdo.
14:28
And there are, again, now tens of millions of these links
326
853000
3000
E existem, de novo, agora dezenas de milhões dessas ligações
14:31
that give us the connective tissue of social graphs
327
856000
3000
que nos dão o tecido conectivo do gráfico social
14:34
and how they relate to content.
328
859000
3000
e como ele se relaciona ao conteúdo.
14:37
And we can now start to probe the structure
329
862000
2000
E agora podemos começar a examinar a estrutura
14:39
in interesting ways.
330
864000
2000
de maneiras interessantes.
14:41
So if we, for example, trace the path
331
866000
3000
Então se, por exemplo, delineamos o caminho
14:44
of one piece of content
332
869000
2000
de uma parte do conteúdo
14:46
that drives someone to comment on it,
333
871000
2000
que conduz alguém a comentá-lo,
14:48
and then we follow where that comment goes,
334
873000
3000
então nós seguimos onde aquele comentário vai,
14:51
and then look at the entire social graph that becomes activated
335
876000
3000
vemos o gráfico social completo que se ativa
14:54
and then trace back to see the relationship
336
879000
3000
e voltamos para ver a relação
14:57
between that social graph and content,
337
882000
2000
entre o gráfico social e o conteúdo,
14:59
a very interesting structure becomes visible.
338
884000
2000
uma estrutura muito interessante se torna visível.
15:01
We call this a co-viewing clique,
339
886000
2000
Nós chamamos isto uma co-visão fechada
15:03
a virtual living room if you will.
340
888000
3000
uma sala de estar virtual, se preferirem.
15:06
And there are fascinating dynamics at play.
341
891000
2000
E existem dinâmicas fascinantes em jogo.
15:08
It's not one way.
342
893000
2000
Não é um caminho único.
15:10
A piece of content, an event, causes someone to talk.
343
895000
3000
Uma parte do conteúdo, um evento, motiva pessoas a falar.
15:13
They talk to other people.
344
898000
2000
Eles falam com outras pessoas.
15:15
That drives tune-in behavior back into mass media,
345
900000
3000
Isso conduz a um comportamento sintonizado de retorno aos meios de massa,
15:18
and you have these cycles
346
903000
2000
e vocês têm estes ciclos
15:20
that drive the overall behavior.
347
905000
2000
que conduzem ao comportamento global.
15:22
Another example -- very different --
348
907000
2000
Outro exemplo - bem diferente --
15:24
another actual person in our database --
349
909000
3000
outra pessoa real em nossa base de dados --
15:27
and we're finding at least hundreds, if not thousands, of these.
350
912000
3000
e estamos encontrando pelo menos centenas, se não milhares delas.
15:30
We've given this person a name.
351
915000
2000
E demos um nome a esta pessoa.
15:32
This is a pro-amateur, or pro-am media critic
352
917000
3000
Esta é uma pró-amadora, ou pro-am, crítica de mídia
15:35
who has this high fan-out rate.
353
920000
3000
que tem esta elevada taxa de assistência.
15:38
So a lot of people are following this person -- very influential --
354
923000
3000
Então muita gente está seguindo esta pessoa - muito influente -
15:41
and they have a propensity to talk about what's on TV.
355
926000
2000
e elas têm a propensão de falar sobre o que acontece na TV.
15:43
So this person is a key link
356
928000
3000
Então esta pessoa é um elo chave
15:46
in connecting mass media and social media together.
357
931000
3000
na conexão dos meios de massa e dos meios sociais juntos.
15:49
One last example from this data:
358
934000
3000
Um último exemplo destes dados.
15:52
Sometimes it's actually a piece of content that is special.
359
937000
3000
Às vezes, é na verdade, um segmento de conteúdo que é especial.
15:55
So if we go and look at this piece of content,
360
940000
4000
Então se olharmos este segmento de conteúdo,
15:59
President Obama's State of the Union address
361
944000
3000
discurso do Presidente Obama na sessão de abertura do Congresso
16:02
from just a few weeks ago,
362
947000
2000
há algumas semanas,
16:04
and look at what we find in this same data set,
363
949000
3000
e olharmos o que encontramos neste mesmo conjunto de dados,
16:07
at the same scale,
364
952000
3000
na mesma escala,
16:10
the engagement properties of this piece of content
365
955000
2000
as propriedades de conexão deste segmento de conteúdo
16:12
are truly remarkable.
366
957000
2000
são verdadeiramente notáveis.
16:14
A nation exploding in conversation
367
959000
2000
A nação explodindo em conversações
16:16
in real time
368
961000
2000
em tempo real
16:18
in response to what's on the broadcast.
369
963000
3000
em resposta ao que acontece na transmissão.
16:21
And of course, through all of these lines
370
966000
2000
E sem dúvida, através de todas estas linhas
16:23
are flowing unstructured language.
371
968000
2000
estão fluindo linguagens não estruturadas.
16:25
We can X-ray
372
970000
2000
Podemos radiografar
16:27
and get a real-time pulse of a nation,
373
972000
2000
e conseguir em tempo real a pulsação de uma nação,
16:29
real-time sense
374
974000
2000
percepção em tempo real
16:31
of the social reactions in the different circuits in the social graph
375
976000
3000
das reações sociais nos diferentes circuitos no gráfico social
16:34
being activated by content.
376
979000
3000
sendo ativadas pelo conteúdo.
16:37
So, to summarize, the idea is this:
377
982000
3000
Resumindo, a ideia é esta:
16:40
As our world becomes increasingly instrumented
378
985000
3000
À medida que o nosso mundo se torna mais instrumentalizado
16:43
and we have the capabilities
379
988000
2000
e nós temos as capacidades
16:45
to collect and connect the dots
380
990000
2000
de coletar e conectar os pontos
16:47
between what people are saying
381
992000
2000
entre o que as pessoas estão dizendo
16:49
and the context they're saying it in,
382
994000
2000
e o contexto no qual elas o estão dizendo,
16:51
what's emerging is an ability
383
996000
2000
o que emerge é uma habilidade
16:53
to see new social structures and dynamics
384
998000
3000
de ver novas estuturas sociais e dinâmicas
16:56
that have previously not been seen.
385
1001000
2000
que ainda não tinham sido vistas.
16:58
It's like building a microscope or telescope
386
1003000
2000
É como construir um microscópio ou telescópio
17:00
and revealing new structures
387
1005000
2000
e revelar novas estruturas
17:02
about our own behavior around communication.
388
1007000
3000
sobre o nosso próprio comportamento em torno da comunicação.
17:05
And I think the implications here are profound,
389
1010000
3000
E eu penso que as implicações aqui são profundas,
17:08
whether it's for science,
390
1013000
2000
quer sejam para a ciência,
17:10
for commerce, for government,
391
1015000
2000
para o comércio, para o governo,
17:12
or perhaps most of all,
392
1017000
2000
ou talvez acima de tudo,
17:14
for us as individuals.
393
1019000
3000
para nós como indivíduos.
17:17
And so just to return to my son,
394
1022000
3000
E então apenas para voltar ao meu filho,
17:20
when I was preparing this talk, he was looking over my shoulder,
395
1025000
3000
enquanto eu preparava esta apresentação, ele olhava sobre o meu ombro,
17:23
and I showed him the clips I was going to show to you today,
396
1028000
2000
e eu mostrei a ele os clips que iria apresentar a vocês hoje,
17:25
and I asked him for permission -- granted.
397
1030000
3000
e eu pedi permissão a ele - a sério.
17:28
And then I went on to reflect,
398
1033000
2000
E então eu comecei a refletir,
17:30
"Isn't it amazing,
399
1035000
3000
"Não é fantástico,
17:33
this entire database, all these recordings,
400
1038000
3000
esta completa base de dados, todas estas gravações,
17:36
I'm going to hand off to you and to your sister" --
401
1041000
2000
vou entregar a você e a sua irmã,"
17:38
who arrived two years later --
402
1043000
3000
que chegou dois anos depois.
17:41
"and you guys are going to be able to go back and re-experience moments
403
1046000
3000
"E vocês poderão voltar no tempo e re-experimentar momentos
17:44
that you could never, with your biological memory,
404
1049000
3000
que vocês nunca poderiam, com sua memória biológica,
17:47
possibly remember the way you can now?"
405
1052000
2000
possivelmente lembrar da maneira que agora podem".
17:49
And he was quiet for a moment.
406
1054000
2000
E ele ficou quieto por um momento.
17:51
And I thought, "What am I thinking?
407
1056000
2000
E eu pensei, "O que estou pensando?
17:53
He's five years old. He's not going to understand this."
408
1058000
2000
Ele tem cinco anos de idade. Não vai entender isto."
17:55
And just as I was having that thought, he looked up at me and said,
409
1060000
3000
E enquando eu estava tendo esse pensamento, ele olhou para mim e disse,
17:58
"So that when I grow up,
410
1063000
2000
"Então quando eu crescer,
18:00
I can show this to my kids?"
411
1065000
2000
posso mostrar isto para os meus filhos?"
18:02
And I thought, "Wow, this is powerful stuff."
412
1067000
3000
E eu pensei. "Uau, isto é uma coisa poderosa."
18:05
So I want to leave you
413
1070000
2000
Então eu quero deixá-los
18:07
with one last memorable moment
414
1072000
2000
com um último momento memorável
18:09
from our family.
415
1074000
3000
da minha família.
18:12
This is the first time our son
416
1077000
2000
Esta é a primeira vez que o nosso filho
18:14
took more than two steps at once --
417
1079000
2000
deu mais que dois passos de uma vez -
18:16
captured on film.
418
1081000
2000
captados em filme.
18:18
And I really want you to focus on something
419
1083000
3000
E eu quero que vocês se fixem nisso
18:21
as I take you through.
420
1086000
2000
à medida que os conduzo.
18:23
It's a cluttered environment; it's natural life.
421
1088000
2000
É um ambiente desordenado, é vida real.
18:25
My mother's in the kitchen, cooking,
422
1090000
2000
Minha mãe na cozinha, cozinhando
18:27
and, of all places, in the hallway,
423
1092000
2000
e, de tantos lugares, no corredor,
18:29
I realize he's about to do it, about to take more than two steps.
424
1094000
3000
compreendi que ele estava pronto, a ponto de dar mais de dois passos.
18:32
And so you hear me encouraging him,
425
1097000
2000
E então vocês me ouvem encorajando-o,
18:34
realizing what's happening,
426
1099000
2000
compreendendo o que estava acontecendo,
18:36
and then the magic happens.
427
1101000
2000
e então a mágica acontece.
18:38
Listen very carefully.
428
1103000
2000
Ouçam com cuidado.
18:40
About three steps in,
429
1105000
2000
Por volta do terceiro passo,
18:42
he realizes something magic is happening,
430
1107000
2000
ele entende que alguma coisa mágica está acontecendo.
18:44
and the most amazing feedback loop of all kicks in,
431
1109000
3000
E o mais surpreendente círculo de resposta acontece,
18:47
and he takes a breath in,
432
1112000
2000
e ele inspira,
18:49
and he whispers "wow"
433
1114000
2000
e murmura "uau"
18:51
and instinctively I echo back the same.
434
1116000
4000
e instintivamente eu digo o mesmo.
18:56
And so let's fly back in time
435
1121000
3000
E então vamos voar de volta no tempo
18:59
to that memorable moment.
436
1124000
2000
àquele momento memorável.
19:05
(Video) DR: Hey.
437
1130000
2000
(Vídeo) DR. Ei.
19:07
Come here.
438
1132000
2000
Vem aqui.
19:09
Can you do it?
439
1134000
3000
Você pode fazer isto?
19:13
Oh, boy.
440
1138000
2000
Meu Deus.
19:15
Can you do it?
441
1140000
3000
Você pode fazer isto?
19:18
Baby: Yeah.
442
1143000
2000
Nenem: Sim.
19:20
DR: Ma, he's walking.
443
1145000
3000
DR. Mãe, ele está andando.
19:24
(Laughter)
444
1149000
2000
(Risos)
19:26
(Applause)
445
1151000
2000
(Aplausos)
19:28
DR: Thank you.
446
1153000
2000
DR. Muito obrigado.
19:30
(Applause)
447
1155000
15000
(Aplausos)

▲Back to top

ABOUT THE SPEAKER
Deb Roy - Cognitive scientist
Deb Roy studies how children learn language, and designs machines that learn to communicate in human-like ways. On sabbatical from MIT Media Lab, he's working with the AI company Bluefin Labs.

Why you should listen

Deb Roy directs the Cognitive Machines group at the MIT Media Lab, where he studies how children learn language, and designs machines that learn to communicate in human-like ways. To enable this work, he has pioneered new data-driven methods for analyzing and modeling human linguistic and social behavior. He has authored numerous scientific papers on artificial intelligence, cognitive modeling, human-machine interaction, data mining, and information visualization.

Deb Roy was the co-founder and serves as CEO of Bluefin Labs, a venture-backed technology company. Built upon deep machine learning principles developed in his research over the past 15 years, Bluefin has created a technology platform that analyzes social media commentary to measure real-time audience response to TV ads and shows.

Follow Deb Roy on Twitter>

Roy adds some relevant papers:

Deb Roy. (2009). New Horizons in the Study of Child Language Acquisition. Proceedings of Interspeech 2009. Brighton, England. bit.ly/fSP4Qh

Brandon C. Roy, Michael C. Frank and Deb Roy. (2009). Exploring word learning in a high-density longitudinal corpus. Proceedings of the 31st Annual Meeting of the Cognitive Science Society. Amsterdam, Netherlands. bit.ly/e1qxej

Plenty more papers on our research including technology and methodology can be found here, together with other research from my lab at MIT: bit.ly/h3paSQ

The work that I mentioned on relationships between television content and the social graph is being done at Bluefin Labs (www.bluefinlabs.com). Details of this work have not been published. The social structures we are finding (and that I highlighted in my TED talk) are indeed new. The social media communication channels that are leading to their formation did not even exist a few years ago, and Bluefin's technology platform for discovering these kinds of structures is the first of its kind. We'll certainly have more to say about all this as we continue to dig into this fascinating new kind of data, and as new social structures continue to evolve!

More profile about the speaker
Deb Roy | Speaker | TED.com