ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

¿Qué hemos aprendido de 5 millones de libros?

Filmed:
2,049,453 views

¿Has jugado con el visor de n-gramas de Google Labs? Es una herramienta adictiva que te permite buscar palabras e ideas en una base de datos de 5 millones de libros a través de los siglos. Erez Lieberman Aiden y Michel Jean-Baptiste nos muestran cómo funciona y algunas de las cosas sorprendentes que podemos aprender partiendo de 500.000 millones de palabras.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezErez LiebermanLieberman AidenAiden: EveryoneTodo el mundo knowssabe
0
0
2000
Erez Lieberman Aiden: Todo el mundo sabe
00:17
that a pictureimagen is worthvalor a thousandmil wordspalabras.
1
2000
3000
que una imagen vale más que mil palabras.
00:22
But we at HarvardHarvard
2
7000
2000
Pero en Harvard
00:24
were wonderingpreguntando if this was really truecierto.
3
9000
3000
nos preguntábamos si realmente es verdad.
00:27
(LaughterRisa)
4
12000
2000
(Risas)
00:29
So we assembledensamblado a teamequipo of expertsexpertos,
5
14000
4000
Así que reunimos a un equipo de expertos
00:33
spanningabarcando HarvardHarvard, MITMIT,
6
18000
2000
de Harvard, del MIT
00:35
The Americanamericano HeritagePatrimonio DictionaryDiccionario, The EncyclopediaEnciclopedia BritannicaBritannica
7
20000
3000
de "The American Heritage Dictionary", de la Enciclopedia Británica
00:38
and even our proudorgulloso sponsorspatrocinadores,
8
23000
2000
e incluso de nuestros patrocinadores:
00:40
the GoogleGoogle.
9
25000
3000
Google.
00:43
And we cogitatedCogido about this
10
28000
2000
Y meditamos sobre esto
00:45
for about fourlas cuatro yearsaños.
11
30000
2000
durante unos 4 años
00:47
And we camevino to a startlingalarmante conclusionconclusión.
12
32000
5000
hasta llegar a una conclusión sorprendente.
00:52
LadiesSeñoras and gentlemencaballeros, a pictureimagen is not worthvalor a thousandmil wordspalabras.
13
37000
3000
Damas y caballeros: una imagen no vale más que mil palabras.
00:55
In facthecho, we foundencontró some picturesimágenes
14
40000
2000
De hecho, hallamos que algunas imágenes
00:57
that are worthvalor 500 billionmil millones wordspalabras.
15
42000
5000
valen 500.000 millones de palabras.
01:02
Jean-BaptisteJean-Baptiste MichelMichel: So how did we get to this conclusionconclusión?
16
47000
2000
Jean-Baptiste Michel: ¿Cómo llegamos a esta conclusión?
01:04
So ErezErez and I were thinkingpensando about waysformas
17
49000
2000
Erez y yo estábamos pensando formas
01:06
to get a biggrande pictureimagen of humanhumano culturecultura
18
51000
2000
de ver el panorama general de la cultura humana
01:08
and humanhumano historyhistoria: changecambio over time.
19
53000
3000
y de la historia humana: su cambio en el tiempo.
01:11
So manymuchos bookslibros actuallyactualmente have been writtenescrito over the yearsaños.
20
56000
2000
Se han escrito muchos libros en los últimos años.
01:13
So we were thinkingpensando, well the bestmejor way to learnaprender from them
21
58000
2000
Así que estábamos pensando que la mejor forma de aprender de ellos
01:15
is to readleer all of these millionsmillones of bookslibros.
22
60000
2000
es leyendo estos millones de libros.
01:17
Now of coursecurso, if there's a scaleescala for how awesomeincreíble that is,
23
62000
3000
Por supuesto, si existe una escala de lo impresionante,
01:20
that has to rankrango extremelyextremadamente, extremelyextremadamente highalto.
24
65000
3000
ese tiene que estar posicionado muy, muy arriba.
01:23
Now the problemproblema is there's an X-axisEje X for that,
25
68000
2000
Pero el problema es que hay un eje X
01:25
whichcual is the practicalpráctico axiseje.
26
70000
2000
que es el eje de lo práctico.
01:27
This is very, very lowbajo.
27
72000
2000
Este está muy, muy abajo.
01:29
(ApplauseAplausos)
28
74000
3000
(Aplausos)
01:32
Now people tendtender to use an alternativealternativa approachenfoque,
29
77000
3000
Ahora bien, la gente suele usar un enfoque alternativo:
01:35
whichcual is to take a fewpocos sourcesfuentes and readleer them very carefullycuidadosamente.
30
80000
2000
tener pocas fuentes y leerlas con mucho cuidado.
01:37
This is extremelyextremadamente practicalpráctico, but not so awesomeincreíble.
31
82000
2000
Esto es muy práctico pero no tan impresionante.
01:39
What you really want to do
32
84000
3000
Lo que realmente queremos
01:42
is to get to the awesomeincreíble yettodavía practicalpráctico partparte of this spaceespacio.
33
87000
3000
es llegar a lo impresionante y práctico.
01:45
So it turnsvueltas out there was a companyempresa acrossa través de the riverrío calledllamado GoogleGoogle
34
90000
3000
Y resulta que había una empresa del otro lado del río llamada Google
01:48
who had startedempezado a digitizationdigitalización projectproyecto a fewpocos yearsaños back
35
93000
2000
que hace unos años había comenzado un proyecto de digitalización
01:50
that mightpodría just enablehabilitar this approachenfoque.
36
95000
2000
que podría permitir este enfoque.
01:52
They have digitizeddigitalizado millionsmillones of bookslibros.
37
97000
2000
Ellos han digitalizado millones de libros.
01:54
So what that meansmedio is, one could use computationalcomputacional methodsmétodos
38
99000
3000
Eso significa que uno podría usar métodos computacionales
01:57
to readleer all of the bookslibros in a clickhacer clic of a buttonbotón.
39
102000
2000
para leer todos los libros con el clic de un botón.
01:59
That's very practicalpráctico and extremelyextremadamente awesomeincreíble.
40
104000
3000
Eso es muy práctico y sumamente impresionante.
02:03
ELAELA: Let me tell you a little bitpoco about where bookslibros come from.
41
108000
2000
ELA: Ahora les voy a contar un poco de dónde vienen los libros.
02:05
SinceYa que time immemorialinmemorial, there have been authorsautores.
42
110000
3000
Desde la noche de los tiempos existen autores.
02:08
These authorsautores have been strivingesforzarse to writeescribir bookslibros.
43
113000
3000
Estos autores se han esforzado por escribir libros.
02:11
And this becameconvirtió considerablyimportantemente easiermás fácil
44
116000
2000
Y eso se volvió considerablemente más fácil
02:13
with the developmentdesarrollo of the printingimpresión pressprensa some centuriessiglos agohace.
45
118000
2000
con el desarrollo de la imprenta hace algunos siglos.
02:15
SinceYa que then, the authorsautores have wonwon
46
120000
3000
Desde entonces, los autores han tenido
02:18
on 129 millionmillón distinctdistinto occasionsocasiones,
47
123000
2000
129 millones de ocasiones
02:20
publishingpublicación bookslibros.
48
125000
2000
para publicar libros.
02:22
Now if those bookslibros are not lostperdió to historyhistoria,
49
127000
2000
Y si esos libros no se perdieron en la historia
02:24
then they are somewherealgun lado in a librarybiblioteca,
50
129000
2000
entonces están en alguna biblioteca
02:26
and manymuchos of those bookslibros have been gettingconsiguiendo retrievedrecuperado from the librariesbibliotecas
51
131000
3000
y muchos de esos libros han sido recuperados de las bibliotecas
02:29
and digitizeddigitalizado by GoogleGoogle,
52
134000
2000
y digitalizados por Google
02:31
whichcual has scannedescaneado 15 millionmillón bookslibros to datefecha.
53
136000
2000
que ha escaneado 15 millones de libros hasta la fecha.
02:33
Now when GoogleGoogle digitizesdigitaliza a booklibro, they put it into a really nicebonito formatformato.
54
138000
3000
Pero cuando Google digitaliza un libro lo pone en un formato muy bueno.
02:36
Now we'venosotros tenemos got the datadatos, plusmás we have metadatametadata.
55
141000
2000
Ahora tenemos los datos y tenemos metadatos.
02:38
We have informationinformación about things like where was it publishedpublicado,
56
143000
3000
Tenemos información sobre cosas como el lugar de publicación
02:41
who was the authorautor, when was it publishedpublicado.
57
146000
2000
el autor, fecha de publicación.
02:43
And what we do is go throughmediante all of those recordsarchivos
58
148000
3000
Y recorremos todos esos registros,
02:46
and excludeexcluir everything that's not the highestmás alto qualitycalidad datadatos.
59
151000
4000
excluyendo todo lo que no tenga la más alta calidad.
02:50
What we're left with
60
155000
2000
Lo que nos queda
02:52
is a collectioncolección of fivecinco millionmillón bookslibros,
61
157000
3000
es una colección de 5 millones de libros
02:55
500 billionmil millones wordspalabras,
62
160000
3000
500.000 millones de palabras,
02:58
a stringcuerda of characterscaracteres a thousandmil timesveces longermás
63
163000
2000
una cadena de caracteres mil veces más larga
03:00
than the humanhumano genomegenoma --
64
165000
3000
que el genoma humano;
03:03
a texttexto whichcual, when writtenescrito out,
65
168000
2000
un texto que, de escribirlo,
03:05
would stretchtramo from here to the MoonLuna and back
66
170000
2000
se extendería desde aquí hasta la luna ida y vuelta
03:07
10 timesveces over --
67
172000
2000
10 veces más...
03:09
a veritableverdadero shardcasco of our culturalcultural genomegenoma.
68
174000
4000
un verdadero fragmento de nuestro genoma cultural.
03:13
Of coursecurso what we did
69
178000
2000
Por supuesto lo que hicimos
03:15
when facedenfrentado with suchtal outrageousindignante hyperbolehipérbole ...
70
180000
3000
frente a tal extravagante hipérbole...
03:18
(LaughterRisa)
71
183000
2000
(Risas)
03:20
was what any self-respectingrespetuoso researchersinvestigadores
72
185000
3000
fue hacer lo que cualquier investigador que se respete
03:23
would have donehecho.
73
188000
3000
habría hecho.
03:26
We tooktomó a pagepágina out of XKCDXKCD,
74
191000
2000
Tomamos una página de XKDC,
03:28
and we said, "StandEstar back.
75
193000
2000
y dijimos: "Háganse a un lado.
03:30
We're going to try scienceciencia."
76
195000
2000
Vamos a intentar con la ciencia".
03:32
(LaughterRisa)
77
197000
2000
(Risas)
03:34
JMJM: Now of coursecurso, we were thinkingpensando,
78
199000
2000
JM: Ahora, por supuesto, estábamos pensando:
03:36
well let's just first put the datadatos out there
79
201000
2000
primero pongamos los datos allí
03:38
for people to do scienceciencia to it.
80
203000
2000
para que la gente haga ciencia con eso.
03:40
Now we're thinkingpensando, what datadatos can we releaselanzamiento?
81
205000
2000
Ahora estamos pensando: ¿qué datos podemos liberar?
03:42
Well of coursecurso, you want to take the bookslibros
82
207000
2000
Por supuesto, uno quiere tomar los libros
03:44
and releaselanzamiento the fullcompleto texttexto of these fivecinco millionmillón bookslibros.
83
209000
2000
y liberar el texto completo de estos 5 millones de libros.
03:46
Now GoogleGoogle, and JonJon OrwantOrwant in particularespecial,
84
211000
2000
Pero Google, y Jon Orwant en particular,
03:48
told us a little equationecuación that we should learnaprender.
85
213000
2000
nos explicaron una pequeña ecuación:
03:50
So you have fivecinco millionmillón, that is, fivecinco millionmillón authorsautores
86
215000
3000
5 millones de autores
03:53
and fivecinco millionmillón plaintiffsdemandantes is a massivemasivo lawsuitdemanda judicial.
87
218000
3000
y 5 millones de demandantes, genera demandas masivas.
03:56
So, althougha pesar de que that would be really, really awesomeincreíble,
88
221000
2000
Por eso aunque sea muy, muy impresionante
03:58
again, that's extremelyextremadamente, extremelyextremadamente impracticalpoco práctico.
89
223000
3000
de nuevo, es completamente impráctico.
04:01
(LaughterRisa)
90
226000
2000
(Risas)
04:03
Now again, we kindtipo of cavedcavado in,
91
228000
2000
Pero, de nuevo, cedimos
04:05
and we did the very practicalpráctico approachenfoque, whichcual was a bitpoco lessMenos awesomeincreíble.
92
230000
3000
y adoptamos un enfoque muy práctico, un poco menos impresionante.
04:08
We said, well insteaden lugar of releasingliberando the fullcompleto texttexto,
93
233000
2000
Dijimos: bueno, en vez de liberar todo el texto
04:10
we're going to releaselanzamiento statisticsestadística about the bookslibros.
94
235000
2000
vamos a liberar estadísticas sobre los libros.
04:12
So take for instanceejemplo "A gleamdestello of happinessfelicidad."
95
237000
2000
Tomemos, por ejemplo, "un destello de felicidad".
04:14
It's fourlas cuatro wordspalabras; we call that a four-gramcuatro gramos.
96
239000
2000
Tiene 4 palabras; lo denominamos cuatro-grama.
04:16
We're going to tell you how manymuchos timesveces a particularespecial four-gramcuatro gramos
97
241000
2000
Les vamos a contar cuántas veces aparece un cuatro-grama particular
04:18
appearedapareció in bookslibros in 1801, 1802, 1803,
98
243000
2000
en libros en 1801, 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
en cada año hasta 2008.
04:22
That givesda us a time seriesserie
100
247000
2000
Eso nos da series temporales
04:24
of how frequentlyfrecuentemente this particularespecial sentencefrase was used over time.
101
249000
2000
de la frecuencia con que esta oración particular se usó en el tiempo.
04:26
We do that for all the wordspalabras and phrasesfrases that appearAparecer in those bookslibros,
102
251000
3000
Hacemos eso para todas las palabras y frases que aparecen en esos libros
04:29
and that givesda us a biggrande tablemesa of two billionmil millones lineslíneas
103
254000
3000
y eso nos da una gran tabla de 2.000 millones de líneas
04:32
that tell us about the way culturecultura has been changingcambiando.
104
257000
2000
que nos cuentan formas en las que fue cambiando la cultura.
04:34
ELAELA: So those two billionmil millones lineslíneas,
105
259000
2000
ELA: Esos dos millones de líneas
04:36
we call them two billionmil millones n-gramsn-grams.
106
261000
2000
se denominan 2 millones de n-gramas.
04:38
What do they tell us?
107
263000
2000
¿Qué nos dicen?
04:40
Well the individualindividual n-gramsn-grams measuremedida culturalcultural trendstendencias.
108
265000
2000
Los n-gramas individuales miden las tendencias culturales.
04:42
Let me give you an exampleejemplo.
109
267000
2000
Les daré un ejemplo.
04:44
Let's supposesuponer that I am thrivingpróspero,
110
269000
2000
Supongamos que soy muy próspero
04:46
then tomorrowmañana I want to tell you about how well I did.
111
271000
2000
y mañana quiero contarles lo bien que me fue.
04:48
And so I mightpodría say, "YesterdayAyer, I throvethrove."
112
273000
3000
Podría decir: "Ayer prosperé".
04:51
AlternativelyAlternativamente, I could say, "YesterdayAyer, I thrivedprosperado."
113
276000
3000
En inglés, prosperé ¿es 'throve' o 'thrived'?
04:54
Well whichcual one should I use?
114
279000
3000
¿Cuál debería usar?
04:57
How to know?
115
282000
2000
¿Cómo saberlo?
04:59
As of about sixseis monthsmeses agohace,
116
284000
2000
Desde hace unos 6 meses
05:01
the stateestado of the artart in this fieldcampo
117
286000
2000
la vanguardia en este campo
05:03
is that you would, for instanceejemplo,
118
288000
2000
dice que, por ejemplo,
05:05
go up to the followingsiguiendo psychologistpsicólogo with fabulousfabuloso haircabello,
119
290000
2000
uno tiene que ir a ese psicólogo de pelo fabuloso
05:07
and you'dtu hubieras say,
120
292000
2000
y decirle:
05:09
"SteveSteve, you're an expertexperto on the irregularirregular verbsverbos.
121
294000
3000
"Steve, eres experto en verbos irregulares.
05:12
What should I do?"
122
297000
2000
¿Qué debería hacer?"
05:14
And he'del habria tell you, "Well mostmás people say thrivedprosperado,
123
299000
2000
Y él dirá: "Bueno la mayoría de la gente dice 'thrive'
05:16
but some people say throvethrove."
124
301000
3000
pero alguna gente dice 'throve'".
05:19
And you alsoademás knewsabía, more or lessMenos,
125
304000
2000
Y también sabían, más o menos,
05:21
that if you were to go back in time 200 yearsaños
126
306000
3000
que si retrocedieran en el tiempo 200 años
05:24
and askpedir the followingsiguiendo statesmanestadista with equallyIgualmente fabulousfabuloso haircabello,
127
309000
3000
y le preguntaran a este estadista de pelo fabuloso,
05:27
(LaughterRisa)
128
312000
3000
(Risas)
05:30
"TomTom, what should I say?"
129
315000
2000
"Tom, ¿cómo debería decir?"
05:32
He'dEl hubiera say, "Well, in my day, mostmás people throvethrove,
130
317000
2000
Diría: "Bueno, en mis tiempos era 'throve'
05:34
but some thrivedprosperado."
131
319000
3000
pero había 'thrived'".
05:37
So now what I'm just going to showespectáculo you is rawcrudo datadatos.
132
322000
2000
Por eso ahora voy a mostrar los datos en crudo.
05:39
Two rowsfilas from this tablemesa of two billionmil millones entriesentradas.
133
324000
4000
Dos filas de esta tabla de 2.000 millones de entradas.
05:43
What you're seeingviendo is yearaño by yearaño frequencyfrecuencia
134
328000
2000
Lo que están viendo es la frecuencia año por año
05:45
of "thrivedprosperado" and "throvethrove" over time.
135
330000
3000
de 'thrived' y 'throve' en el tiempo.
05:49
Now this is just two
136
334000
2000
Estas son sólo 2
05:51
out of two billionmil millones rowsfilas.
137
336000
3000
de 2.000 millones de filas.
05:54
So the entiretodo datadatos setconjunto
138
339000
2000
Así que el set de datos entero
05:56
is a billionmil millones timesveces more awesomeincreíble than this slidediapositiva.
139
341000
3000
es mil millones de veces más impresionante que esta diapositiva.
05:59
(LaughterRisa)
140
344000
2000
(Risas)
06:01
(ApplauseAplausos)
141
346000
4000
(Aplausos)
06:05
JMJM: Now there are manymuchos other picturesimágenes that are worthvalor 500 billionmil millones wordspalabras.
142
350000
2000
JM: Ahora bien, hay muchas otras imágenes que valen 500.000 millones de palabras.
06:07
For instanceejemplo, this one.
143
352000
2000
Por ejemplo, ésta.
06:09
If you just take influenzainfluenza,
144
354000
2000
Si uno toma el caso de la gripe,
06:11
you will see peakspicos at the time where you knewsabía
145
356000
2000
verá picos en el tiempo en el que se sabía
06:13
biggrande flugripe epidemicsepidemias were killingasesinato people around the globeglobo.
146
358000
3000
de la muerte por grandes epidemias de gripe en todo el mundo.
06:16
ELAELA: If you were not yettodavía convincedconvencido,
147
361000
3000
ELA: Si todavía no están convencidos,
06:19
seamar levelsniveles are risingcreciente,
148
364000
2000
los niveles del mar están subiendo,
06:21
so is atmosphericatmosférico COCO2 and globalglobal temperaturetemperatura.
149
366000
3000
y también el CO2 en la atmósfera y la temperatura del planeta.
06:24
JMJM: You mightpodría alsoademás want to have a look at this particularespecial n-gramn-gram,
150
369000
3000
JM: Puede ser que también deseen echar un vistazo a estos n-gramas,
06:27
and that's to tell NietzscheNietzsche that God is not deadmuerto,
151
372000
3000
para decirle a Nietzsche que Dios no está muerto,
06:30
althougha pesar de que you mightpodría agreede acuerdo that he mightpodría need a better publicistpublicista.
152
375000
3000
aunque, estamos de acuerdo, necesitaría un mejor publicista.
06:33
(LaughterRisa)
153
378000
2000
(Risas)
06:35
ELAELA: You can get at some prettybonita abstractabstracto conceptsconceptos with this sortordenar of thing.
154
380000
3000
ELA: Con este tipo de cosas se puede llegar a conceptos bastante abstractos.
06:38
For instanceejemplo, let me tell you the historyhistoria
155
383000
2000
Por ejemplo, tenemos la historia
06:40
of the yearaño 1950.
156
385000
2000
del año 1950.
06:42
PrettyBonita much for the vastvasto majoritymayoria of historyhistoria,
157
387000
2000
En general para la gran mayoría de la historia
06:44
no one gavedio a damnMaldita sea about 1950.
158
389000
2000
a nadie le importa un comino 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
En 1700, en 1800, en 1900,
06:48
no one caredcuidado.
160
393000
3000
a nadie le importa.
06:52
ThroughMediante the 30s and 40s,
161
397000
2000
Entre los años 30 y 40
06:54
no one caredcuidado.
162
399000
2000
a nadie le importa.
06:56
SuddenlyRepentinamente, in the mid-medio-40s,
163
401000
2000
De repente, a mediados de los 40,
06:58
there startedempezado to be a buzzzumbido.
164
403000
2000
empezó a desatarse un rumor.
07:00
People realizeddio cuenta that 1950 was going to happenocurrir,
165
405000
2000
La gente se dio cuenta que venía 1950
07:02
and it could be biggrande.
166
407000
2000
y quizá era algo genial.
07:04
(LaughterRisa)
167
409000
3000
(Risas)
07:07
But nothing got people interestedinteresado in 1950
168
412000
3000
Pero nada cautivó el interés de la gente en 1950
07:10
like the yearaño 1950.
169
415000
3000
tanto como el año 1950.
07:13
(LaughterRisa)
170
418000
3000
(Risas)
07:16
People were walkingpara caminar around obsessedobsesionado.
171
421000
2000
La gente iba por ahí obsesionada.
07:18
They couldn'tno pudo stop talkinghablando
172
423000
2000
No podía parar de pensar
07:20
about all the things they did in 1950,
173
425000
3000
en todo lo que hicieron en 1950
07:23
all the things they were planningplanificación to do in 1950,
174
428000
3000
todas las cosas que planeaban hacer en 1950
07:26
all the dreamsSueños of what they wanted to accomplishrealizar in 1950.
175
431000
5000
todos los sueños que querían cumplir en 1950.
07:31
In facthecho, 1950 was so fascinatingfascinante
176
436000
2000
De hecho, 1950 fue tan fascinante
07:33
that for yearsaños thereafterdespués de eso,
177
438000
2000
que en los años sucesivos
07:35
people just keptmantenido talkinghablando about all the amazingasombroso things that happenedsucedió,
178
440000
3000
la gente siguió hablando de las cosas sorprendentes que sucedieron
07:38
in '51, '52, '53.
179
443000
2000
en el 51, 52, 53.
07:40
FinallyFinalmente in 1954,
180
445000
2000
Finalmente, en 1954,
07:42
someonealguien wokedespertó up and realizeddio cuenta
181
447000
2000
alguien despertó y se dio cuenta
07:44
that 1950 had gottenconseguido somewhatalgo passpasaré.
182
449000
4000
que 1950 ya estaba un poco pasado de moda.
07:48
(LaughterRisa)
183
453000
2000
(Risas)
07:50
And just like that, the bubbleburbuja burstráfaga.
184
455000
2000
Y, así porque sí, estalló la burbuja.
07:52
(LaughterRisa)
185
457000
2000
(Risas)
07:54
And the storyhistoria of 1950
186
459000
2000
Y la historia de 1950
07:56
is the storyhistoria of everycada yearaño that we have on recordgrabar,
187
461000
2000
es la historia de cada año que tenemos registrado
07:58
with a little twistgiro, because now we'venosotros tenemos got these nicebonito chartsgráficos.
188
463000
3000
con un pequeño giro, porque ahora contamos con estos lindos gráficos.
08:01
And because we have these nicebonito chartsgráficos, we can measuremedida things.
189
466000
3000
Y, porque los tenemos, podemos medir cosas.
08:04
We can say, "Well how fastrápido does the bubbleburbuja burstráfaga?"
190
469000
2000
Podemos decir: "Bueno, ¿a qué velocidad estalla la burbuja?"
08:06
And it turnsvueltas out that we can measuremedida that very preciselyprecisamente.
191
471000
3000
Y resulta que podemos medir con mucha precisión.
08:09
EquationsEcuaciones were derivedderivado, graphsgráficos were producedproducido,
192
474000
3000
Se derivaron ecuaciones, se hicieron gráficos,
08:12
and the netred resultresultado
193
477000
2000
y el resultado neto
08:14
is that we find that the bubbleburbuja burstsexplosiones fasterMás rápido and fasterMás rápido
194
479000
3000
es que hallamos que la burbuja estalla cada vez más rápidamente
08:17
with eachcada passingpaso yearaño.
195
482000
2000
con cada año que pasa.
08:19
We are losingperdiendo interestinteresar in the pastpasado more rapidlyrápidamente.
196
484000
5000
Estamos perdiendo interés por el pasado más rápidamente.
08:24
JMJM: Now a little piecepieza of careercarrera adviceConsejo.
197
489000
2000
JM: Ahora un pequeño consejo de carrera.
08:26
So for those of you who seekbuscar to be famousfamoso,
198
491000
2000
Para los que buscan ser famosos
08:28
we can learnaprender from the 25 mostmás famousfamoso politicalpolítico figuresfiguras,
199
493000
2000
podemos aprender de los 25 personajes políticos más famosos:
08:30
authorsautores, actorsactores and so on.
200
495000
2000
autores, actores, etc.
08:32
So if you want to becomevolverse famousfamoso earlytemprano on, you should be an actoractor,
201
497000
3000
Si quieren llegar a ser famosos desde temprano, deberían ser actores
08:35
because then famefama startsempieza risingcreciente by the endfin of your 20s --
202
500000
2000
porque empiezan a tener fama al final de los ventipico...
08:37
you're still youngjoven, it's really great.
203
502000
2000
todavía son jóvenes, es genial.
08:39
Now if you can wait a little bitpoco, you should be an authorautor,
204
504000
2000
Ahora, si pueden esperar un poquito, deberían ser autores
08:41
because then you risesubir to very great heightsalturas,
205
506000
2000
porque entonces alcanzarían grandes alturas
08:43
like Markmarca TwainDos, for instanceejemplo: extremelyextremadamente famousfamoso.
206
508000
2000
como Mark Twain, por ejemplo, que es sumamente famoso.
08:45
But if you want to reachalcanzar the very topparte superior,
207
510000
2000
Pero si quieren llegar realmente a la cima
08:47
you should delayretrasar gratificationgratificación
208
512000
2000
deberían demorar la gratificación
08:49
and, of coursecurso, becomevolverse a politicianpolítico.
209
514000
2000
y, claro, ser políticos.
08:51
So here you will becomevolverse famousfamoso by the endfin of your 50s,
210
516000
2000
En este caso se harán famosos al final de los 50 y tantos
08:53
and becomevolverse very, very famousfamoso afterwarddespués.
211
518000
2000
y se volverán muy, muy famosos en lo sucesivo.
08:55
So scientistscientíficos alsoademás tendtender to get famousfamoso when they're much oldermayor.
212
520000
3000
Los científicos suelen hacerse famosos cuando son mucho mayores.
08:58
Like for instanceejemplo, biologistsbiólogos and physicsfísica
213
523000
2000
Por ejemplo, los biólogos y los físicos
09:00
tendtender to be almostcasi as famousfamoso as actorsactores.
214
525000
2000
suelen ser casi tan famosos como los actores.
09:02
One mistakeError you should not do is becomevolverse a mathematicianmatemático.
215
527000
3000
Un error que no deben cometer es ser matemáticos.
09:05
(LaughterRisa)
216
530000
2000
(Risas)
09:07
If you do that,
217
532000
2000
Si lo hacen
09:09
you mightpodría think, "Oh great. I'm going to do my bestmejor work when I'm in my 20s."
218
534000
3000
podrían pensar: "Oh, genial. Voy a hacer mi mejor trabajo a los ventipico".
09:12
But guessadivinar what, nobodynadie will really carecuidado.
219
537000
2000
Pero adivinen qué; a nadie le importará.
09:14
(LaughterRisa)
220
539000
3000
(Risas)
09:17
ELAELA: There are more soberingaleccionador notesnotas
221
542000
2000
ELA: Hay notas más preocupantes
09:19
amongentre the n-gramsn-grams.
222
544000
2000
entre los n-gramas.
09:21
For instanceejemplo, here'saquí está the trajectorytrayectoria of MarcBagazo ChagallChagall,
223
546000
2000
Por ejemplo, esta es la trayectoria de Marc Chagall,
09:23
an artistartista bornnacido in 1887.
224
548000
2000
un artista nacido en 1887.
09:25
And this looksmiradas like the normalnormal trajectorytrayectoria of a famousfamoso personpersona.
225
550000
3000
Parece la trayectoria normal de un famoso.
09:28
He getsse pone more and more and more famousfamoso,
226
553000
4000
Se hace cada vez más y más famoso
09:32
exceptexcepto if you look in Germanalemán.
227
557000
2000
salvo que miremos en alemán.
09:34
If you look in Germanalemán, you see something completelycompletamente bizarreextraño,
228
559000
2000
Si miramos en alemán vamos a notar algo muy extraño,
09:36
something you prettybonita much never see,
229
561000
2000
algo casi nunca visto
09:38
whichcual is he becomesse convierte extremelyextremadamente famousfamoso
230
563000
2000
y es que se vuelve sumamente famoso
09:40
and then all of a suddenrepentino plummetscae en picado,
231
565000
2000
y de repente se desploma
09:42
going throughmediante a nadirnadir betweenEntre 1933 and 1945,
232
567000
3000
cayendo al punto más bajo entre 1933 y 1945,
09:45
before reboundingrebote afterwarddespués.
233
570000
3000
y después se recupera.
09:48
And of coursecurso, what we're seeingviendo
234
573000
2000
Por supuesto, lo que vemos
09:50
is the facthecho MarcBagazo ChagallChagall was a Jewishjudío artistartista
235
575000
3000
es que, de hecho, Marc Chagall era un artista judío
09:53
in Nazinazi GermanyAlemania.
236
578000
2000
en la Alemania nazi.
09:55
Now these signalsseñales
237
580000
2000
Estas señales
09:57
are actuallyactualmente so strongfuerte
238
582000
2000
son tan fuertes, en realidad,
09:59
that we don't need to know that someonealguien was censoredcensurado.
239
584000
3000
que no hace falta saber que alguien fue censurado.
10:02
We can actuallyactualmente figurefigura it out
240
587000
2000
Podemos averiguarlo
10:04
usingutilizando really basicBASIC signalseñal processingtratamiento.
241
589000
2000
mediante procesamiento básico de señales.
10:06
Here'sAquí está a simplesencillo way to do it.
242
591000
2000
Esta es una manera simple de hacerlo.
10:08
Well, a reasonablerazonable expectationexpectativa
243
593000
2000
Una expectativa razonable
10:10
is that somebody'salguien es famefama in a givendado periodperíodo of time
244
595000
2000
es que la fama de alguien en un período dado de tiempo
10:12
should be roughlyaproximadamente the averagepromedio of theirsu famefama before
245
597000
2000
debería ser aproximadamente el promedio de su fama antes
10:14
and theirsu famefama after.
246
599000
2000
y su fama después de eso.
10:16
So that's sortordenar of what we expectesperar.
247
601000
2000
Es más o menos lo que esperamos.
10:18
And we comparecomparar that to the famefama that we observeobservar.
248
603000
3000
Comparamos eso con la fama que observamos
10:21
And we just dividedividir one by the other
249
606000
2000
y dividimos una por otra
10:23
to produceProduce something we call a suppressionsupresión indexíndice.
250
608000
2000
para producir algo que llamamos «índice de represión».
10:25
If the suppressionsupresión indexíndice is very, very, very smallpequeña,
251
610000
3000
Si el índice de represión es muy, muy, muy pequeño
10:28
then you very well mightpodría be beingsiendo suppressedsuprimido.
252
613000
2000
podrían estar reprimiéndote.
10:30
If it's very largegrande, maybe you're benefitingbeneficiando from propagandapropaganda.
253
615000
3000
Si es muy grande, quizá uno se está beneficiando de la propaganda.
10:34
JMJM: Now you can actuallyactualmente look at
254
619000
2000
JM: Ahora bien, podemos mirar
10:36
the distributiondistribución of suppressionsupresión indexesíndices over wholetodo populationspoblaciones.
255
621000
3000
la distribución de los índices de represión en poblaciones enteras.
10:39
So for instanceejemplo, here --
256
624000
2000
Así, por ejemplo, aquí...
10:41
this suppressionsupresión indexíndice is for 5,000 people
257
626000
2000
este índice de represión es para 5.000 personas
10:43
pickedescogido in EnglishInglés bookslibros where there's no knownconocido suppressionsupresión --
258
628000
2000
calculado sobre libros de inglés, donde no hay represión conocida,
10:45
it would be like this, basicallybásicamente tightlyestrechamente centeredcentrado on one.
259
630000
2000
sería algo así, bastante centrado en el uno.
10:47
What you expectesperar is basicallybásicamente what you observeobservar.
260
632000
2000
Lo que uno espera es básicamente lo que observa.
10:49
This is distributiondistribución as seenvisto in GermanyAlemania --
261
634000
2000
Esta es la distribución como se ve en Alemania...
10:51
very differentdiferente, it's shifteddesplazada to the left.
262
636000
2000
muy diferente, está desplazada a la izquierda.
10:53
People talkedhabló about it twicedos veces lessMenos as it should have been.
263
638000
3000
Se habla de la gente 2 veces menos de lo que se debería.
10:56
But much more importantlyen tono rimbombante, the distributiondistribución is much widermás ancho.
264
641000
2000
Pero aún más importante, la distribución es mucho más amplia.
10:58
There are manymuchos people who endfin up on the farlejos left on this distributiondistribución
265
643000
3000
Hay muchas personas que terminan en el extremo izquierdo de esta distribución;
11:01
who are talkedhabló about 10 timesveces fewermenos than they should have been.
266
646000
3000
gente de la que se habla unas 10 veces menos de lo que se debería.
11:04
But then alsoademás manymuchos people on the farlejos right
267
649000
2000
Pero también mucha gente en el extremo derecho
11:06
who seemparecer to benefitbeneficio from propagandapropaganda.
268
651000
2000
que parece beneficiarse de la propaganda.
11:08
This pictureimagen is the hallmarkcontraste of censorshipcensura in the booklibro recordgrabar.
269
653000
3000
Esta imagen muestra el sello de la censura en el libro registrado.
11:11
ELAELA: So culturomicsculturomics
270
656000
2000
ELA: «Culturomía»,
11:13
is what we call this methodmétodo.
271
658000
2000
así denominamos al método.
11:15
It's kindtipo of like genomicsgenómica.
272
660000
2000
Es una especie de genómica,
11:17
ExceptExcepto genomicsgenómica is a lenslente on biologybiología
273
662000
2000
salvo que la genómica hace foco en la biología
11:19
throughmediante the windowventana of the sequencesecuencia of basesbases in the humanhumano genomegenoma.
274
664000
3000
mediante la ventana de la secuencia de bases del genoma humano.
11:22
CulturomicsCulturomics is similarsimilar.
275
667000
2000
La «culturomía» es similar.
11:24
It's the applicationsolicitud of massive-scaleescala masiva datadatos collectioncolección analysisanálisis
276
669000
3000
Es la aplicación del análisis de grandes volúmenes de datos
11:27
to the studyestudiar of humanhumano culturecultura.
277
672000
2000
al estudio de la cultura humana.
11:29
Here, insteaden lugar of throughmediante the lenslente of a genomegenoma,
278
674000
2000
Aquí, en vez de mirar bajo la lente del genoma,
11:31
throughmediante the lenslente of digitizeddigitalizado piecespiezas of the historicalhistórico recordgrabar.
279
676000
3000
lo hacemos mediante la digitalización de registros históricos.
11:34
The great thing about culturomicsculturomics
280
679000
2000
Lo genial de la «culturomía»
11:36
is that everyonetodo el mundo can do it.
281
681000
2000
es que todos podemos practicarla.
11:38
Why can everyonetodo el mundo do it?
282
683000
2000
¿Por qué podemos todos?
11:40
EveryoneTodo el mundo can do it because threeTres guys,
283
685000
2000
Todo el mundo puede hacerlo porque tres muchachos
11:42
JonJon OrwantOrwant, MattMate Graygris and Will BrockmanBrockman over at GoogleGoogle,
284
687000
3000
Jon Orwant, Matt Gray y Will Brockman en Google,
11:45
saw the prototypeprototipo of the NgramNgram ViewerEspectador,
285
690000
2000
vieron el prototipo del visor de n-gramas
11:47
and they said, "This is so fundivertido.
286
692000
2000
y dijeron: "Es algo muy divertido.
11:49
We have to make this availabledisponible for people."
287
694000
3000
Tenemos que dejarlo disponible para la gente".
11:52
So in two weekssemanas flatplano -- the two weekssemanas before our paperpapel camevino out --
288
697000
2000
Así que en dos semanas -dos semanas antes de que salga nuestro artículo-
11:54
they codedcodificado up a versionversión of the NgramNgram ViewerEspectador for the generalgeneral publicpúblico.
289
699000
3000
programaron una versión del visor de n-gramas para el público en general.
11:57
And so you too can typetipo in any wordpalabra or phrasefrase that you're interestedinteresado in
290
702000
3000
De ese modo, Uds también pueden escribir la palabra o frase que les interese
12:00
and see its n-gramn-gram immediatelyinmediatamente --
291
705000
2000
y ver su n-grama de inmediato;
12:02
alsoademás browsevistazo examplesejemplos of all the variousvarios bookslibros
292
707000
2000
también explorar ejemplos de los distintos libros
12:04
in whichcual your n-gramn-gram appearsaparece.
293
709000
2000
en los que aparece el n-grama.
12:06
JMJM: Now this was used over a millionmillón timesveces on the first day,
294
711000
2000
JM: El primer día lo usaron más de un millón de veces
12:08
and this is really the bestmejor of all the queriesconsultas.
295
713000
2000
y esta es realmente la mejor de todas las consultas.
12:10
So people want to be theirsu bestmejor, put theirsu bestmejor footpie forwardadelante.
296
715000
3000
La gente quiere dar lo mejor de sí, en inglés se dice 'best'.
12:13
But it turnsvueltas out in the 18thth centurysiglo, people didn't really carecuidado about that at all.
297
718000
3000
Pero resulta que en el siglo XVIII esto no importaba para nada.
12:16
They didn't want to be theirsu bestmejor, they wanted to be theirsu beftBeft.
298
721000
3000
En inglés, no decían "dar lo mejor de sí" usando 'best' sino 'beft'.
12:19
So what happenedsucedió is, of coursecurso, this is just a mistakeError.
299
724000
3000
Por supuesto, se debe a un error.
12:22
It's not that stroveesforzarse for mediocritymediocridad,
300
727000
2000
No es que se esforzaran en ser mediocres,
12:24
it's just that the S used to be writtenescrito differentlydiferentemente, kindtipo of like an F.
301
729000
3000
sino que la S se solía escribir como una F.
12:27
Now of coursecurso, GoogleGoogle didn't pickrecoger this up at the time,
302
732000
3000
Pero claro, Google no advirtió esto en ese momento
12:30
so we reportedreportado this in the scienceciencia articleartículo that we wroteescribió.
303
735000
3000
por eso lo informamos en el artículo científico que escribimos.
12:33
But it turnsvueltas out this is just a reminderrecordatorio
304
738000
2000
Pero resulta que esto nos recuerda
12:35
that, althougha pesar de que this is a lot of fundivertido,
305
740000
2000
que, aunque es muy divertido,
12:37
when you interpretinterpretar these graphsgráficos, you have to be very carefulcuidadoso,
306
742000
2000
al interpretar estos gráficos hay que tener mucho cuidado
12:39
and you have to adoptadoptar the basebase standardsestándares in the sciencesciencias.
307
744000
3000
y adoptar las normas básicas de la ciencia.
12:42
ELAELA: People have been usingutilizando this for all kindsclases of fundivertido purposespropósitos.
308
747000
3000
ELA: La gente ha estado usando esto para todo tipo de cosas.
12:45
(LaughterRisa)
309
750000
7000
(Risas)
12:52
ActuallyActualmente, we're not going to have to talk,
310
757000
2000
En realidad no vamos a hablar
12:54
we're just going to showespectáculo you all the slidesdiapositivas and remainpermanecer silentsilencio.
311
759000
3000
sino a mostrarles diapositivas y quedarnos en silencio.
12:57
This personpersona was interestedinteresado in the historyhistoria of frustrationfrustración.
312
762000
3000
Esta persona estaba interesada en la historia de la frustración.
13:00
There's variousvarios typestipos of frustrationfrustración.
313
765000
3000
Hay varios tipos de frustración.
13:03
If you stubtalón your toededo del pie, that's a one A "arghargh."
314
768000
3000
Si nos damos con el pie en algo, es con 1A: "Ay".
13:06
If the planetplaneta EarthTierra is annihilatedaniquilado by the VogonsVogons
315
771000
2000
Si la Tierra es aniquilada por la Vogons
13:08
to make roomhabitación for an interstellarinterestelar bypassderivación,
316
773000
2000
para hacer espacio para una autopista interestelar
13:10
that's an eightocho A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
eso es con 8A: "Aaaaaaaay".
13:12
This personpersona studiesestudios all the "arghsarghs,"
318
777000
2000
Esta persona estudia todos los "Ay"
13:14
from one throughmediante eightocho A'sComo.
319
779000
2000
que tienen de 1 a 8 aes.
13:16
And it turnsvueltas out
320
781000
2000
Y resulta que
13:18
that the less-frequentmenos frecuente "arghsarghs"
321
783000
2000
los "ay" menos frecuentes
13:20
are, of coursecurso, the onesunos that correspondcorresponder to things that are more frustratingfrustrante --
322
785000
3000
son, por supuesto, los correspondientes a las cosas más frustrantes
13:23
exceptexcepto, oddlyextrañamente, in the earlytemprano 80s.
323
788000
3000
salvo, curiosamente, en los años 80.
13:26
We think that mightpodría have something to do with ReaganReagan.
324
791000
2000
Pensamos que podría tener algo que ver con Reagan.
13:28
(LaughterRisa)
325
793000
2000
(Risas)
13:30
JMJM: There are manymuchos usagesusos of this datadatos,
326
795000
3000
JM: Hay muchos usos para estos datos
13:33
but the bottomfondo linelínea is that the historicalhistórico recordgrabar is beingsiendo digitizeddigitalizado.
327
798000
3000
pero la conclusión es que el registro histórico se está digitalizando.
13:36
GoogleGoogle has startedempezado to digitizedigitalizar 15 millionmillón bookslibros.
328
801000
2000
Google ha empezado a digitalizar 15 millones de libros.
13:38
That's 12 percentpor ciento of all the bookslibros that have ever been publishedpublicado.
329
803000
2000
Eso representa el 12% de todos los libros publicados en la historia.
13:40
It's a sizableconsiderable chunkpedazo of humanhumano culturecultura.
330
805000
3000
Es un fragmento considerable de la cultura humana.
13:43
There's much more in culturecultura: there's manuscriptsmanuscritos, there newspapersperiódicos,
331
808000
3000
La cultura tiene más cosas: hay manuscritos, hay periódicos,
13:46
there's things that are not texttexto, like artart and paintingspinturas.
332
811000
2000
hay cosas que no tienen texto, como el arte y las pinturas.
13:48
These all happenocurrir to be on our computersordenadores,
333
813000
2000
Todo está en nuestras computadoras,
13:50
on computersordenadores acrossa través de the worldmundo.
334
815000
2000
en las computadores del mundo.
13:52
And when that happenssucede, that will transformtransformar the way we have
335
817000
3000
Y cuando eso suceda va a transformar nuestra manera
13:55
to understandentender our pastpasado, our presentpresente and humanhumano culturecultura.
336
820000
2000
de entender nuestro pasado, nuestro presente y la cultura humana.
13:57
Thank you very much.
337
822000
2000
Muchas gracias.
13:59
(ApplauseAplausos)
338
824000
3000
(Aplausos)
Translated by Sebastian Betti
Reviewed by Mariela Rodio

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com