ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Vad vi lärde oss från 5 miljoner böcker

Filmed:
2,049,453 views

Har du lekt med Google Labs Ngram Viewer? Det är ett beroendeframkallande verktyg som låter dig leta efter ord och idéer i en databas av fem miljoner böcker från flera århundraden. Erez Lieberman Aiden och Jean-Baptiste Michel visar oss hur det fungerar, och några av de överraskande saker vi kan lära oss från 500 miljarder ord.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezErez LiebermanLieberman AidenAiden: EveryoneAlla knowsvet
0
0
2000
Erez Lieberman Aiden: Alla vet
00:17
that a picturebild is worthvärde a thousandtusen wordsord.
1
2000
3000
att en bild säger mer än tusen ord.
00:22
But we at HarvardHarvard
2
7000
2000
Men vi på Harvard
00:24
were wonderingundrar if this was really truesann.
3
9000
3000
funderade på om detta verkligen var sant.
00:27
(LaughterSkratt)
4
12000
2000
(Skratt)
00:29
So we assembledsammansatta a teamteam of expertsexperter,
5
14000
4000
Så vi satte ihop ett expertteam,
00:33
spanningspänner HarvardHarvard, MITMIT,
6
18000
2000
från Harvard, MIT,
00:35
The AmericanAmerikansk HeritageHeritage DictionaryOrdlista, The EncyclopediaUppslagsverk BritannicaBritannica
7
20000
3000
The American Heritage Dictionary, Encyclopedia Britannica,
00:38
and even our proudstolt sponsorssponsorer,
8
23000
2000
och även vår stolta sponsor
00:40
the GoogleGoogle.
9
25000
3000
Google.
00:43
And we cogitatedcogitated about this
10
28000
2000
Så vi grubblade på detta
00:45
for about fourfyra yearsår.
11
30000
2000
i ungefär fyra år.
00:47
And we camekom to a startlinghäpnadsväckande conclusionslutsats.
12
32000
5000
Och kom fram till en uppseendeväckande slutsats.
00:52
LadiesDamer and gentlemenHerrar, a picturebild is not worthvärde a thousandtusen wordsord.
13
37000
3000
Mina damer och herrar, en bild säger inte mer än tusen ord.
00:55
In factfaktum, we foundhittades some picturesbilder
14
40000
2000
Vi hittade faktiskt en del bilder
00:57
that are worthvärde 500 billionmiljard wordsord.
15
42000
5000
som säger mer än 500 miljarder ord.
01:02
Jean-BaptisteJean-Baptiste MichelMichel: So how did we get to this conclusionslutsats?
16
47000
2000
Jean-Baptiste Michel: Så hur kom vi fram till den slutsatsen?
01:04
So ErezErez and I were thinkingtänkande about wayssätt
17
49000
2000
Erez och jag funderade på hur
01:06
to get a bigstor picturebild of humanmänsklig culturekultur
18
51000
2000
vi skulle få en överblick över människans kultur
01:08
and humanmänsklig historyhistoria: changeByta over time.
19
53000
3000
och historia; förändringar över tiden.
01:11
So manymånga booksböcker actuallyfaktiskt have been writtenskriven over the yearsår.
20
56000
2000
Så många böcker har ju faktiskt skrivits under åren.
01:13
So we were thinkingtänkande, well the bestbäst way to learnlära sig from them
21
58000
2000
Så vi tänkte att det bästa sättet att lära sig från dem
01:15
is to readläsa all of these millionsmiljoner of booksböcker.
22
60000
2000
är att läsa alla dessa miljontals böcker.
01:17
Now of coursekurs, if there's a scaleskala for how awesomegrymt bra that is,
23
62000
3000
Och såklart, finns det en skala för hur häftigt det är,
01:20
that has to rankRank extremelyytterst, extremelyytterst highhög.
24
65000
3000
så måste det rankas extremt, extremt högt.
01:23
Now the problemproblem is there's an X-axisX-axeln for that,
25
68000
2000
Problemet är att det finns en X-axel för det,
01:25
whichsom is the practicalpraktisk axisaxel.
26
70000
2000
vilket är den praktiska axeln.
01:27
This is very, very lowlåg.
27
72000
2000
Den är väldigt, väldigt låg.
01:29
(ApplauseApplåder)
28
74000
3000
(Applåder)
01:32
Now people tendtendera to use an alternativealternativ approachnärma sig,
29
77000
3000
Folk tenderar att använda en alternativ approach,
01:35
whichsom is to take a few sourceskällor and readläsa them very carefullyförsiktigt.
30
80000
2000
att ta ett fåtal källor och läsa dem väldigt noga.
01:37
This is extremelyytterst practicalpraktisk, but not so awesomegrymt bra.
31
82000
2000
Det är extremt praktiskt, men inte särskilt häftigt.
01:39
What you really want to do
32
84000
3000
Det man verkligen vill göra
01:42
is to get to the awesomegrymt bra yetän practicalpraktisk partdel of this spacerymden.
33
87000
3000
är att nå den häftiga men ändå praktiska delen av det här utrymmet.
01:45
So it turnsvarv out there was a companyföretag acrosstvärs över the riverflod calledkallad GoogleGoogle
34
90000
3000
Och så visade det sig att det fanns ett företag på andra sidan floden; Google,
01:48
who had startedsatte igång a digitizationdigitalisering projectprojekt a few yearsår back
35
93000
2000
som hade börjat ett digitaliseringsprojekt några år tidigare
01:50
that mightmakt just enableGör det möjligt this approachnärma sig.
36
95000
2000
som kanske skulle fixa den approachen.
01:52
They have digitizeddigitaliserade millionsmiljoner of booksböcker.
37
97000
2000
De har digitaliserat miljontals böcker.
01:54
So what that meansbetyder is, one could use computationalberäknings methodsmetoder
38
99000
3000
Vilket innebär att man med hjälp av datorberäkningar
01:57
to readläsa all of the booksböcker in a clickklick of a buttonknapp.
39
102000
2000
skulle kunna läsa alla böcker med ett knapptryck.
01:59
That's very practicalpraktisk and extremelyytterst awesomegrymt bra.
40
104000
3000
Det är väldigt praktiskt och extremt häftigt.
02:03
ELAELA: Let me tell you a little bitbit about where booksböcker come from.
41
108000
2000
ELA: Låt mig berätta lite om var böckerna kommer från.
02:05
SinceSedan time immemorialurminnes, there have been authorsförfattarna.
42
110000
3000
Sedan urminnes tider har det funnits författare.
02:08
These authorsförfattarna have been strivingsträvan to writeskriva booksböcker.
43
113000
3000
Dessa författare har strävat efter att skriva böcker.
02:11
And this becameblev considerablybetydligt easierlättare
44
116000
2000
Och detta blev betydligt enklare
02:13
with the developmentutveckling of the printingutskrift pressTryck some centuriesårhundraden agosedan.
45
118000
2000
när tryckpressen uppfanns för några hundra år sedan.
02:15
SinceSedan then, the authorsförfattarna have wonvann
46
120000
3000
Sedan dess har författarna fått,
02:18
on 129 millionmiljon distinctdistinkt occasionstillfällen,
47
123000
2000
vid 129 miljoner tillfällen,
02:20
publishingpublicering booksböcker.
48
125000
2000
böcker publicerade.
02:22
Now if those booksböcker are not lostförlorat to historyhistoria,
49
127000
2000
Om de böckerna inte är förlorade i historien,
02:24
then they are somewherenågonstans in a librarybibliotek,
50
129000
2000
så finns de någonstans i ett bibliotek,
02:26
and manymånga of those booksböcker have been getting retrievedHämtad from the librariesbibliotek
51
131000
3000
och många av de böckerna har tagits upp från biblioteken
02:29
and digitizeddigitaliserade by GoogleGoogle,
52
134000
2000
och digitaliserats av Google,
02:31
whichsom has scannedskannade 15 millionmiljon booksböcker to datedatum.
53
136000
2000
som till dags dato har scannat 15 miljoner böcker.
02:33
Now when GoogleGoogle digitizesdigitaliserar a bookbok, they put it into a really nicetrevlig formatformatera.
54
138000
3000
När Google digitaliserar en bok, gör de den i ett mycket trevligt format.
02:36
Now we'vevi har got the datadata, plusplus we have metadatametadata.
55
141000
2000
Så vi har data, och vi har dessutom metadata.
02:38
We have informationinformation about things like where was it publishedpublicerat,
56
143000
3000
Vi har information om saker som var den gavs ut,
02:41
who was the authorförfattare, when was it publishedpublicerat.
57
146000
2000
vem författaren var, när den gavs ut
02:43
And what we do is go throughgenom all of those recordsuppgifter
58
148000
3000
Det vi gör är att gå genom alla inmatningar
02:46
and excludeutesluta everything that's not the highesthögsta qualitykvalitet datadata.
59
151000
4000
och tar bort allt som inte är data av högsta kvalitet.
02:50
What we're left with
60
155000
2000
Det vi har kvar
02:52
is a collectionsamling of fivefem millionmiljon booksböcker,
61
157000
3000
är en samling av fem miljoner böcker,
02:55
500 billionmiljard wordsord,
62
160000
3000
500 miljarder ord,
02:58
a stringsträng of characterstecken a thousandtusen timesgånger longerlängre
63
163000
2000
en teckensträng tusen gånger längre
03:00
than the humanmänsklig genomegenomet --
64
165000
3000
än det mänskliga genomet --
03:03
a texttext whichsom, when writtenskriven out,
65
168000
2000
en text som, om den skrevs ut,
03:05
would stretchsträcka from here to the MoonMånen and back
66
170000
2000
skulle sträcka sig härifrån till månen och tillbaka
03:07
10 timesgånger over --
67
172000
2000
10 gånger om --
03:09
a veritableveritabel shardskärvan of our culturalkulturell genomegenomet.
68
174000
4000
en skärva av vårt kulturella genom.
03:13
Of coursekurs what we did
69
178000
2000
Det vi förstås gjorde
03:15
when facedinför with suchsådan outrageousskandalös hyperboleöverdrift ...
70
180000
3000
när vi stod inför sådana enorma överdrifter...
03:18
(LaughterSkratt)
71
183000
2000
(Skratt)
03:20
was what any self-respectingsjälvrespekt researchersforskare
72
185000
3000
var vad alla forskare med självrespekt
03:23
would have doneGjort.
73
188000
3000
skulle ha gjort.
03:26
We tooktog a pagesida out of XKCDXKCD,
74
191000
2000
Vi tog en sida från XKCD
03:28
and we said, "StandUtmärker back.
75
193000
2000
och sa "Backa,
03:30
We're going to try sciencevetenskap."
76
195000
2000
vi ska testa vetenskap".
03:32
(LaughterSkratt)
77
197000
2000
(Skratt)
03:34
JMJM: Now of coursekurs, we were thinkingtänkande,
78
199000
2000
JM: Vi tänkte förstås
03:36
well let's just first put the datadata out there
79
201000
2000
att vi först skulle lägga ut data
03:38
for people to do sciencevetenskap to it.
80
203000
2000
så att folk skulle kunna göra vetenskap av det.
03:40
Now we're thinkingtänkande, what datadata can we releasesläpp?
81
205000
2000
Och så tänker vi, vilket data kan vi släppa?
03:42
Well of coursekurs, you want to take the booksböcker
82
207000
2000
Man vill ju förstås ta böckerna
03:44
and releasesläpp the fullfull texttext of these fivefem millionmiljon booksböcker.
83
209000
2000
och släppa den fulla texten från dessa fem miljoner böcker.
03:46
Now GoogleGoogle, and JonJon OrwantOrwant in particularsärskild,
84
211000
2000
Google, och Jon Orwant i synnerhet,
03:48
told us a little equationekvation that we should learnlära sig.
85
213000
2000
visade oss en liten ekvation som vi skulle lära oss.
03:50
So you have fivefem millionmiljon, that is, fivefem millionmiljon authorsförfattarna
86
215000
3000
Man har alltså fem miljoner, fem miljoner författare
03:53
and fivefem millionmiljon plaintiffskärande is a massivemassiv lawsuiträttegång.
87
218000
3000
och fem miljoner målsägande i en enorm rättsprocess.
03:56
So, althoughfastän that would be really, really awesomegrymt bra,
88
221000
2000
Så även om det vore riktigt, riktigt häftigt,
03:58
again, that's extremelyytterst, extremelyytterst impracticalopraktisk.
89
223000
3000
så vore det extremt opraktiskt.
04:01
(LaughterSkratt)
90
226000
2000
(Skratt)
04:03
Now again, we kindsnäll of cavedgivit vika in,
91
228000
2000
Så vi gav oss,
04:05
and we did the very practicalpraktisk approachnärma sig, whichsom was a bitbit lessmindre awesomegrymt bra.
92
230000
3000
och tog den väldigt praktiska vägen, som var lite mindre häftig.
04:08
We said, well insteadistället of releasingsläppa the fullfull texttext,
93
233000
2000
Vi sa att okej, istället för att släppa den fulla texten
04:10
we're going to releasesläpp statisticsstatistik about the booksböcker.
94
235000
2000
så skulle vi släppa statistik om böckerna.
04:12
So take for instanceexempel "A gleamglimma of happinesslycka."
95
237000
2000
Ta till exempel "En glimt av lycka"
04:14
It's fourfyra wordsord; we call that a four-gramfyra-gram.
96
239000
2000
Det är fyra ord; vi kallar det ett fyrgram.
04:16
We're going to tell you how manymånga timesgånger a particularsärskild four-gramfyra-gram
97
241000
2000
Vi ska tala om hur många gånger ett visst fyrgram
04:18
appeareddök upp in booksböcker in 1801, 1802, 1803,
98
243000
2000
dök upp i böcker under 1801, 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
och hela vägen till 2008.
04:22
That givesger us a time seriesserier
100
247000
2000
Det ger oss en tidsserie
04:24
of how frequentlyofta this particularsärskild sentencemeningen was used over time.
101
249000
2000
på hur frekvent den specifika meningen användes över tiden.
04:26
We do that for all the wordsord and phrasesFraser that appeardyka upp in those booksböcker,
102
251000
3000
Vi gör detta för alla ord och fraser som finns i dessa böcker,
04:29
and that givesger us a bigstor tabletabell of two billionmiljard linesrader
103
254000
3000
vilket ger oss en tabell med två miljarder rader
04:32
that tell us about the way culturekultur has been changingskiftande.
104
257000
2000
som berättar för oss om hur kulturen har förändrats.
04:34
ELAELA: So those two billionmiljard linesrader,
105
259000
2000
ELA: De två miljarder raderna,
04:36
we call them two billionmiljard n-gramsn-gram.
106
261000
2000
vi kallar dem två miljarder n-gram.
04:38
What do they tell us?
107
263000
2000
Vad säger de oss?
04:40
Well the individualenskild n-gramsn-gram measuremäta culturalkulturell trendstrender.
108
265000
2000
De individuella n-grammen mäter kulturella trender.
04:42
Let me give you an exampleexempel.
109
267000
2000
Låt mig ge ett exempel.
04:44
Let's supposeanta that I am thrivingblomstrande,
110
269000
2000
Låt oss säga att jag lyckas väl (I am thriving),
04:46
then tomorrowi morgon I want to tell you about how well I did.
111
271000
2000
och i morgon vill jag säga hur bra det gått för mig.
04:48
And so I mightmakt say, "YesterdayIgår, I throvepräktigaste."
112
273000
3000
Då kanske jag säger "Yesterday, I throve"
04:51
AlternativelyAlternativt, I could say, "YesterdayIgår, I thrivedfrodades."
113
276000
3000
Eller så skulle jag kunna säga "Yesterday, I thrived"
04:54
Well whichsom one should I use?
114
279000
3000
Så vilken form ska jag använda?
04:57
How to know?
115
282000
2000
Hur ska jag veta?
04:59
As of about sixsex monthsmånader agosedan,
116
284000
2000
För ungefär sex månader sedan,
05:01
the statestat of the artkonst in this fieldfält
117
286000
2000
var läget på det här området så
05:03
is that you would, for instanceexempel,
118
288000
2000
att du, som exempel,
05:05
go up to the followingföljande psychologistpsykolog with fabulousfantastisk hairhår,
119
290000
2000
skulle gå fram till den där psykologen med det fantastiska håret,
05:07
and you'ddu skulle say,
120
292000
2000
och säga
05:09
"SteveSteve, you're an expertexpert- on the irregularoregelbunden verbsverb.
121
294000
3000
"Steve, du är ju expert på oregelbundna verb.
05:12
What should I do?"
122
297000
2000
Vad ska jag göra?"
05:14
And he'dhan hade tell you, "Well mostmest people say thrivedfrodades,
123
299000
2000
Och han skulle säga "Ja, de flesta säger thrived,
05:16
but some people say throvepräktigaste."
124
301000
3000
men en del säger throve".
05:19
And you alsoockså knewvisste, more or lessmindre,
125
304000
2000
Du vet också, mer eller mindre,
05:21
that if you were to go back in time 200 yearsår
126
306000
3000
att om du skulle gå 200 år bakåt i tiden
05:24
and askfråga the followingföljande statesmanstatsman with equallylika fabulousfantastisk hairhår,
127
309000
3000
och fråga den här statsmannen med lika fantastiskt hår,
05:27
(LaughterSkratt)
128
312000
3000
(Skratt)
05:30
"TomTom, what should I say?"
129
315000
2000
"Tom, vad ska jag säga?"
05:32
He'dHan skulle say, "Well, in my day, mostmest people throvepräktigaste,
130
317000
2000
Så skulle han svara "På min tid sa de flesta throve,
05:34
but some thrivedfrodades."
131
319000
3000
men en del sa thrived"
05:37
So now what I'm just going to showshow you is raw datadata.
132
322000
2000
Så det jag nu ska visa är rådata.
05:39
Two rowsrader from this tabletabell of two billionmiljard entriesanteckningar.
133
324000
4000
Två rader från den här tabellen med två miljarder poster.
05:43
What you're seeingseende is yearår by yearår frequencyfrekvens
134
328000
2000
Det ni ser är frekvensen år för år
05:45
of "thrivedfrodades" and "throvepräktigaste" over time.
135
330000
3000
för "thrived" och "throve" över tiden.
05:49
Now this is just two
136
334000
2000
Detta är bara två
05:51
out of two billionmiljard rowsrader.
137
336000
3000
av två miljarder rader.
05:54
So the entirehel datadata setuppsättning
138
339000
2000
Så hela datasetet
05:56
is a billionmiljard timesgånger more awesomegrymt bra than this slideglida.
139
341000
3000
är en miljard gånger häftigare än den här bilden.
05:59
(LaughterSkratt)
140
344000
2000
(Skratt)
06:01
(ApplauseApplåder)
141
346000
4000
(Applåder)
06:05
JMJM: Now there are manymånga other picturesbilder that are worthvärde 500 billionmiljard wordsord.
142
350000
2000
JM: Det finns många andra bilder som säger mer än 500 miljarder ord.
06:07
For instanceexempel, this one.
143
352000
2000
Till exempel den här.
06:09
If you just take influenzainfluensa,
144
354000
2000
Om man tar influensa
06:11
you will see peakstoppar at the time where you knewvisste
145
356000
2000
så ser man toppar vid de tider då man vet
06:13
bigstor fluinfluensa epidemicsepidemier were killingdödande people around the globeklot.
146
358000
3000
att influensaepidemier dödade folk runtom i världen.
06:16
ELAELA: If you were not yetän convincedövertygad,
147
361000
3000
ELA: Om du inte är övertygad än,
06:19
seahav levelsnivåer are risingstigande,
148
364000
2000
havsnivåerna stiger,
06:21
so is atmosphericatmosfärisk COCO2 and globalglobal temperaturetemperatur.
149
366000
3000
likaså koldioxidhalten i atmosfären och den globala temperaturen.
06:24
JMJM: You mightmakt alsoockså want to have a look at this particularsärskild n-gramn-gram,
150
369000
3000
JM: Du vill kanske också ta en titt på det här specifika n-grammet,
06:27
and that's to tell NietzscheNietzsche that God is not deaddöd,
151
372000
3000
för att tala om för Nietzsche att Gud inte är död,
06:30
althoughfastän you mightmakt agreehålla med that he mightmakt need a better publicistInformatör.
152
375000
3000
även om du håller med om att han behöver en bättre publicist.
06:33
(LaughterSkratt)
153
378000
2000
(Skratt)
06:35
ELAELA: You can get at some prettySöt abstractabstrakt conceptsbegrepp with this sortsortera of thing.
154
380000
3000
ELA: Man kan komma åt ganska abstrakta koncept på det här viset.
06:38
For instanceexempel, let me tell you the historyhistoria
155
383000
2000
Låt mig berätta en historia
06:40
of the yearår 1950.
156
385000
2000
om året 1950.
06:42
PrettySöt much for the vastomfattande majoritymajoritet of historyhistoria,
157
387000
2000
Under större delen av historien
06:44
no one gavegav a damnattans about 1950.
158
389000
2000
brydde sig ingen om 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
År 1700, 1800, 1900,
06:48
no one caredomhändertagna.
160
393000
3000
brydde sig ingen.
06:52
ThroughGenom the 30s and 40s,
161
397000
2000
Under 30- och 40-talen
06:54
no one caredomhändertagna.
162
399000
2000
brydde sig ingen.
06:56
SuddenlyPlötsligt, in the mid-mitten-40s,
163
401000
2000
Men plötsligt, i mitten av 40-talet,
06:58
there startedsatte igång to be a buzzBuzz.
164
403000
2000
började det snackas.
07:00
People realizedinsåg that 1950 was going to happenhända,
165
405000
2000
Folk insåg att 1950 skulle hända,
07:02
and it could be bigstor.
166
407000
2000
och att det kunde bli stort.
07:04
(LaughterSkratt)
167
409000
3000
(Skratt)
07:07
But nothing got people interestedintresserad in 1950
168
412000
3000
Men inget fick folk så intresserade av 1950
07:10
like the yearår 1950.
169
415000
3000
som 1950 själv.
07:13
(LaughterSkratt)
170
418000
3000
(Skratt)
07:16
People were walkinggående around obsessedbesatt.
171
421000
2000
Folk gick omkring som besatta.
07:18
They couldn'tkunde inte stop talkingtalande
172
423000
2000
De kunde inte sluta prata
07:20
about all the things they did in 1950,
173
425000
3000
om allt de gjorde 1950,
07:23
all the things they were planningplanera to do in 1950,
174
428000
3000
allt de planerade att göra 1950
07:26
all the dreamsdrömmar of what they wanted to accomplishutföra in 1950.
175
431000
5000
alla drömmar de ville förverkliga under 1950.
07:31
In factfaktum, 1950 was so fascinatingfascinerande
176
436000
2000
Faktum är att 1950 var så fascinerande
07:33
that for yearsår thereafterdärefter,
177
438000
2000
att under flera år efteråt
07:35
people just kepthålls talkingtalande about all the amazingfantastiskt things that happenedhände,
178
440000
3000
fortsatte folk prata om alla fantastiska saker som hände,
07:38
in '51, '52, '53.
179
443000
2000
-51, -52, -53.
07:40
FinallySlutligen in 1954,
180
445000
2000
Till slut, 1954,
07:42
someonenågon wokevaknade up and realizedinsåg
181
447000
2000
vaknade någon upp och insåg
07:44
that 1950 had gottenfått somewhatnågot passpasseraé.
182
449000
4000
att 1950 nu var ganska passé.
07:48
(LaughterSkratt)
183
453000
2000
(Skratt)
07:50
And just like that, the bubblebubbla burstbrista.
184
455000
2000
Och vips så sprack bubblan.
07:52
(LaughterSkratt)
185
457000
2000
(Skratt)
07:54
And the storyberättelse of 1950
186
459000
2000
Och historien om 1950
07:56
is the storyberättelse of everyvarje yearår that we have on recordspela in,
187
461000
2000
är historien om vartenda år som vi har dokumentation om,
07:58
with a little twisttwist, because now we'vevi har got these nicetrevlig chartsdiagram.
188
463000
3000
med en twist, för nu har vi ju de här fina diagrammen.
08:01
And because we have these nicetrevlig chartsdiagram, we can measuremäta things.
189
466000
3000
Och eftersom vi har de fina diagrammen, kan vi mäta saker.
08:04
We can say, "Well how fastsnabb does the bubblebubbla burstbrista?"
190
469000
2000
Vi kan säga "Hur fort spricker bubblan?"
08:06
And it turnsvarv out that we can measuremäta that very preciselyexakt.
191
471000
3000
Och det visar sig att vi kan mäta det väldigt exakt.
08:09
EquationsEkvationer were derivedhärledd, graphsgrafer were producedproduceras,
192
474000
3000
Så ekvationer skapades, diagram producerades,
08:12
and the netnetto resultresultat
193
477000
2000
och nettoresultatet
08:14
is that we find that the bubblebubbla burstsskurar fastersnabbare and fastersnabbare
194
479000
3000
är att vi ser att bubblan spricker fortare och fortare
08:17
with eachvarje passinggodkänd yearår.
195
482000
2000
för varje år som går.
08:19
We are losingförlorande interestintressera in the pastdåtid more rapidlysnabbt.
196
484000
5000
Vi tappar intresset för det förgångna allt snabbare.
08:24
JMJM: Now a little piecebit of careerkarriär adviceråd.
197
489000
2000
JM: Nu lite karriärrådgivning.
08:26
So for those of you who seeksöka to be famouskänd,
198
491000
2000
För er som vill bli berömda,
08:28
we can learnlära sig from the 25 mostmest famouskänd politicalpolitisk figuressiffror,
199
493000
2000
vi kan lära från de 25 mest berömda politiska figurerna,
08:30
authorsförfattarna, actorsaktörer and so on.
200
495000
2000
författare, skådespelare och så vidare.
08:32
So if you want to becomebli famouskänd earlytidigt on, you should be an actorskådespelare,
201
497000
3000
Vill du bli berömd tidigt så ska du bli skådespelare,
08:35
because then fameberömmelse startsbörjar risingstigande by the endslutet of your 20s --
202
500000
2000
för då börjar berömmelsen stiga i slutet av 20-årsåldern --
08:37
you're still youngung, it's really great.
203
502000
2000
du är fortfarande ung, det är riktigt bra.
08:39
Now if you can wait a little bitbit, you should be an authorförfattare,
204
504000
2000
Om du kan vänta lite så ska du hellre bli författare,
08:41
because then you risestiga to very great heightshöjder,
205
506000
2000
för då kan du stiga till enorma höjder,
08:43
like MarkMark TwainTWAIN, for instanceexempel: extremelyytterst famouskänd.
206
508000
2000
som t.ex. Mark Twain, och bli extremt berömd.
08:45
But if you want to reach the very toptopp,
207
510000
2000
Men om du vill nå den yttersta toppen
08:47
you should delaydröjsmål gratificationtillfredsställelse
208
512000
2000
bör du senarelägga njutningen av berömmelse
08:49
and, of coursekurs, becomebli a politicianpolitiker.
209
514000
2000
och förstås bli politiker.
08:51
So here you will becomebli famouskänd by the endslutet of your 50s,
210
516000
2000
För då blir du berömd i slutet av 50-årsåldern,
08:53
and becomebli very, very famouskänd afterwardefteråt.
211
518000
2000
och väldigt väldigt berömd efteråt.
08:55
So scientistsvetenskapsmän alsoockså tendtendera to get famouskänd when they're much olderäldre.
212
520000
3000
Vetenskapsmän tenderar att bli berömda när de är mycket äldre.
08:58
Like for instanceexempel, biologistsbiologer and physicsfysik
213
523000
2000
Biologer och fysiker
09:00
tendtendera to be almostnästan as famouskänd as actorsaktörer.
214
525000
2000
tenderar att bli nästan lika berömda som skådespelare.
09:02
One mistakemisstag you should not do is becomebli a mathematicianmatematiker.
215
527000
3000
Ett misstag du inte bör göra är att bli matematiker.
09:05
(LaughterSkratt)
216
530000
2000
(Skratt)
09:07
If you do that,
217
532000
2000
Blir du det
09:09
you mightmakt think, "Oh great. I'm going to do my bestbäst work when I'm in my 20s."
218
534000
3000
kan du tänka "Bra, jag kommer göra mitt bästa jobb i 20-årsåldern".
09:12
But guessgissa what, nobodyingen will really carevård.
219
537000
2000
Men vet du vad? Ingen kommer att bry sig.
09:14
(LaughterSkratt)
220
539000
3000
(Skratt)
09:17
ELAELA: There are more soberingnyktra notesanteckningar
221
542000
2000
ELA: Det finns lugnande noter
09:19
amongbland the n-gramsn-gram.
222
544000
2000
bland n-grammen.
09:21
For instanceexempel, here'shär är the trajectorybana of MarcMarc ChagallChagall,
223
546000
2000
Här är till exempel Marc Chagalls bana,
09:23
an artistkonstnär bornfödd in 1887.
224
548000
2000
en konstnär, född 1887.
09:25
And this looksutseende like the normalvanligt trajectorybana of a famouskänd personperson.
225
550000
3000
Det ser ut som en normal bana för en berömd person.
09:28
He getsblir more and more and more famouskänd,
226
553000
4000
Han blir mer och mer berömd,
09:32
exceptbortsett från if you look in GermanTyska.
227
557000
2000
förutom om man tittar på tyska.
09:34
If you look in GermanTyska, you see something completelyfullständigt bizarrebisarra,
228
559000
2000
Om man tittar på tyska så ser man något helt bisarrt,
09:36
something you prettySöt much never see,
229
561000
2000
något man nästan aldrig ser,
09:38
whichsom is he becomesblir extremelyytterst famouskänd
230
563000
2000
och det är att han blir extremt berömd
09:40
and then all of a suddenplötslig plummetsrasar,
231
565000
2000
och plötsligt dyker
09:42
going throughgenom a nadirNadir betweenmellan 1933 and 1945,
232
567000
3000
till en lägsta punkt mellan 1933 och 1945,
09:45
before reboundingstudsade afterwardefteråt.
233
570000
3000
innan han återhämtar sig.
09:48
And of coursekurs, what we're seeingseende
234
573000
2000
Det vi förstås ser här
09:50
is the factfaktum MarcMarc ChagallChagall was a JewishJudiska artistkonstnär
235
575000
3000
är det faktum att Marc Chagall var en judisk konstnär
09:53
in NaziNazistiska GermanyTyskland.
236
578000
2000
i nazi-Tyskland.
09:55
Now these signalssignaler
237
580000
2000
Dessa signaler
09:57
are actuallyfaktiskt so strongstark
238
582000
2000
är så starka
09:59
that we don't need to know that someonenågon was censoredcensurerade.
239
584000
3000
att vi inte behöver veta att någon blev censurerad.
10:02
We can actuallyfaktiskt figurefigur it out
240
587000
2000
Vi kan lista ut det
10:04
usinganvänder sig av really basicgrundläggande signalsignal processingbearbetning.
241
589000
2000
genom att använda grundläggande signalbehandling.
10:06
Here'sHär är a simpleenkel way to do it.
242
591000
2000
Här är ett enkelt sätt att göra det på.
10:08
Well, a reasonablerimlig expectationförväntan
243
593000
2000
Ett rimligt antagande
10:10
is that somebody'snågons fameberömmelse in a givengiven periodperiod of time
244
595000
2000
är att någons berömmelse under en given tidsperiod
10:12
should be roughlyungefär the averagegenomsnitt of theirderas fameberömmelse before
245
597000
2000
borde vara ungefär genomsnittet av deras berömmelse innan
10:14
and theirderas fameberömmelse after.
246
599000
2000
och deras berömmelse efter.
10:16
So that's sortsortera of what we expectförvänta.
247
601000
2000
Det är ungefär det vi väntar oss.
10:18
And we comparejämföra that to the fameberömmelse that we observeiaktta.
248
603000
3000
Så vi jämför det med den berömmelse vi observerar.
10:21
And we just dividedela upp one by the other
249
606000
2000
Och delar den ena med den andra
10:23
to produceproducera something we call a suppressiondämpning indexindex.
250
608000
2000
för att skapa något vi kallar förtryck-index.
10:25
If the suppressiondämpning indexindex is very, very, very smallsmå,
251
610000
3000
Om förtryck-indexet är väldigt, väldigt, väldigt litet
10:28
then you very well mightmakt be beingvarelse suppressedundertryckta.
252
613000
2000
kan det mycket väl vara så att du blir förtryckt.
10:30
If it's very largestor, maybe you're benefitingsom omfattas av from propagandapropaganda.
253
615000
3000
Om det är väldigt stort kanske du drar nytta av propaganda.
10:34
JMJM: Now you can actuallyfaktiskt look at
254
619000
2000
JM: Man kan faktiskt titta på
10:36
the distributiondistribution of suppressiondämpning indexesindex over wholehela populationspopulationer.
255
621000
3000
fördelningen av förtryck-index över hela befolkningar.
10:39
So for instanceexempel, here --
256
624000
2000
Till exempel, här --
10:41
this suppressiondämpning indexindex is for 5,000 people
257
626000
2000
det här indexet är för 5.000 personer
10:43
pickedplockade in EnglishEngelska booksböcker where there's no knownkänd suppressiondämpning --
258
628000
2000
utvalda ur engelska böcker utan känt förtryck --
10:45
it would be like this, basicallyi grund och botten tightlytätt centeredcentrerad on one.
259
630000
2000
det skulle vara så här, hårt centrerat kring en.
10:47
What you expectförvänta is basicallyi grund och botten what you observeiaktta.
260
632000
2000
Det man förväntar sig är i princip det man observerar.
10:49
This is distributiondistribution as seensett in GermanyTyskland --
261
634000
2000
Det här är fördelningen sedd i Tyskland --
10:51
very differentannorlunda, it's shiftedändrad to the left.
262
636000
2000
väldigt annorlunda, förflyttad åt vänster.
10:53
People talkedtalade about it twicedubbelt lessmindre as it should have been.
263
638000
3000
Folk talade om det hälften så lite som de borde ha gjort.
10:56
But much more importantlyviktigt, the distributiondistribution is much widerbredare.
264
641000
2000
Men mycket viktigare, fördelningen är mycket bredare.
10:58
There are manymånga people who endslutet up on the farlångt left on this distributiondistribution
265
643000
3000
Det är många som hamnar långt till vänster i fördelningen
11:01
who are talkedtalade about 10 timesgånger fewerfärre than they should have been.
266
646000
3000
som omtalas 10 gånger mindre än de borde ha omtalats.
11:04
But then alsoockså manymånga people on the farlångt right
267
649000
2000
Men också många långt till höger
11:06
who seemverka to benefitdra nytta from propagandapropaganda.
268
651000
2000
som verkar dra nytta av propaganda.
11:08
This picturebild is the hallmarkHallmark of censorshipcensur in the bookbok recordspela in.
269
653000
3000
Den här bilden är stämpeln för censur i bokregistret.
11:11
ELAELA: So culturomicsculturomics
270
656000
2000
ELA: Så kulturomik
11:13
is what we call this methodmetod.
271
658000
2000
är det vi kallar den här metoden.
11:15
It's kindsnäll of like genomicsgenomik.
272
660000
2000
Det är ungefär som genomik.
11:17
ExceptFörutom genomicsgenomik is a lenslins on biologybiologi
273
662000
2000
Förutom att genomik är en lins mot biologin
11:19
throughgenom the windowfönster of the sequencesekvens of basesbaser in the humanmänsklig genomegenomet.
274
664000
3000
genom fönstret av basernas ordningsföljd i det mänskliga genomet.
11:22
CulturomicsCulturomics is similarliknande.
275
667000
2000
Kulturomik är något liknande.
11:24
It's the applicationAnsökan of massive-scalestorskaliga datadata collectionsamling analysisanalys
276
669000
3000
Användandet av storskalig datainsamling och analys
11:27
to the studystudie of humanmänsklig culturekultur.
277
672000
2000
på studier av människans kultur.
11:29
Here, insteadistället of throughgenom the lenslins of a genomegenomet,
278
674000
2000
Och här, istället för att se det genom ett fönster mot genomet,
11:31
throughgenom the lenslins of digitizeddigitaliserade piecesbitar of the historicalhistorisk recordspela in.
279
676000
3000
genom ett fönster mot digitaliserade bitar av historien.
11:34
The great thing about culturomicsculturomics
280
679000
2000
Det bra med kulturomik
11:36
is that everyonealla can do it.
281
681000
2000
är att alla kan göra det.
11:38
Why can everyonealla do it?
282
683000
2000
Varför kan alla göra det?
11:40
EveryoneAlla can do it because threetre guys,
283
685000
2000
Alla kan göra det för att tre killar,
11:42
JonJon OrwantOrwant, MattMatt GrayGrå and Will BrockmanBrockman over at GoogleGoogle,
284
687000
3000
Jon Orwant, Matt Gray och Will Brockman på Google
11:45
saw the prototypeprototyp of the NgramNgram ViewerViewer,
285
690000
2000
såg prototypen av Ngram Viewer
11:47
and they said, "This is so funroligt.
286
692000
2000
och sa "Det här är så kul.
11:49
We have to make this availabletillgängliga for people."
287
694000
3000
Vi måste göra detta tillgängligt för folk".
11:52
So in two weeksveckor flatplatt -- the two weeksveckor before our paperpapper camekom out --
288
697000
2000
Så på två veckor blankt -- de två veckorna innan vår rapport kom ut --
11:54
they codedkodade up a versionversion of the NgramNgram ViewerViewer for the generalallmän publicoffentlig.
289
699000
3000
kodade de en version av Ngram Viewer för allmänheten.
11:57
And so you too can typetyp in any wordord or phrasefras that you're interestedintresserad in
290
702000
3000
Så du kan också mata ett ord eller en fras du är intresserad av
12:00
and see its n-gramn-gram immediatelyomedelbart --
291
705000
2000
och se dess n-gram omedelbart --
12:02
alsoockså browseBläddra examplesexempel of all the variousolika booksböcker
292
707000
2000
och se exempel på alla möjliga böcker
12:04
in whichsom your n-gramn-gram appearsvisas.
293
709000
2000
där ditt n-gram förekommer.
12:06
JMJM: Now this was used over a millionmiljon timesgånger on the first day,
294
711000
2000
JM: Det användes mer än en miljon gånger den första dagen,
12:08
and this is really the bestbäst of all the queriesfrågor.
295
713000
2000
och detta är den bästa av alla sökningar.
12:10
So people want to be theirderas bestbäst, put theirderas bestbäst footfot forwardfram-.
296
715000
3000
Folk ville vara sitt bästa, visa framfötterna.
12:13
But it turnsvarv out in the 18thth centuryårhundrade, people didn't really carevård about that at all.
297
718000
3000
Men det visar sig att på 1700-talet brydde man sig inte om det alls.
12:16
They didn't want to be theirderas bestbäst, they wanted to be theirderas beftbeft.
298
721000
3000
De ville inte vara sitt bästa, de ville vara sitt bäfta.
12:19
So what happenedhände is, of coursekurs, this is just a mistakemisstag.
299
724000
3000
Det som hände är förstås att det bara är ett misstag.
12:22
It's not that strovesträvade for mediocritymedelmåttighet,
300
727000
2000
De strävade inte efter att vara mediokra,
12:24
it's just that the S used to be writtenskriven differentlyannorlunda, kindsnäll of like an F.
301
729000
3000
det är bara det att S skrevs annorlunda, ungefär som F.
12:27
Now of coursekurs, GoogleGoogle didn't pickplocka this up at the time,
302
732000
3000
Google såg inte detta direkt
12:30
so we reportedrapporterad this in the sciencevetenskap articleartikel that we wroteskrev.
303
735000
3000
så vi rapporterade om det i en artikel vi skrev.
12:33
But it turnsvarv out this is just a reminderpåminnelse
304
738000
2000
Men det är bara en påminnelse
12:35
that, althoughfastän this is a lot of funroligt,
305
740000
2000
om att, hur kul detta än är,
12:37
when you interprettolka these graphsgrafer, you have to be very carefulförsiktig,
306
742000
2000
så måste man vara försiktig när man tolkar diagrammen,
12:39
and you have to adoptanta the basebas standardsstandarder in the sciencesvetenskaper.
307
744000
3000
och man måste anamma vetenskapliga standarder.
12:42
ELAELA: People have been usinganvänder sig av this for all kindsslag of funroligt purposessyften.
308
747000
3000
ELA: Folk har använt det här för alla möjliga roliga syften.
12:45
(LaughterSkratt)
309
750000
7000
(Skratt)
12:52
ActuallyFaktiskt, we're not going to have to talk,
310
757000
2000
Vi behöver faktiskt inte ens prata,
12:54
we're just going to showshow you all the slidesdiabilder and remainförbli silenttyst.
311
759000
3000
vi visar bara bilderna och håller tyst.
12:57
This personperson was interestedintresserad in the historyhistoria of frustrationfrustration.
312
762000
3000
Den här personen var intresserad av frustrationens historia.
13:00
There's variousolika typestyper of frustrationfrustration.
313
765000
3000
Det finns olika typer av frustration.
13:03
If you stubpåbörjad your toe, that's a one A "arghArgh."
314
768000
3000
Om du slår tån så är det ett en-A "argh"
13:06
If the planetplanet EarthJorden is annihilatedförintade by the VogonsVogons
315
771000
2000
Om Jorden förintas av Vogoner
13:08
to make roomrum for an interstellarinterstellär bypassBypass,
316
773000
2000
för att göra plats för en interstellär motorväg
13:10
that's an eightåtta A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
så är det ett åtta-A "aaaaaaaargh"
13:12
This personperson studiesstudier all the "arghsarghs,"
318
777000
2000
Den här personen studerade alla "arghs",
13:14
from one throughgenom eightåtta A'sA: s.
319
779000
2000
från ett till åtta A.
13:16
And it turnsvarv out
320
781000
2000
Och det visade sig
13:18
that the less-frequentmer sällan "arghsarghs"
321
783000
2000
att de mindre förekommande "arghs"
13:20
are, of coursekurs, the onesettor that correspondmotsvarar to things that are more frustratingfrustrerande --
322
785000
3000
är de som hör ihop med saker som är mer frustrerande --
13:23
exceptbortsett från, oddlyunderligt, in the earlytidigt 80s.
323
788000
3000
förutom, märkligt nog, i början av 80-talet.
13:26
We think that mightmakt have something to do with ReaganReagan.
324
791000
2000
Vi tror att det kan ha att göra med Reagan.
13:28
(LaughterSkratt)
325
793000
2000
(Skratt)
13:30
JMJM: There are manymånga usagesanvändningsområden of this datadata,
326
795000
3000
JM: Det finns många användningsområden för dessa data,
13:33
but the bottombotten linelinje is that the historicalhistorisk recordspela in is beingvarelse digitizeddigitaliserade.
327
798000
3000
men grunden är att historien digitaliseras.
13:36
GoogleGoogle has startedsatte igång to digitizedigitalisera 15 millionmiljon booksböcker.
328
801000
2000
Google har börjat digitalisera 15 miljoner böcker.
13:38
That's 12 percentprocent of all the booksböcker that have ever been publishedpublicerat.
329
803000
2000
Det är 12 procent av alla böcker som någonsin givits ut.
13:40
It's a sizablefrossa chunkbit of humanmänsklig culturekultur.
330
805000
3000
Det är en rätt stor bit mänsklig kultur.
13:43
There's much more in culturekultur: there's manuscriptsmanuskript, there newspaperstidningar,
331
808000
3000
Det finns mycket mer i kultur: manuskript, tidningar,
13:46
there's things that are not texttext, like artkonst and paintingsmålningar.
332
811000
2000
saker som inte är text, som konst och målningar.
13:48
These all happenhända to be on our computersdatorer,
333
813000
2000
De kommer att finnas i våra datorer,
13:50
on computersdatorer acrosstvärs över the worldvärld.
334
815000
2000
i datorer runtom i världen.
13:52
And when that happenshänder, that will transformomvandla the way we have
335
817000
3000
Och när det händer kommer det att förändra vårt sätt
13:55
to understandförstå our pastdåtid, our presentnärvarande and humanmänsklig culturekultur.
336
820000
2000
att förstå vårt förflutna, vår nutid och människans kultur.
13:57
Thank you very much.
337
822000
2000
Tack så mycket.
13:59
(ApplauseApplåder)
338
824000
3000
(Applåder)
Translated by Lisbeth Pekkari
Reviewed by Johan Cegrell

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com