ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Какво научихме от 5 милиона книги

Filmed:
2,049,453 views

Играли ли сте някога с Гугъл Лабс "Нграм Вюър"? Това е пристрастяващ инструмент, който ви позволява да търсите думи и идеи в датабаза от 5 милиона книги още от миналите векове. Ерез Лийберман Айден и Жан-Батист Мишел ни показват как става, а и някои от невероятните неща, които можете да научите от 500 милиарда думи.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezErez LiebermanЛиберман AidenAiden: EveryoneВсеки knowsзнае
0
0
2000
Ерез Лийберман Айден: Всеки знае,
00:17
that a pictureснимка is worthзаслужава си a thousandхиляда wordsдуми.
1
2000
3000
че една картина струва хиляда думи.
00:22
But we at HarvardХарвард
2
7000
2000
Но ние от Харвард
00:24
were wonderingчудех if this was really trueвярно.
3
9000
3000
се чудехме дали това наистина е вярно.
00:27
(LaughterСмях)
4
12000
2000
(Смях)
00:29
So we assembledсглобени a teamекип of expertsексперти,
5
14000
4000
Затова събрахме екип от експерти,
00:33
spanningобхващаща HarvardХарвард, MITMIT,
6
18000
2000
който включва Харвард, МИТ,
00:35
The AmericanАмерикански HeritageНаследство DictionaryРечник, The EncyclopediaЕнциклопедия BritannicaЕнциклопедия Британика
7
20000
3000
Американския речник "Херитидж", енциклопедия "Британика"
00:38
and even our proudгорд sponsorsспонсори,
8
23000
2000
и дори гордите ни спонсори-
00:40
the GoogleGoogle.
9
25000
3000
Гугъл.
00:43
And we cogitatedcogitated about this
10
28000
2000
Размишлявахме върху това
00:45
for about fourчетирима yearsгодини.
11
30000
2000
около 4 години
00:47
And we cameдойде to a startlingизумително conclusionзаключение.
12
32000
5000
и стигнахме до стряскащ извод.
00:52
LadiesДами and gentlemenгоспода, a pictureснимка is not worthзаслужава си a thousandхиляда wordsдуми.
13
37000
3000
Дами и господа, една картина не струва хиляда думи.
00:55
In factфакт, we foundнамерено some picturesснимки
14
40000
2000
Всъщност намерихме няколко картини,
00:57
that are worthзаслужава си 500 billionмилиард wordsдуми.
15
42000
5000
които струват 500 милиарда думи.
01:02
Jean-BaptisteЖан-Батист MichelМишел: So how did we get to this conclusionзаключение?
16
47000
2000
Жан Батист Мишел: Как стигнахме до този извод?
01:04
So ErezErez and I were thinkingмислене about waysначини
17
49000
2000
Ерез и аз търсихме начини
01:06
to get a bigголям pictureснимка of humanчовек cultureкултура
18
51000
2000
да добием пълна представа за човешката култура
01:08
and humanчовек historyистория: changeпромяна over time.
19
53000
3000
и история-как се променят във времето.
01:11
So manyмного booksкниги actuallyвсъщност have been writtenписмен over the yearsгодини.
20
56000
2000
Много книги са били написани през вековете.
01:13
So we were thinkingмислене, well the bestнай-доброто way to learnуча from them
21
58000
2000
Та си мислехме: "Добре, най-добрият начин да се научим от тях
01:15
is to readПрочети all of these millionsмилиони of booksкниги.
22
60000
2000
е да прочетем всички тези милиони книги"
01:17
Now of courseкурс, if there's a scaleмащаб for how awesomeстрахотен that is,
23
62000
3000
Разбира се, ако има степен колко невероятно е това,
01:20
that has to rankранг extremelyизвънредно, extremelyизвънредно highВисоко.
24
65000
3000
това трябва да е доста, доста голяма степен.
01:23
Now the problemпроблем is there's an X-axisОста x for that,
25
68000
2000
Проблемът е, че има ос Х за това,
01:25
whichкойто is the practicalпрактичен axisос.
26
70000
2000
която е практическата ос.
01:27
This is very, very lowниско.
27
72000
2000
Това е много, много ниско.
01:29
(ApplauseАплодисменти)
28
74000
3000
(Аплодисменти)
01:32
Now people tendсклонен to use an alternativeалтернатива approachподход,
29
77000
3000
Сега хората използват алтернативен подход,
01:35
whichкойто is to take a fewмалцина sourcesизточници and readПрочети them very carefullyвнимателно.
30
80000
2000
който включва намирането на няколко източника и прочитането им много внимателно.
01:37
This is extremelyизвънредно practicalпрактичен, but not so awesomeстрахотен.
31
82000
2000
Това е много практично, но не толкова невероятно.
01:39
What you really want to do
32
84000
3000
Това, което наистина искаш да направиш,
01:42
is to get to the awesomeстрахотен yetоще practicalпрактичен partчаст of this spaceпространство.
33
87000
3000
е да стигнеш до невероятната, но практична част в тази област.
01:45
So it turnsзавои out there was a companyкомпания acrossпрез the riverрека calledНаречен GoogleGoogle
34
90000
3000
Оказва се, че има компания отвъд реката на име Гугъл,
01:48
who had startedзапочна a digitizationцифровизацията projectпроект a fewмалцина yearsгодини back
35
93000
2000
която е била започнала преди няколко години проект по дигитизация,
01:50
that mightбиха могли, може just enableсе даде възможност на this approachподход.
36
95000
2000
който може и да осъществи този подход.
01:52
They have digitizedцифровизирани millionsмилиони of booksкниги.
37
97000
2000
Те са направили електронен вариант на милиони книги.
01:54
So what that meansсредства is, one could use computationalизчислителната methodsметоди
38
99000
3000
Това означава, че човек може да използва компютърни методи,
01:57
to readПрочети all of the booksкниги in a clickкликване of a buttonбутон.
39
102000
2000
за да чете всяка книга само с едно кликване.
01:59
That's very practicalпрактичен and extremelyизвънредно awesomeстрахотен.
40
104000
3000
Това е много практично и изключително страхотно.
02:03
ELAЕЛА: Let me tell you a little bitмалко about where booksкниги come from.
41
108000
2000
ЕЛА: Нека Ви кажа малко повече за това, откъде идват книгите.
02:05
SinceТъй като time immemorialнезапомнени, there have been authorsавтори.
42
110000
3000
Имало е писатели още от време оно.
02:08
These authorsавтори have been strivingстремеж to writeпиша booksкниги.
43
113000
3000
Тези писатели са се опитвали всячески да пишат книги.
02:11
And this becameстана considerablyзначително easierпо-лесно
44
116000
2000
И това станало доста по-лесно
02:13
with the developmentразвитие of the printingпечатане pressНатиснете some centuriesвекове agoпреди.
45
118000
2000
с изобретяването на печатната машина преди няколко века.
02:15
SinceТъй като then, the authorsавтори have wonСпечелени
46
120000
3000
Оттогава писателите са получили
02:18
on 129 millionмилион distinctотчетлив occasionsслучаи,
47
123000
2000
129 милиона различни възможности
02:20
publishingиздаване booksкниги.
48
125000
2000
да публикуват книги.
02:22
Now if those booksкниги are not lostзагубен to historyистория,
49
127000
2000
Ако тези книги не бъдат изгубени някъде в историята,
02:24
then they are somewhereнякъде in a libraryбиблиотека,
50
129000
2000
то те ще бъдат някъде в библиотека
02:26
and manyмного of those booksкниги have been gettingполучаване на retrievedизвлечени from the librariesбиблиотеки
51
131000
3000
и много от тези книги биват намирани в библиотеките
02:29
and digitizedцифровизирани by GoogleGoogle,
52
134000
2000
и дигитализирани от Гугъл.
02:31
whichкойто has scannedсканирано 15 millionмилион booksкниги to dateдата.
53
136000
2000
Гугъл вече е сканирал над 15 милиона книги до този момент.
02:33
Now when GoogleGoogle digitizesцифровизира a bookКнига, they put it into a really niceприятен formatформат.
54
138000
3000
Когато Гугъл дигитализира една книга, те я правят в много добър формат.
02:36
Now we'veние имаме got the dataданни, plusплюс we have metadataметаданни.
55
141000
2000
Сега имаме данните, освен това имаме метаданни.
02:38
We have informationинформация about things like where was it publishedпубликувано,
56
143000
3000
Имаме информация къде е публикувана,
02:41
who was the authorавтор, when was it publishedпубликувано.
57
146000
2000
кой е авторът, кога е била публикувана.
02:43
And what we do is go throughпрез all of those recordsзаписи
58
148000
3000
Какво направихме ние - прегледахме всички тези архиви
02:46
and excludeизключи everything that's not the highestнай-висока qualityкачество dataданни.
59
151000
4000
и изхвърлихме всичко, което не е най-високо качество.
02:50
What we're left with
60
155000
2000
Това, което получихме,
02:52
is a collectionколекция of fiveпет millionмилион booksкниги,
61
157000
3000
е една колекция от 5 милиона книги,
02:55
500 billionмилиард wordsдуми,
62
160000
3000
500 милиарда думи,
02:58
a stringниз of charactersзнаци a thousandхиляда timesпъти longerповече време
63
163000
2000
наниз от знаци хиляда пъти по-дълъг
03:00
than the humanчовек genomeгеном --
64
165000
3000
от човешкия геном-
03:03
a textтекст whichкойто, when writtenписмен out,
65
168000
2000
текст, който ако бъде написан,
03:05
would stretchопъвам, разтягам from here to the MoonЛуната and back
66
170000
2000
ще е дълъг от тук до Луната и обратно,
03:07
10 timesпъти over --
67
172000
2000
умножено по 10 пъти-
03:09
a veritableистински shardShard of our culturalкултурен genomeгеном.
68
174000
4000
истински къс от нашия културен геном.
03:13
Of courseкурс what we did
69
178000
2000
Разбира се, това, което направихме,
03:15
when facedизправени with suchтакъв outrageousвъзмутителен hyperboleхипербола ...
70
180000
3000
изправени пред толкова голяма хипербола,
03:18
(LaughterСмях)
71
183000
2000
(Смях)
03:20
was what any self-respectingуважаващ researchersизследователи
72
185000
3000
беше това, което всеки себеуважаващ се изследовател
03:23
would have doneСвършен.
73
188000
3000
би направил.
03:26
We tookвзеха a pageстраница out of XKCDXKCD,
74
191000
2000
Взехме една страница от ХКСД
03:28
and we said, "StandСтойка back.
75
193000
2000
и казахме: "Стойте назад!
03:30
We're going to try scienceнаука."
76
195000
2000
Ще изпробваваме наука."
03:32
(LaughterСмях)
77
197000
2000
(Смях)
03:34
JMJM: Now of courseкурс, we were thinkingмислене,
78
199000
2000
ЖМ: Сега, разбира се, си мислим
03:36
well let's just first put the dataданни out there
79
201000
2000
първо да направим данните свободни,
03:38
for people to do scienceнаука to it.
80
203000
2000
за да могат хората да правят наука с тях.
03:40
Now we're thinkingмислене, what dataданни can we releaseпускане?
81
205000
2000
Мислим си какви данни можем да направим достъпни?
03:42
Well of courseкурс, you want to take the booksкниги
82
207000
2000
Разбира се, че искате да вземете книгите
03:44
and releaseпускане the fullпълен textтекст of these fiveпет millionмилион booksкниги.
83
209000
2000
и да пуснете пълните текстове на тези 5 милиона книги по нета.
03:46
Now GoogleGoogle, and JonДжон OrwantOrwant in particularособен,
84
211000
2000
Гугъл и Джон Оруънт най-вече
03:48
told us a little equationуравнение that we should learnуча.
85
213000
2000
ни казаха едно малко уравнение, което трябва да научим.
03:50
So you have fiveпет millionмилион, that is, fiveпет millionмилион authorsавтори
86
215000
3000
И така, имаш 5 милиона книги, което е 5 милиона автора,
03:53
and fiveпет millionмилион plaintiffsищците is a massiveмасов lawsuitсъдебен процес.
87
218000
3000
а 5 милиона ищци е един голям съдебен процес.
03:56
So, althoughмакар че that would be really, really awesomeстрахотен,
88
221000
2000
И въпреки че това би било наистина много, много готино,
03:58
again, that's extremelyизвънредно, extremelyизвънредно impracticalнепрактичен.
89
223000
3000
отново, това е много, много непрактично.
04:01
(LaughterСмях)
90
226000
2000
(Смях)
04:03
Now again, we kindмил of cavedхлътнали in,
91
228000
2000
Отново ние леко отстъпихме
04:05
and we did the very practicalпрактичен approachподход, whichкойто was a bitмалко lessпо-малко awesomeстрахотен.
92
230000
3000
и предприехме практичния подход, който беше по-малко готин.
04:08
We said, well insteadвместо of releasingосвобождаване the fullпълен textтекст,
93
233000
2000
Казахме си: "Добре, вместо да пуснем пълния текст,
04:10
we're going to releaseпускане statisticsстатистика about the booksкниги.
94
235000
2000
ще пуснем в интернет пространството статистика за книгите.
04:12
So take for instanceинстанция "A gleamпроблясък of happinessщастие."
95
237000
2000
Така, вземете например "Лъч щастие".
04:14
It's fourчетирима wordsдуми; we call that a four-gramчетири грама.
96
239000
2000
това са 4 думи, наричаме това 4-грама.
04:16
We're going to tell you how manyмного timesпъти a particularособен four-gramчетири грама
97
241000
2000
Ще ви кажем колко пъти точно определена 4-грама
04:18
appearedсе появява in booksкниги in 1801, 1802, 1803,
98
243000
2000
се е появявал в книги от 1801, 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
чак до 2008.
04:22
That givesдава us a time seriesсерия
100
247000
2000
Това ни дава времеви серии,
04:24
of how frequentlyчесто this particularособен sentenceизречение was used over time.
101
249000
2000
посочващи колко пъти точно това изречение е било използвано във времето.
04:26
We do that for all the wordsдуми and phrasesфрази that appearсе появи in those booksкниги,
102
251000
3000
Направихме това за всички думи и фрази, които се появяват в тези книги.
04:29
and that givesдава us a bigголям tableмаса of two billionмилиард linesлинии
103
254000
3000
Това ни дава една голяма таблица от 2 милиарда реда,
04:32
that tell us about the way cultureкултура has been changingсмяна.
104
257000
2000
която ни казва как културата ни се е променяла.
04:34
ELAЕЛА: So those two billionмилиард linesлинии,
105
259000
2000
ЕЛА: Тези 2 милиарда реда
04:36
we call them two billionмилиард n-gramsn-грама.
106
261000
2000
наричаме 2 милиарда н-грами.
04:38
What do they tell us?
107
263000
2000
Какво ни казват те?
04:40
Well the individualиндивидуален n-gramsn-грама measureмярка culturalкултурен trendsтенденции.
108
265000
2000
Индивидуалните н-грамови измерват културните тенденции.
04:42
Let me give you an exampleпример.
109
267000
2000
Нека ви дам един пример.
04:44
Let's supposeпредполагам that I am thrivingпроцъфтяваща,
110
269000
2000
Нека предположим, че аз преуспявам.
04:46
then tomorrowутре I want to tell you about how well I did.
111
271000
2000
Утре искам да ви кажа колко добре се справих.
04:48
And so I mightбиха могли, може say, "YesterdayВчера, I throvethrove."
112
273000
3000
И така, може да кажа: "Вчера успях."
04:51
AlternativelyАлтернативно, I could say, "YesterdayВчера, I thrivedпроцъфтява."
113
276000
3000
Алтернативно мога да кажа: "Вчера преуспях."
04:54
Well whichкойто one should I use?
114
279000
3000
Добре, кое да използвам?
04:57
How to know?
115
282000
2000
Как да разбера?
04:59
As of about sixшест monthsмесеца agoпреди,
116
284000
2000
От преди около 6 месеца
05:01
the stateсъстояние of the artизкуство in this fieldполе
117
286000
2000
състоянието на изкуството в тази сфера
05:03
is that you would, for instanceинстанция,
118
288000
2000
би било такова, например,
05:05
go up to the followingследното psychologistпсихолог with fabulousприказен hairкоса,
119
290000
2000
че да ви накара да отидете при психолог с невероятна коса
05:07
and you'dти можеш say,
120
292000
2000
и да кажете:
05:09
"SteveСтив, you're an expertексперт on the irregularнередовен verbsглаголи.
121
294000
3000
"Стийв, ти си експерт по неправилни глаголи.
05:12
What should I do?"
122
297000
2000
Какво да правя?"
05:14
And he'dЩеше tell you, "Well mostнай-много people say thrivedпроцъфтява,
123
299000
2000
И той би ви казал: "Повечето хора казват успях,
05:16
but some people say throvethrove."
124
301000
3000
но някои хора казват преуспях."
05:19
And you alsoсъщо knewЗнаех, more or lessпо-малко,
125
304000
2000
И ти знаеше малко или много,
05:21
that if you were to go back in time 200 yearsгодини
126
306000
3000
че ако се върнеш назад 200 години
05:24
and askпитам the followingследното statesmanдържавник with equallyпо равно fabulousприказен hairкоса,
127
309000
3000
и попиташ същия човек със също толкова хубава коса,
05:27
(LaughterСмях)
128
312000
3000
(Смях)
05:30
"TomТом, what should I say?"
129
315000
2000
"Том, какво би трябвало да кажа?"
05:32
He'dТой ще say, "Well, in my day, mostнай-много people throvethrove,
130
317000
2000
Той би ви отговорил: "По мое време повечето хора успяваха,
05:34
but some thrivedпроцъфтява."
131
319000
3000
но някои преуспяха."
05:37
So now what I'm just going to showшоу you is rawсуров dataданни.
132
322000
2000
Сега ще ви покажа само сухи данни.
05:39
Two rowsредове from this tableмаса of two billionмилиард entriesвписвания.
133
324000
4000
Два реда от тази таблица с 2 милиарда реда.
05:43
What you're seeingвиждане is yearгодина by yearгодина frequencyчестота
134
328000
2000
Това, което виждате, е година след година използване
05:45
of "thrivedпроцъфтява" and "throvethrove" over time.
135
330000
3000
на "успял" и "преуспял" през времето.
05:49
Now this is just two
136
334000
2000
Това са само 2
05:51
out of two billionмилиард rowsредове.
137
336000
3000
от 2 милиарда реда.
05:54
So the entireцял dataданни setкомплект
138
339000
2000
Цялата база данни
05:56
is a billionмилиард timesпъти more awesomeстрахотен than this slideпързалка.
139
341000
3000
е един милиард пъти по-готина от този слайд.
05:59
(LaughterСмях)
140
344000
2000
(Смях)
06:01
(ApplauseАплодисменти)
141
346000
4000
(Аплодисменти)
06:05
JMJM: Now there are manyмного other picturesснимки that are worthзаслужава си 500 billionмилиард wordsдуми.
142
350000
2000
ЖМ: Има много други картини, които струват 500 милиарда думи.
06:07
For instanceинстанция, this one.
143
352000
2000
Например, тази.
06:09
If you just take influenzaгрип,
144
354000
2000
Ако вземете инфлуенца,
06:11
you will see peaksвърхове at the time where you knewЗнаех
145
356000
2000
ще надникнете във времето, когато сте знаели, че
06:13
bigголям fluгрип epidemicsепидемии were killingубиване people around the globeглобус.
146
358000
3000
големи епидемии са убивали хора по целия глобус.
06:16
ELAЕЛА: If you were not yetоще convincedубеден,
147
361000
3000
ЕЛА: Ако още не сте убеден
06:19
seaморе levelsнива are risingнарастващ,
148
364000
2000
нивото на морското равнище се покачва,
06:21
so is atmosphericатмосферен COCO2 and globalв световен мащаб temperatureтемпература.
149
366000
3000
както и атмосферният въглероден двуокис и глобалната температура.
06:24
JMJM: You mightбиха могли, може alsoсъщо want to have a look at this particularособен n-gramn-гр,
150
369000
3000
ЖМ: Може би искате да видите и точно тази н-грама
06:27
and that's to tell NietzscheНицше that God is not deadмъртъв,
151
372000
3000
и това е за да кажем на Ницше, че Господ не е мъртъв,
06:30
althoughмакар че you mightбиха могли, може agreeСъгласен that he mightбиха могли, може need a better publicistпублицист.
152
375000
3000
въпреки че ще се съгласите, че ще се нуждае от по-добър публицист.
06:33
(LaughterСмях)
153
378000
2000
(Смях)
06:35
ELAЕЛА: You can get at some prettyкрасива abstractабстрактен conceptsконцепции with this sortвид of thing.
154
380000
3000
ЕЛА: Може да достигнете до някои доста абстрактни идеи с този начин на мислене.
06:38
For instanceинстанция, let me tell you the historyистория
155
383000
2000
Например, нека ви кажа историята
06:40
of the yearгодина 1950.
156
385000
2000
на 1950 година.
06:42
PrettyХубава much for the vastобширен majorityмнозинство of historyистория,
157
387000
2000
Горе-долу за по-голямата част от историята
06:44
no one gaveдадох a damnпроклет about 1950.
158
389000
2000
на никой не му пукаше за 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
През 1700, 1800, 1900
06:48
no one caredинтересуваше.
160
393000
3000
никой не се интересуваше.
06:52
ThroughЧрез the 30s and 40s,
161
397000
2000
През 30-те и 40-те години
06:54
no one caredинтересуваше.
162
399000
2000
на никой не му пукаше.
06:56
SuddenlyИзведнъж, in the mid-средата40s,
163
401000
2000
Изведнъж, по средата на 40-те
06:58
there startedзапочна to be a buzzБъз.
164
403000
2000
започна едно шумене.
07:00
People realizedосъзнах that 1950 was going to happenстава,
165
405000
2000
Хората осъзнаха, че 1950 ще се случи
07:02
and it could be bigголям.
166
407000
2000
и че може би ще е голямо.
07:04
(LaughterСмях)
167
409000
3000
(Смях)
07:07
But nothing got people interestedзаинтересован in 1950
168
412000
3000
Но нищо не заинтересова хората през 1950
07:10
like the yearгодина 1950.
169
415000
3000
така, както годината 1950.
07:13
(LaughterСмях)
170
418000
3000
(Смях)
07:16
People were walkingходене around obsessedобсебен.
171
421000
2000
Хората ходеха наоколо обсебени.
07:18
They couldn'tне можех stop talkingговорим
172
423000
2000
Не можеха да спрат да говорят
07:20
about all the things they did in 1950,
173
425000
3000
за всичките неща, които са направили през тази година.
07:23
all the things they were planningпланиране to do in 1950,
174
428000
3000
за всичките неща, които са смятали да направят през 1950,
07:26
all the dreamsсънища of what they wanted to accomplishпостигне in 1950.
175
431000
5000
за всичките мечти, които са искали да постигнат през 1950.
07:31
In factфакт, 1950 was so fascinatingочарователен
176
436000
2000
Всъщност,1950 беше толкова пленителна,
07:33
that for yearsгодини thereafterслед това,
177
438000
2000
че за години напред
07:35
people just keptсъхраняват talkingговорим about all the amazingудивителен things that happenedсе случи,
178
440000
3000
хората продължаваха да говорят за всичките невероятни неща, които са се случили
07:38
in '51, '52, '53.
179
443000
2000
през 1951, 1952, 1953.
07:40
FinallyНакрая in 1954,
180
445000
2000
Най-накрая през 1954
07:42
someoneнякой wokeсъбудих up and realizedосъзнах
181
447000
2000
някой се събуди и осъзна, че
07:44
that 1950 had gottenнамерила somewhatдо известна степен passминавамé.
182
449000
4000
1950 е минала някакси пасивно,
07:48
(LaughterСмях)
183
453000
2000
(Смях)
07:50
And just like that, the bubbleмехур burstизбухвам.
184
455000
2000
И просто така балонът се спука.
07:52
(LaughterСмях)
185
457000
2000
(Смях)
07:54
And the storyистория of 1950
186
459000
2000
А историята на 1950
07:56
is the storyистория of everyвсеки yearгодина that we have on recordрекорд,
187
461000
2000
е историята на всяка година, която имаме в архив,
07:58
with a little twistобрат, because now we'veние имаме got these niceприятен chartsдиаграми.
188
463000
3000
с малък обрат, защото сега имаме тези хубави таблици.
08:01
And because we have these niceприятен chartsдиаграми, we can measureмярка things.
189
466000
3000
И защото имаме тези таблици, можем да измерваме неща.
08:04
We can say, "Well how fastбърз does the bubbleмехур burstизбухвам?"
190
469000
2000
Можем да кажем: "Колко бързо се пука балонът?"
08:06
And it turnsзавои out that we can measureмярка that very preciselyточно.
191
471000
3000
И се оказва, че можем да измерим това доста бързо.
08:09
EquationsУравнения were derivedизвлечен, graphsграфики were producedпроизведена,
192
474000
3000
Изведохме уравнения, направихме диаграми
08:12
and the netнето resultрезултат
193
477000
2000
и чистият резултат
08:14
is that we find that the bubbleмехур burstsизблици fasterпо-бързо and fasterпо-бързо
194
479000
3000
е, че балонът се пука по-бързо и по-бързо
08:17
with eachвсеки passingпреминаване yearгодина.
195
482000
2000
с всяка следваща година.
08:19
We are losingзагуба interestинтерес in the pastминало more rapidlyбързо.
196
484000
5000
Загубваме интерес в миналото все по-бързо.
08:24
JMJM: Now a little pieceпарче of careerкариера adviceсъвет.
197
489000
2000
ЖМ: И сега един малък съвет относно кариерата.
08:26
So for those of you who seekтърся to be famousизвестен,
198
491000
2000
За тези от вас, които искат да станат известни,
08:28
we can learnуча from the 25 mostнай-много famousизвестен politicalполитически figuresфигури,
199
493000
2000
могат да се поучат от 25 от най-известните политици,
08:30
authorsавтори, actorsактьори and so on.
200
495000
2000
писатели, актьори и т.н.
08:32
So if you want to becomeда стане famousизвестен earlyрано on, you should be an actorактьор,
201
497000
3000
Затова ако искате да станете известен на по-ранен етап, трябва да станете актьор,
08:35
because then fameслава startsзапочва risingнарастващ by the endкрай of your 20s --
202
500000
2000
защото при тях славата расте от края на 20-те им години.
08:37
you're still youngмлад, it's really great.
203
502000
2000
Все още сте млад, невероятно е.
08:39
Now if you can wait a little bitмалко, you should be an authorавтор,
204
504000
2000
Ако може да чакате, трябва да станете писател,
08:41
because then you riseиздигам се to very great heightsвисочини,
205
506000
2000
защото тогава се изкачвате до големи висоти,
08:43
like MarkМарк TwainТвен, for instanceинстанция: extremelyизвънредно famousизвестен.
206
508000
2000
като Марк Твен, например: изключително известен.
08:45
But if you want to reachдостигнат the very topвръх,
207
510000
2000
Но ако искате да достигнете до самия връх,
08:47
you should delayзакъснение gratificationудовлетворение
208
512000
2000
трябва да отложите овациите
08:49
and, of courseкурс, becomeда стане a politicianполитик.
209
514000
2000
и, разбира се, да станете политик.
08:51
So here you will becomeда стане famousизвестен by the endкрай of your 50s,
210
516000
2000
Така ще станете известен към края на 50-те си години
08:53
and becomeда стане very, very famousизвестен afterwardпосле.
211
518000
2000
и ще станете много, много известен след това.
08:55
So scientistsучени alsoсъщо tendсклонен to get famousизвестен when they're much olderпо-стари.
212
520000
3000
Учените също стават популярни, когато остареят много.
08:58
Like for instanceинстанция, biologistsбиолози and physicsфизика
213
523000
2000
Например, биолози и физици
09:00
tendсклонен to be almostпочти as famousизвестен as actorsактьори.
214
525000
2000
стават почти толкова известни, колкото актьорите.
09:02
One mistakeгрешка you should not do is becomeда стане a mathematicianматематик.
215
527000
3000
Една грешка, която не трябва да допускте, е да станете математици.
09:05
(LaughterСмях)
216
530000
2000
(Смях)
09:07
If you do that,
217
532000
2000
Ако направите това,
09:09
you mightбиха могли, може think, "Oh great. I'm going to do my bestнай-доброто work when I'm in my 20s."
218
534000
3000
може да си помислите: "О, страхотно, ще създам най-добрия си труд, когато съм на 20."
09:12
But guessпредполагам what, nobodyНикой will really careгрижа.
219
537000
2000
Но познайте какво, на никого няма да му пука.
09:14
(LaughterСмях)
220
539000
3000
(Смях)
09:17
ELAЕЛА: There are more soberingотрезвителен notesбележки
221
542000
2000
ЕЛА: Има по-изтрезвяващи бележки
09:19
amongсред the n-gramsn-грама.
222
544000
2000
сред н-грамите.
09:21
For instanceинстанция, here'sето the trajectoryтраектория of MarcМарк ChagallШагал,
223
546000
2000
Например, ето траекторията на Марк Шагал,
09:23
an artistхудожник bornроден in 1887.
224
548000
2000
артист, роден през 1887.
09:25
And this looksвъншност like the normalнормален trajectoryтраектория of a famousизвестен personчовек.
225
550000
3000
И това изглежда като нормалната траектория на един известен човек.
09:28
He getsполучава more and more and more famousизвестен,
226
553000
4000
Той става по-известен, и по-известен, и по-известен
09:32
exceptс изключение if you look in GermanНемски.
227
557000
2000
освен ако не гледате в немския език.
09:34
If you look in GermanНемски, you see something completelyнапълно bizarreстранни,
228
559000
2000
Ако гледате в немския език, ще забележите нещо много странно,
09:36
something you prettyкрасива much never see,
229
561000
2000
нещо, което почти не се забелязва никъде,
09:38
whichкойто is he becomesстава extremelyизвънредно famousизвестен
230
563000
2000
е това че той става много известен
09:40
and then all of a suddenвнезапен plummetsplummets,
231
565000
2000
и изведнъж тръгва стремглаво надолу,
09:42
going throughпрез a nadirНадир betweenмежду 1933 and 1945,
232
567000
3000
и стига до най-ниската точка между 1933 и 1945,
09:45
before reboundingборби afterwardпосле.
233
570000
3000
преди да се отблъсне отново.
09:48
And of courseкурс, what we're seeingвиждане
234
573000
2000
И разбира се, това, което наблюдаваме,
09:50
is the factфакт MarcМарк ChagallШагал was a JewishЕврейски artistхудожник
235
575000
3000
е фактът, че Марк Шагал е бил еврейски артист
09:53
in NaziНацистка GermanyГермания.
236
578000
2000
в нацистка Германия.
09:55
Now these signalsсигнали
237
580000
2000
Тези сигнали
09:57
are actuallyвсъщност so strongсилен
238
582000
2000
са толкова силни,
09:59
that we don't need to know that someoneнякой was censoredцензурира.
239
584000
3000
че не ни трябва да знаем, че някой е бил цензуриран.
10:02
We can actuallyвсъщност figureфигура it out
240
587000
2000
Всъщност можем да достигнем до този извод,
10:04
usingизползвайки really basicосновен signalсигнал processingобработване.
241
589000
2000
като използваме елементарно преработване на сигналите.
10:06
Here'sТук е a simpleпрост way to do it.
242
591000
2000
Ето един лесен начин да го направите.
10:08
Well, a reasonableразумен expectationочакване
243
593000
2000
Е, разумното очакване
10:10
is that somebody'sнякой е fameслава in a givenдаден periodПериод of time
244
595000
2000
е, че славата на някого в даден период от време
10:12
should be roughlyприблизително the averageсредно аритметично of theirтехен fameслава before
245
597000
2000
би трябвало да бъде грубо средното от тяхната слава преди
10:14
and theirтехен fameслава after.
246
599000
2000
и след.
10:16
So that's sortвид of what we expectочаквам.
247
601000
2000
Та, това е горе-долу какво очакваме.
10:18
And we compareсравнение that to the fameслава that we observeСпазвайте.
248
603000
3000
И сравняваме това със славата, която наблюдаваме
10:21
And we just divideразделям one by the other
249
606000
2000
и просто разделяме едната на другата,
10:23
to produceпродукция something we call a suppressionпотискане indexиндекс.
250
608000
2000
за да получим нещо, което наричаме индекс на потискане.
10:25
If the suppressionпотискане indexиндекс is very, very, very smallмалък,
251
610000
3000
Ако този индекс е много, много, много малък,
10:28
then you very well mightбиха могли, може be beingсъщество suppressedпотиснат.
252
613000
2000
тогава може би сте потиснати.
10:30
If it's very largeголям, maybe you're benefitingползващи се from propagandaпропаганда.
253
615000
3000
Ако е много голям, тогава най-вероятно се възползвате от пропаганда.
10:34
JMJM: Now you can actuallyвсъщност look at
254
619000
2000
ЖМ: Сега може да наблюдавате
10:36
the distributionразпределение of suppressionпотискане indexesиндекси over wholeцяло populationsпопулации.
255
621000
3000
разпределението на тези индекси сред цели народи.
10:39
So for instanceинстанция, here --
256
624000
2000
Например, тук-
10:41
this suppressionпотискане indexиндекс is for 5,000 people
257
626000
2000
този индекс на потискане е за 5 000 души,
10:43
pickedизбран in EnglishАнглийски booksкниги where there's no knownизвестен suppressionпотискане --
258
628000
2000
избрани от английски книги, къдете няма познат натиск-
10:45
it would be like this, basicallyв основата си tightlyплътно centeredцентрирано on one.
259
630000
2000
би било така-силно концентриран върху един.
10:47
What you expectочаквам is basicallyв основата си what you observeСпазвайте.
260
632000
2000
Това, което очаквате, е горе-долу това, което наблюдавате.
10:49
This is distributionразпределение as seenвидян in GermanyГермания --
261
634000
2000
Това е разпределение, както в Германия-
10:51
very differentразличен, it's shiftedизместен to the left.
262
636000
2000
много различно, изместено вляво.
10:53
People talkedговорих about it twiceдва пъти lessпо-малко as it should have been.
263
638000
3000
Хората говореха за него 2 пъти по-малко, а и така е трябвало да бъде.
10:56
But much more importantlyважно, the distributionразпределение is much widerпо-широк.
264
641000
2000
Но много по-важно е, че разпространението е трябвало да бъде по-обширно.
10:58
There are manyмного people who endкрай up on the farдалече left on this distributionразпределение
265
643000
3000
Има много хора, които попадат в крайно ляво при това разпределение.
11:01
who are talkedговорих about 10 timesпъти fewerпо-малко than they should have been.
266
646000
3000
И за тях се е говорило 10 пъти по-малко, отколкото е трябвало.
11:04
But then alsoсъщо manyмного people on the farдалече right
267
649000
2000
Но пък тогава много хора в крайно дясно
11:06
who seemИзглежда to benefitоблага from propagandaпропаганда.
268
651000
2000
изглежда имат полза от пропаганда.
11:08
This pictureснимка is the hallmarkHallmark of censorshipцензура in the bookКнига recordрекорд.
269
653000
3000
Тази картина е характерна черта за цензура в книгите.
11:11
ELAЕЛА: So culturomicsculturomics
270
656000
2000
ЕЛА: Наричаме културомикс
11:13
is what we call this methodметод.
271
658000
2000
този метод.
11:15
It's kindмил of like genomicsгеномика.
272
660000
2000
Прилича на геномикс.
11:17
ExceptС изключение на genomicsгеномика is a lensлещи on biologyбиология
273
662000
2000
Само че геномиксът е леща в биологията
11:19
throughпрез the windowпрозорец of the sequenceпоследователност of basesбази in the humanчовек genomeгеном.
274
664000
3000
през прозорецът на редицата от бази в човешкия геном.
11:22
CulturomicsCulturomics is similarподобен.
275
667000
2000
Културомиксът е подобен.
11:24
It's the applicationприложение of massive-scaleмасивен мащаб dataданни collectionколекция analysisанализ
276
669000
3000
Това е приложението на огромна база данни анализи
11:27
to the studyуча of humanчовек cultureкултура.
277
672000
2000
за изучаване на човешката култура.
11:29
Here, insteadвместо of throughпрез the lensлещи of a genomeгеном,
278
674000
2000
Тук, вместо през леща на геном,
11:31
throughпрез the lensлещи of digitizedцифровизирани piecesпарчета of the historicalисторически recordрекорд.
279
676000
3000
използваме леща на дигитализирани късове на човешката история.
11:34
The great thing about culturomicsculturomics
280
679000
2000
Невероятното нещо на културомиксА
11:36
is that everyoneвсеки can do it.
281
681000
2000
е това, че всеки може да го прави.
11:38
Why can everyoneвсеки do it?
282
683000
2000
А защо това е така?
11:40
EveryoneВсеки can do it because threeтри guys,
283
685000
2000
Всеки може да го прави, защото 3 момчета,
11:42
JonДжон OrwantOrwant, MattМат GrayГрей and Will BrockmanBrockman over at GoogleGoogle,
284
687000
3000
Джон Оруънт, Мат Грей и Уил Брокман в Гугъл,
11:45
saw the prototypeпрототип of the NgramNgram ViewerПреглед,
285
690000
2000
видяха прототипа на Нграм Вюър,
11:47
and they said, "This is so funшега.
286
692000
2000
и казаха: "Това е толквоа забавно.
11:49
We have to make this availableна разположение for people."
287
694000
3000
Трябва да направим това достъпно за хората."
11:52
So in two weeksседмици flatапартамент -- the two weeksседмици before our paperхартия cameдойде out --
288
697000
2000
И така за 2 седмици -2 седмици, преди да ни излезе докладът,
11:54
they codedкодирани up a versionверсия of the NgramNgram ViewerПреглед for the generalобщ publicобществен.
289
699000
3000
те измислиха версия на програмата за широката публика.
11:57
And so you too can typeТип in any wordдума or phraseфраза that you're interestedзаинтересован in
290
702000
3000
И така всеки може да напише думата, която го интересува,
12:00
and see its n-gramn-гр immediatelyведнага --
291
705000
2000
и да види нейната н-грама веднага.
12:02
alsoсъщо browseПреглед examplesпримери of all the variousразлични booksкниги
292
707000
2000
А също така и да търси примери на най-различни книги,
12:04
in whichкойто your n-gramn-гр appearsпоявява се.
293
709000
2000
в които се появява н-грамата.
12:06
JMJM: Now this was used over a millionмилион timesпъти on the first day,
294
711000
2000
ЖМ: Това беше изпробвано над милион пъти на първия ден
12:08
and this is really the bestнай-доброто of all the queriesзапитвания.
295
713000
2000
и това е наистина най-хубавото от всички питания.
12:10
So people want to be theirтехен bestнай-доброто, put theirтехен bestнай-доброто footкрак forwardнапред.
296
715000
3000
Хората, които иската да бъдат най-добри, слагат най-добрия си крак напред.
12:13
But it turnsзавои out in the 18thтата centuryвек, people didn't really careгрижа about that at all.
297
718000
3000
Но изглежда през 18 век на хората не им е пукало за това изобщо.
12:16
They didn't want to be theirтехен bestнай-доброто, they wanted to be theirтехен beftbeft.
298
721000
3000
Те не са искали да са най-добре, а са искали да са най-добрите.
12:19
So what happenedсе случи is, of courseкурс, this is just a mistakeгрешка.
299
724000
3000
Излиза, че просто е станала грешка.
12:22
It's not that stroveсе стремеше for mediocrityпосредственост,
300
727000
2000
Не е този стремеж за посредственост,
12:24
it's just that the S used to be writtenписмен differentlyразлично, kindмил of like an F.
301
729000
3000
а просто С се е изписвало различно, малко като Ф.
12:27
Now of courseкурс, GoogleGoogle didn't pickизбирам this up at the time,
302
732000
3000
Но разбира се, Гугъл не са знаели това на времето,
12:30
so we reportedОтчетените this in the scienceнаука articleстатия that we wroteнаписах.
303
735000
3000
затова отбелязахме това в научната статия, която написахме.
12:33
But it turnsзавои out this is just a reminderнапомняне
304
738000
2000
Но изглежда това само напомня,
12:35
that, althoughмакар че this is a lot of funшега,
305
740000
2000
че въпреки това да е много забавно,
12:37
when you interpretинтерпретира these graphsграфики, you have to be very carefulвнимателен,
306
742000
2000
когато тълкувате тези графи, трябва да сте много внимателни,
12:39
and you have to adoptприеме the baseбаза standardsстандарти in the sciencesнауки.
307
744000
3000
и трябва да усвоите основните стандарти в науките.
12:42
ELAЕЛА: People have been usingизползвайки this for all kindsвидове of funшега purposesцели.
308
747000
3000
ЕЛА: Хората са използвали това за всякакви цели.
12:45
(LaughterСмях)
309
750000
7000
(Смях)
12:52
ActuallyВсъщност, we're not going to have to talk,
310
757000
2000
Всъщност, няма да приказваме,
12:54
we're just going to showшоу you all the slidesпързалки and remainостават silentмълчалив.
311
759000
3000
а просто ще ви покажем всичките слайдове и ще замълчим.
12:57
This personчовек was interestedзаинтересован in the historyистория of frustrationчувство на неудовлетвореност.
312
762000
3000
Този човек се е интересувал от историята на раздразнението.
13:00
There's variousразлични typesвидове of frustrationчувство на неудовлетвореност.
313
765000
3000
Има различни видове раздразнение.
13:03
If you stubмъниче your toeToe, that's a one A "arghех."
314
768000
3000
Ако си прободеш пръста на крака, това е "Ауч" с едно A.
13:06
If the planetпланета EarthЗемята is annihilatedунищожава by the VogonsVogons
315
771000
2000
Ако Земята бъде унищожена от Вогони,
13:08
to make roomстая for an interstellarмеждузвезден bypassбайпас,
316
773000
2000
за да направят път за междузвезден път,
13:10
that's an eightосем A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
това е "Aааааааргхх" с 8 А-та.
13:12
This personчовек studiesпроучвания all the "arghsarghs,"
318
777000
2000
Този човек изучава всички А-та,
13:14
from one throughпрез eightосем A'sА.
319
779000
2000
от едно до осем.
13:16
And it turnsзавои out
320
781000
2000
Излиза, че
13:18
that the less-frequentпо-често "arghsarghs"
321
783000
2000
по-малко използваното "аргх"
13:20
are, of courseкурс, the onesтакива that correspondсъответстват to things that are more frustratingпропадане --
322
785000
3000
са, разбира се, тези, които съответстват на неща, които са по-дразнещи,
13:23
exceptс изключение, oddlyстранно, in the earlyрано 80s.
323
788000
3000
освен, странно, през 80-те.
13:26
We think that mightбиха могли, може have something to do with ReaganРейгън.
324
791000
2000
Мислим, че това има нещо общо с Рейгън.
13:28
(LaughterСмях)
325
793000
2000
(Смях)
13:30
JMJM: There are manyмного usagesобичаи of this dataданни,
326
795000
3000
ЖМ: Тези данни имат много приложения,
13:33
but the bottomдъно lineлиния is that the historicalисторически recordрекорд is beingсъщество digitizedцифровизирани.
327
798000
3000
но най-важното е, че историческте архиви се дигитализират.
13:36
GoogleGoogle has startedзапочна to digitizeДигитализиране на 15 millionмилион booksкниги.
328
801000
2000
Гугъл е започнал да прави това с 15 милиона книги.
13:38
That's 12 percentна сто of all the booksкниги that have ever been publishedпубликувано.
329
803000
2000
Това са 12% от всички публикувани книги.
13:40
It's a sizableдоста голям chunkбуца of humanчовек cultureкултура.
330
805000
3000
Това е огромен къс от човешката култура.
13:43
There's much more in cultureкултура: there's manuscriptsръкописи, there newspapersвестници,
331
808000
3000
Има много повече в културата: ръкописи, вестници,
13:46
there's things that are not textтекст, like artизкуство and paintingsкартини.
332
811000
2000
неща, които не са текстове, като изкуството и картините.
13:48
These all happenстава to be on our computersкомпютри,
333
813000
2000
Всичко това е на нашите компютри,
13:50
on computersкомпютри acrossпрез the worldсвят.
334
815000
2000
на компютри по целия свят.
13:52
And when that happensслучва се, that will transformтрансформиране the way we have
335
817000
3000
И когато това се случи, това ще промени начина ни на
13:55
to understandразбирам our pastминало, our presentнастояще and humanчовек cultureкултура.
336
820000
2000
разбиране на нашето минало, настояще и бъдеще.
13:57
Thank you very much.
337
822000
2000
Благодаря ви много.
13:59
(ApplauseАплодисменти)
338
824000
3000
(Аплодисменти)
Translated by Rositsa Kratunkova
Reviewed by Darina Stoyanova

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com