ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Что мы узнали из 5 миллионов книг

Filmed:
2,049,453 views

Вы пробовали средство просмотра N-грамм от лабораторий Google? Этот увлекательный инструмент позволяет искать слова и идеи в базе данных из 5 миллионов книг за многие века. Эрез Либерман Айден и Жан-Баптист Мишель показывают, как оно работает, и показывают несколько неожиданных фактов, которые можно узнать из 500 миллиардов слов.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezЭрез LiebermanЛиберман AidenЭйден: EveryoneВсе knowsзнает
0
0
2000
Эрез Либерман Айден: Все знают,
00:17
that a pictureкартина is worthстоимость a thousandтысяча wordsслова.
1
2000
3000
что картинка стоит тысячи слов.
00:22
But we at HarvardHarvard
2
7000
2000
Но мы в Гарварде
00:24
were wonderingинтересно if this was really trueправда.
3
9000
3000
сомневались, правда ли это.
00:27
(LaughterСмех)
4
12000
2000
(Смех)
00:29
So we assembledсобранный a teamкоманда of expertsэксперты,
5
14000
4000
Поэтому мы собрали команду экспертов
00:33
spanningохватывающих HarvardHarvard, MITMIT,
6
18000
2000
из Гарварда, МТИ,
00:35
The Americanамериканский HeritageНаследие DictionaryСловарь, The EncyclopediaЭнциклопедия BritannicaBritannica
7
20000
3000
Словаря Американского Наследия, Энциклопедии Британника,
00:38
and even our proudгордый sponsorsспонсоры,
8
23000
2000
и даже нашего гордого спонсора —
00:40
the GoogleGoogle.
9
25000
3000
Google.
00:43
And we cogitatedразмышлял about this
10
28000
2000
Мы обдумывали это
00:45
for about four4 yearsлет.
11
30000
2000
примерно четыре года.
00:47
And we cameпришел to a startlingпоразительный conclusionвывод.
12
32000
5000
И пришли к поразительному умозаключению.
00:52
LadiesДамы and gentlemenгоспода, a pictureкартина is not worthстоимость a thousandтысяча wordsслова.
13
37000
3000
Дамы и господа, картинка не стоит тысячи слов.
00:55
In factфакт, we foundнайденный some picturesкартинки
14
40000
2000
Мы нашли некоторые картинки,
00:57
that are worthстоимость 500 billionмиллиард wordsслова.
15
42000
5000
которые стоят 500 миллиардов слов.
01:02
Jean-BaptisteЖан-Батист MichelМишель: So how did we get to this conclusionвывод?
16
47000
2000
Жан-Баптист Мишель: Как мы пришли к этому заключению?
01:04
So ErezЭрез and I were thinkingмышление about waysпути
17
49000
2000
Эрез и я размышляли о том,
01:06
to get a bigбольшой pictureкартина of humanчеловек cultureкультура
18
51000
2000
как получить общий план человеческой культуры и истории:
01:08
and humanчеловек historyистория: changeизменение over time.
19
53000
3000
изменения с течением времени.
01:11
So manyмногие booksкниги actuallyна самом деле have been writtenнаписано over the yearsлет.
20
56000
2000
За годы были написаны многие книги.
01:13
So we were thinkingмышление, well the bestЛучший way to learnучить from them
21
58000
2000
И мы подумали, что лучшим способом их изучить
01:15
is to readчитать all of these millionsмиллионы of booksкниги.
22
60000
2000
будет прочитать все эти миллионы книг.
01:17
Now of courseкурс, if there's a scaleмасштаб for how awesomeздорово that is,
23
62000
3000
Если бы была шкала, насколько круто бы это было,
01:20
that has to rankранг extremelyочень, extremelyочень highвысокая.
24
65000
3000
то это было бы очень, очень круто.
01:23
Now the problemпроблема is there's an X-axisОсь абсцисс for that,
25
68000
2000
Итак, для этого есть ось X,
01:25
whichкоторый is the practicalпрактическое axisось.
26
70000
2000
практическая ось.
01:27
This is very, very lowнизкий.
27
72000
2000
Это очень, очень низко.
01:29
(ApplauseАплодисменты)
28
74000
3000
(Аплодисменты)
01:32
Now people tendиметь тенденцию to use an alternativeальтернатива approachподход,
29
77000
3000
Сейчас люди предпочитают другой подход, состоящий в том,
01:35
whichкоторый is to take a fewмало sourcesисточники and readчитать them very carefullyвнимательно.
30
80000
2000
чтобы взять несколько источников, и прочитать их очень внимательно.
01:37
This is extremelyочень practicalпрактическое, but not so awesomeздорово.
31
82000
2000
Это очень практично, но не так круто.
01:39
What you really want to do
32
84000
3000
На самом деле хочется
01:42
is to get to the awesomeздорово yetвсе же practicalпрактическое partчасть of this spaceпространство.
33
87000
3000
добраться до практичной, но крутой части этого пространства.
01:45
So it turnsвитки out there was a companyКомпания acrossчерез the riverрека calledназывается GoogleGoogle
34
90000
3000
Оказывается, напротив, через реку, есть компания Google,
01:48
who had startedначал a digitizationоцифровка projectпроект a fewмало yearsлет back
35
93000
2000
которая несколько лет назад начала проект оцифровки,
01:50
that mightмог бы just enableвключить this approachподход.
36
95000
2000
который может позволить это сделать.
01:52
They have digitizedоцифрованы millionsмиллионы of booksкниги.
37
97000
2000
Они оцифровали миллионы книг.
01:54
So what that meansозначает is, one could use computationalвычислительный methodsметоды
38
99000
3000
Это означает, что можно использовать вычислительные методы
01:57
to readчитать all of the booksкниги in a clickщелчок of a buttonкнопка.
39
102000
2000
для прочтения всех этих книжек за один щелчок мыши.
01:59
That's very practicalпрактическое and extremelyочень awesomeздорово.
40
104000
3000
Это очень практично и невероятно круто.
02:03
ELAELA: Let me tell you a little bitнемного about where booksкниги come from.
41
108000
2000
ЭЛА: Давайте я расскажу о происхождении книг.
02:05
Sinceпоскольку time immemorialнезапамятные, there have been authorsавторы.
42
110000
3000
С незапамятных времён, были авторы.
02:08
These authorsавторы have been strivingборьба to writeзаписывать booksкниги.
43
113000
3000
Авторы изо всех сил стремились писать книги.
02:11
And this becameстал considerablyзначительно easierПолегче
44
116000
2000
С изобретением печатного станка несколько веков назад
02:13
with the developmentразвитие of the printingпечать pressНажмите some centuriesвека agoтому назад.
45
118000
2000
это стало заметно легче.
02:15
Sinceпоскольку then, the authorsавторы have wonвыиграл
46
120000
3000
С тех пор авторы победили
02:18
on 129 millionмиллиона distinctотчетливый occasionsслучаи,
47
123000
2000
в 129 миллионах случаев
02:20
publishingиздательский booksкниги.
48
125000
2000
публикации книг.
02:22
Now if those booksкниги are not lostпотерял to historyистория,
49
127000
2000
Если эти книги не затерялись в истории,
02:24
then they are somewhereгде-то in a libraryбиблиотека,
50
129000
2000
они хранятся где-то в какой-то библиотеке,
02:26
and manyмногие of those booksкниги have been gettingполучение retrievedизвлекаться from the librariesбиблиотеки
51
131000
3000
и многие из этих книг были извлечены из библиотек
02:29
and digitizedоцифрованы by GoogleGoogle,
52
134000
2000
и оцифрованы компанией Google,
02:31
whichкоторый has scannedсканируется 15 millionмиллиона booksкниги to dateДата.
53
136000
2000
которая на сегодня просканировала 15 миллионов книг.
02:33
Now when GoogleGoogle digitizesоцифровывает a bookкнига, they put it into a really niceхороший formatформат.
54
138000
3000
Когда компания Google оцифровывает книгу, они сохраняют её в очень удобном формате.
02:36
Now we'veмы в got the dataданные, plusплюс we have metadataметаданные.
55
141000
2000
У нас есть данные и есть метаданные.
02:38
We have informationИнформация about things like where was it publishedопубликованный,
56
143000
3000
У нас есть сведения о том, где книга была опубликована,
02:41
who was the authorавтор, when was it publishedопубликованный.
57
146000
2000
кто её автор, когда она была опубликована.
02:43
And what we do is go throughчерез all of those recordsучет
58
148000
3000
Мы прошлись по всем этим записям,
02:46
and excludeисключать everything that's not the highestнаибольший qualityкачественный dataданные.
59
151000
4000
и исключили всё, кроме данных наивысшего качества.
02:50
What we're left with
60
155000
2000
Таким образом,
02:52
is a collectionколлекция of five5 millionмиллиона booksкниги,
61
157000
3000
осталась коллекция из 5 миллионов книг,
02:55
500 billionмиллиард wordsслова,
62
160000
3000
500 миллиардов слов,
02:58
a stringстрока of charactersперсонажи a thousandтысяча timesраз longerдольше
63
163000
2000
строка символов в тысячу раз длиннее,
03:00
than the humanчеловек genomeгеном --
64
165000
3000
чем геном человека —
03:03
a textтекст whichкоторый, when writtenнаписано out,
65
168000
2000
если написать этот текст,
03:05
would stretchпротяжение from here to the MoonЛуна and back
66
170000
2000
то он протянется до Луны и обратно
03:07
10 timesраз over --
67
172000
2000
10 раз —
03:09
a veritableнастоящий shardосколок of our culturalкультурный genomeгеном.
68
174000
4000
настоящий осколок культурного генома.
03:13
Of courseкурс what we did
69
178000
2000
Естественно, мы сделали
03:15
when facedсталкиваются with suchтакие outrageousвозмутительный hyperboleгипербола ...
70
180000
3000
перед лицом такой вопиющей гиперболы...
03:18
(LaughterСмех)
71
183000
2000
(Смех)
03:20
was what any self-respectingобладающий чувством собственного достоинства researchersисследователи
72
185000
3000
то, что сделал бы любой
03:23
would have doneсделанный.
73
188000
3000
уважающий себя ученый.
03:26
We tookвзял a pageстраница out of XKCDXKCD,
74
191000
2000
Мы взяли страницу из XKDC
03:28
and we said, "Standстенд back.
75
193000
2000
и сказали: «Разойдись,
03:30
We're going to try scienceнаука."
76
195000
2000
мы займёмся наукой».
03:32
(LaughterСмех)
77
197000
2000
(Смех)
03:34
JMJM: Now of courseкурс, we were thinkingмышление,
78
199000
2000
ЖМ: Конечно, мы подумали,
03:36
well let's just first put the dataданные out there
79
201000
2000
давайте сначала сделаем данные доступными
03:38
for people to do scienceнаука to it.
80
203000
2000
для людей, которые применят к ним науку.
03:40
Now we're thinkingмышление, what dataданные can we releaseвыпуск?
81
205000
2000
И мы подумали, какие данные мы может опубликовать?
03:42
Well of courseкурс, you want to take the booksкниги
82
207000
2000
Конечно, хотелось взять и опубликовать
03:44
and releaseвыпуск the fullполный textтекст of these five5 millionмиллиона booksкниги.
83
209000
2000
полные тексты всех этих пяти миллионов книг.
03:46
Now GoogleGoogle, and JonДжон OrwantOrwant in particularконкретный,
84
211000
2000
Google, и Джон Орвант в частности,
03:48
told us a little equationуравнение that we should learnучить.
85
213000
2000
научили нас небольшому уравнению.
03:50
So you have five5 millionмиллиона, that is, five5 millionмиллиона authorsавторы
86
215000
3000
Итак, есть пять миллионов, значит пять миллионов авторов
03:53
and five5 millionмиллиона plaintiffsистцы is a massiveмассивный lawsuitсудебный процесс.
87
218000
3000
и пять миллионов истцов равняется огромная судебная тяжба.
03:56
So, althoughнесмотря на то что that would be really, really awesomeздорово,
88
221000
2000
И, хотя это было бы очень, просто нереально круто,
03:58
again, that's extremelyочень, extremelyочень impracticalнепрактичный.
89
223000
3000
опять же, это очень, просто нереально непрактично.
04:01
(LaughterСмех)
90
226000
2000
(Смех)
04:03
Now again, we kindсвоего рода of cavedобрушенный in,
91
228000
2000
Что ж, мы вроде как поддались,
04:05
and we did the very practicalпрактическое approachподход, whichкоторый was a bitнемного lessМеньше awesomeздорово.
92
230000
3000
и подошли к делу очень практично, хоть и не так круто.
04:08
We said, well insteadвместо of releasingрилизинг the fullполный textтекст,
93
233000
2000
Мы сказали, что вместо публикации полных текстов,
04:10
we're going to releaseвыпуск statisticsстатистика about the booksкниги.
94
235000
2000
мы опубликуем статистику о книгах.
04:12
So take for instanceпример "A gleamмерцать of happinessсчастье."
95
237000
2000
Возьмём, например, «A gleam of happiness »
04:14
It's four4 wordsслова; we call that a four-gramчетыре грамма.
96
239000
2000
Это четыре слова, мы называем это 4-грамма.
04:16
We're going to tell you how manyмногие timesраз a particularконкретный four-gramчетыре грамма
97
241000
2000
Мы скажем, как часто именно эта 4-грамма
04:18
appearedпоявился in booksкниги in 1801, 1802, 1803,
98
243000
2000
появлялась в книгах в 1801-м, 1802-м, 1803-м,
04:20
all the way up to 2008.
99
245000
2000
и так далее вплоть до 2008-го.
04:22
That givesдает us a time seriesсерии
100
247000
2000
Это даст временной ряд частоты использования
04:24
of how frequentlyчасто this particularконкретный sentenceпредложение was used over time.
101
249000
2000
именно этой фразы с течением времени.
04:26
We do that for all the wordsслова and phrasesфразы that appearпоявиться in those booksкниги,
102
251000
3000
Мы проделываем это для всех слов и фраз, появляющихся в этих книгах,
04:29
and that givesдает us a bigбольшой tableТаблица of two billionмиллиард linesлинии
103
254000
3000
и это даёт большую таблицу в два миллиарда строк,
04:32
that tell us about the way cultureкультура has been changingизменения.
104
257000
2000
которые говорят нам, каким образом изменялась культура.
04:34
ELAELA: So those two billionмиллиард linesлинии,
105
259000
2000
ЭЛА: Эти два миллиарда строк,
04:36
we call them two billionмиллиард n-gramsп-граммы.
106
261000
2000
мы называем их два миллиарда N-грамм.
04:38
What do they tell us?
107
263000
2000
Что они нам говорят?
04:40
Well the individualиндивидуальный n-gramsп-граммы measureизмерение culturalкультурный trendsтенденции.
108
265000
2000
Отдельные N-граммы измеряют культурные тенденции.
04:42
Let me give you an exampleпример.
109
267000
2000
Позвольте привести пример.
04:44
Let's supposeпредполагать that I am thrivingпроцветающий,
110
269000
2000
Предположим, я процветаю сегодня,
04:46
then tomorrowзавтра I want to tell you about how well I did.
111
271000
2000
и завтра хочу рассказать вам, как мне было хорошо.
04:48
And so I mightмог бы say, "YesterdayВчера, I throveпроцветал и культ."
112
273000
3000
Я могу сказать: «Вчера я процветал [throve]».
04:51
Alternativelyальтернативно, I could say, "YesterdayВчера, I thrivedпроцветали."
113
276000
3000
По-другому, я могу сказать: «Вчера я процветал [thrived]».
04:54
Well whichкоторый one should I use?
114
279000
3000
Какой вариант мне использовать?
04:57
How to know?
115
282000
2000
Как узнать?
04:59
As of about sixшесть monthsмесяцы agoтому назад,
116
284000
2000
Примерно шесть месяцев назад,
05:01
the stateгосударство of the artИзобразительное искусство in this fieldполе
117
286000
2000
положение дел в этой области
05:03
is that you would, for instanceпример,
118
288000
2000
было таким, что можно было, например,
05:05
go up to the followingследующий psychologistпсихолог with fabulousневероятный hairволосы,
119
290000
2000
подойти к психологу с поразительной стрижкой
05:07
and you'dвы бы say,
120
292000
2000
и спросить:
05:09
"SteveСтив, you're an expertэксперт on the irregularнерегулярный verbsглаголы.
121
294000
3000
«Стив, ты эксперт по неправильным глаголам.
05:12
What should I do?"
122
297000
2000
Как мне быть?»
05:14
And he'dон tell you, "Well mostбольшинство people say thrivedпроцветали,
123
299000
2000
А он бы ответил: «Большая часть людей сказала бы процветал [thrive],
05:16
but some people say throveпроцветал и культ."
124
301000
3000
но некоторые скажут процветал [throve]».
05:19
And you alsoтакже knewзнал, more or lessМеньше,
125
304000
2000
Как известно, более или менее,
05:21
that if you were to go back in time 200 yearsлет
126
306000
3000
если вернуться на 200 лет назад,
05:24
and askпросить the followingследующий statesmanгосударственный деятель with equallyв равной степени fabulousневероятный hairволосы,
127
309000
3000
и спросить вот этого политика, с не менее поразительной стрижкой,
05:27
(LaughterСмех)
128
312000
3000
(Смех)
05:30
"TomТом, what should I say?"
129
315000
2000
«Том, как нужно говорить?»
05:32
He'dОн say, "Well, in my day, mostбольшинство people throveпроцветал и культ,
130
317000
2000
Он бы ответил: «В мои дни большая часть людей процветала [throve],
05:34
but some thrivedпроцветали."
131
319000
3000
но некоторые процветали [thrived]».
05:37
So now what I'm just going to showпоказать you is rawсырье dataданные.
132
322000
2000
Я вам покажу необработанные данные.
05:39
Two rowsстроки from this tableТаблица of two billionмиллиард entriesзаписи.
133
324000
4000
Две строки из таблицы в два миллиарда строк.
05:43
What you're seeingвидя is yearгод by yearгод frequencyчастота
134
328000
2000
Здесь показана, год за годом,
05:45
of "thrivedпроцветали" and "throveпроцветал и культ" over time.
135
330000
3000
частота слов «процветал [thrived]» и «процветал [throve]».
05:49
Now this is just two
136
334000
2000
И это всего лишь два
05:51
out of two billionмиллиард rowsстроки.
137
336000
3000
из двух миллиардов строк.
05:54
So the entireвсе dataданные setзадавать
138
339000
2000
Весь набор данных
05:56
is a billionмиллиард timesраз more awesomeздорово than this slideгорка.
139
341000
3000
в миллиард раз круче, чем этот слайд.
05:59
(LaughterСмех)
140
344000
2000
(Смех)
06:01
(ApplauseАплодисменты)
141
346000
4000
(Аплодисменты)
06:05
JMJM: Now there are manyмногие other picturesкартинки that are worthстоимость 500 billionмиллиард wordsслова.
142
350000
2000
ЖМ: Есть много других картинок, которые стоят 500 миллиардов слов.
06:07
For instanceпример, this one.
143
352000
2000
Например, вот эта.
06:09
If you just take influenzaгрипп,
144
354000
2000
Если взять грипп,
06:11
you will see peaksпики at the time where you knewзнал
145
356000
2000
можно видеть пики в то время,
06:13
bigбольшой fluгрипп epidemicsэпидемии were killingубийство people around the globeземной шар.
146
358000
3000
когда эпидемии гриппа убивали людей по всему миру.
06:16
ELAELA: If you were not yetвсе же convincedубежденный,
147
361000
3000
ЭЛА: Если это вас не убеждает,
06:19
seaморе levelsуровни are risingподнимающийся,
148
364000
2000
уровень моря поднимается,
06:21
so is atmosphericатмосферный COКолорадо2 and globalГлобальный temperatureтемпература.
149
366000
3000
а также содержание углекислого газа в атмосфере и мировая температура.
06:24
JMJM: You mightмог бы alsoтакже want to have a look at this particularконкретный n-gramн-грамм,
150
369000
3000
ЖМ: А также можно посмотреть на вот эту N-грамму,
06:27
and that's to tell NietzscheНицше that God is not deadмертвый,
151
372000
3000
и сказать Ницше, что Бог не мёртв,
06:30
althoughнесмотря на то что you mightмог бы agreeдать согласие that he mightмог бы need a better publicistпублицист.
152
375000
3000
хотя можно согласиться, что ему нужен лучший публицист.
06:33
(LaughterСмех)
153
378000
2000
(Смех)
06:35
ELAELA: You can get at some prettyСимпатичная abstractАбстрактные conceptsконцепции with this sortСортировать of thing.
154
380000
3000
ЭЛА: С помощью этого инструмента можно добраться до довольно таки абстрактных концепций.
06:38
For instanceпример, let me tell you the historyистория
155
383000
2000
Например, позвольте рассказать
06:40
of the yearгод 1950.
156
385000
2000
историю 1950-го года.
06:42
Prettyмилая much for the vastогромный majorityбольшинство of historyистория,
157
387000
2000
На протяжении большей части истории
06:44
no one gaveдал a damnчерт about 1950.
158
389000
2000
1950-й вообще никого не волновал.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
В 1700-х, 1800-х, 1900-х
06:48
no one caredуход.
160
393000
3000
никто им не интересовался.
06:52
ThroughЧерез the 30s and 40s,
161
397000
2000
В течение 30-х и 40-х
06:54
no one caredуход.
162
399000
2000
никто им не интересовался.
06:56
SuddenlyВдруг, in the mid-в середине40s,
163
401000
2000
Внезапно, в середине 40-х,
06:58
there startedначал to be a buzzжужжание.
164
403000
2000
началось обсуждение.
07:00
People realizedпонял that 1950 was going to happenслучаться,
165
405000
2000
Люди поняли, что скоро наступит 1950-й,
07:02
and it could be bigбольшой.
166
407000
2000
и это будет событие.
07:04
(LaughterСмех)
167
409000
3000
(Смех)
07:07
But nothing got people interestedзаинтересованный in 1950
168
412000
3000
Но ничто не интересовало людей сильнее в 1950-м,
07:10
like the yearгод 1950.
169
415000
3000
чем сам 1950-й.
07:13
(LaughterСмех)
170
418000
3000
(Смех)
07:16
People were walkingгулять пешком around obsessedодержимый.
171
421000
2000
Люди помешались.
07:18
They couldn'tне может stop talkingговорящий
172
423000
2000
Они не могли прекратить
07:20
about all the things they did in 1950,
173
425000
3000
рассказывать обо всём, что они делали в 1950-м,
07:23
all the things they were planningпланирование to do in 1950,
174
428000
3000
обо всём, что они планировали сделать в 1950-м,
07:26
all the dreamsмечты of what they wanted to accomplishвыполнять in 1950.
175
431000
5000
обо всех мечтах, которые они хотели осуществить в 1950-м.
07:31
In factфакт, 1950 was so fascinatingочаровательный
176
436000
2000
На самом деле, 1950-й был настолько восхитительным,
07:33
that for yearsлет thereafterпосле этого,
177
438000
2000
что годы спустя,
07:35
people just keptхранится talkingговорящий about all the amazingудивительно things that happenedполучилось,
178
440000
3000
люди продолжали говорить обо всех удивительных событиях, которые случились
07:38
in '51, '52, '53.
179
443000
2000
в 1951-м, 1952-м, 1953-м.
07:40
Finallyв заключение in 1954,
180
445000
2000
Наконец, в 1954-м,
07:42
someoneкто то wokeпросыпался up and realizedпонял
181
447000
2000
кто-то осознал,
07:44
that 1950 had gottenполученный somewhatв некотором роде passпроходитьé.
182
449000
4000
что 1950-й стал старомодным.
07:48
(LaughterСмех)
183
453000
2000
(Смех)
07:50
And just like that, the bubbleпузырь burstвзрыв.
184
455000
2000
Вот так пузырь и лопнул.
07:52
(LaughterСмех)
185
457000
2000
(Смех)
07:54
And the storyистория of 1950
186
459000
2000
История 1950-го
07:56
is the storyистория of everyкаждый yearгод that we have on recordзапись,
187
461000
2000
повторяется для каждого года, о котором у нас есть данные,
07:58
with a little twistтвист, because now we'veмы в got these niceхороший chartsграфики.
188
463000
3000
с небольшим изменением, потому что теперь у нас есть вот эти графики.
08:01
And because we have these niceхороший chartsграфики, we can measureизмерение things.
189
466000
3000
Благодаря этим графикам, мы можем измерить.
08:04
We can say, "Well how fastбыстро does the bubbleпузырь burstвзрыв?"
190
469000
2000
Можно сказать: «Как быстро лопаются пузыри?»
08:06
And it turnsвитки out that we can measureизмерение that very preciselyточно.
191
471000
3000
Оказывается, это можно очень точно измерить.
08:09
Equationsуравнения were derivedполученный, graphsдиаграммы were producedпроизведенный,
192
474000
3000
Уравнения были выведены, графики были построены,
08:12
and the netсеть resultрезультат
193
477000
2000
и конечным результатом стало то,
08:14
is that we find that the bubbleпузырь burstsлопается fasterБыстрее and fasterБыстрее
194
479000
3000
что пузыри лопаются быстрее и быстрее
08:17
with eachкаждый passingпрохождение yearгод.
195
482000
2000
с каждым прошедшим годом.
08:19
We are losingпроигрыш interestинтерес in the pastмимо more rapidlyбыстро.
196
484000
5000
Мы всё быстрее теряем интерес к прошлому.
08:24
JMJM: Now a little pieceкусок of careerкарьера adviceсовет.
197
489000
2000
ЖМ: Небольшой карьерный совет.
08:26
So for those of you who seekискать to be famousизвестный,
198
491000
2000
Для тех из вас, кто стремится к славе,
08:28
we can learnучить from the 25 mostбольшинство famousизвестный politicalполитическая figuresцифры,
199
493000
2000
можно научиться у 25-ти самых известных политиков,
08:30
authorsавторы, actorsактеры and so on.
200
495000
2000
авторов, актёров, и т.д.
08:32
So if you want to becomeстали famousизвестный earlyрано on, you should be an actorактер,
201
497000
3000
Если вы хотите стать известным рано, вам нужно быть актёром,
08:35
because then fameизвестность startsначинается risingподнимающийся by the endконец of your 20s --
202
500000
2000
потому что слава начинается к концу их третьего десятка —
08:37
you're still youngмолодой, it's really great.
203
502000
2000
вы всё ещё молоды, это здорово.
08:39
Now if you can wait a little bitнемного, you should be an authorавтор,
204
504000
2000
Если вы согласны подождать, вам нужно стать автором,
08:41
because then you riseподъем to very great heightsвысоты,
205
506000
2000
потому что это позволит подняться на большие высоты,
08:43
like Markотметка Twainдвое, for instanceпример: extremelyочень famousизвестный.
206
508000
2000
как Марк Твен, например, очень знаменит.
08:45
But if you want to reachдостичь the very topВверх,
207
510000
2000
Но если вы хотите подняться на самую вершину,
08:47
you should delayзадержка gratificationудовлетворение
208
512000
2000
нужно отложить удовольствие
08:49
and, of courseкурс, becomeстали a politicianполитик.
209
514000
2000
и конечно, стать политиком.
08:51
So here you will becomeстали famousизвестный by the endконец of your 50s,
210
516000
2000
Вы станете известны под конец шестого десятка,
08:53
and becomeстали very, very famousизвестный afterwardпозже.
211
518000
2000
и станете очень, очень знаменитым после.
08:55
So scientistsученые alsoтакже tendиметь тенденцию to get famousизвестный when they're much olderстаршая.
212
520000
3000
Учёные тоже становятся знаменитыми, когда они становятся старее.
08:58
Like for instanceпример, biologistsбиологам and physicsфизика
213
523000
2000
Например, биологи и физики
09:00
tendиметь тенденцию to be almostпочти as famousизвестный as actorsактеры.
214
525000
2000
становятся примерно такими же знаменитыми, как и актёры.
09:02
One mistakeошибка you should not do is becomeстали a mathematicianматематик.
215
527000
3000
Ошибкой, которую делать не стоит — становиться математиком.
09:05
(LaughterСмех)
216
530000
2000
(Смех)
09:07
If you do that,
217
532000
2000
В этом случае,
09:09
you mightмог бы think, "Oh great. I'm going to do my bestЛучший work when I'm in my 20s."
218
534000
3000
можно подумать: «Отлично, свои лучшие работы я сделаю на третьем десятке».
09:12
But guessУгадай what, nobodyникто will really careзабота.
219
537000
2000
Но знаете что? Никому это не интересно.
09:14
(LaughterСмех)
220
539000
3000
(Смех)
09:17
ELAELA: There are more soberingотрезвление notesзаметки
221
542000
2000
ЭЛА: В N-граммах есть
09:19
amongсреди the n-gramsп-граммы.
222
544000
2000
ещё более отрезвляющие вещи.
09:21
For instanceпример, here'sвот the trajectoryтраектория of MarcМарк ChagallШагал,
223
546000
2000
Например, вот траектория Марка Шагала,
09:23
an artistхудожник bornРодился in 1887.
224
548000
2000
художника, родившегося в 1887-м.
09:25
And this looksвыглядит like the normalнормальный trajectoryтраектория of a famousизвестный personчеловек.
225
550000
3000
Выглядит как нормальная траектория знаменитого человека.
09:28
He getsполучает more and more and more famousизвестный,
226
553000
4000
Он становится всё более и более знаменитым,
09:32
exceptКроме if you look in GermanНемецкий.
227
557000
2000
за исключением знаменитости среди немецкоговорящих.
09:34
If you look in GermanНемецкий, you see something completelyполностью bizarreэксцентричный,
228
559000
2000
Если посмотреть на немецкий язык, то можно увидеть что совершенно невообразимое,
09:36
something you prettyСимпатичная much never see,
229
561000
2000
что-то, что видишь не часто —
09:38
whichкоторый is he becomesстановится extremelyочень famousизвестный
230
563000
2000
он становится чрезвычайно знаменитым,
09:40
and then all of a suddenвнезапно plummetsгрузила,
231
565000
2000
а затем внезапно падает,
09:42
going throughчерез a nadirнадир betweenмежду 1933 and 1945,
232
567000
3000
проходя надир между 1933-м и 1945-м годами,
09:45
before reboundingотскакивать afterwardпозже.
233
570000
3000
прежде чем вернуться позже.
09:48
And of courseкурс, what we're seeingвидя
234
573000
2000
Конечно, здесь мы наблюдаем тот факт,
09:50
is the factфакт MarcМарк ChagallШагал was a Jewishиудейский artistхудожник
235
575000
3000
что Марк Шагал был еврейским художником
09:53
in Naziнацист GermanyГермания.
236
578000
2000
в нацистской Германии.
09:55
Now these signalsсигналы
237
580000
2000
Эти сигналы
09:57
are actuallyна самом деле so strongсильный
238
582000
2000
настолько сильны,
09:59
that we don't need to know that someoneкто то was censoredцензурой.
239
584000
3000
что нам не нужно знать, что кто-то подвергался цензуре.
10:02
We can actuallyна самом деле figureфигура it out
240
587000
2000
Мы можем это понять,
10:04
usingс помощью really basicосновной signalсигнал processingобработка.
241
589000
2000
используя простейший анализ сигналов.
10:06
Here'sВот a simpleпросто way to do it.
242
591000
2000
Вот простой способ это сделать.
10:08
Well, a reasonableразумный expectationожидание
243
593000
2000
Разумно предположить,
10:10
is that somebody'sчей-то fameизвестность in a givenданный periodпериод of time
244
595000
2000
что чья-то слава в данный период времени
10:12
should be roughlyгрубо the averageв среднем of theirих fameизвестность before
245
597000
2000
должны быть примерно равна среднему славы до
10:14
and theirих fameизвестность after.
246
599000
2000
и славы после.
10:16
So that's sortСортировать of what we expectожидать.
247
601000
2000
Это то, что мы ожидаем.
10:18
And we compareсравнить that to the fameизвестность that we observeнаблюдать.
248
603000
3000
И мы сравним это с тем, что мы наблюдаем.
10:21
And we just divideделить one by the other
249
606000
2000
Затем делим одно на второе,
10:23
to produceпроизводить something we call a suppressionподавление indexиндекс.
250
608000
2000
чтобы получить что-то, называемое индекс подавления.
10:25
If the suppressionподавление indexиндекс is very, very, very smallмаленький,
251
610000
3000
Если индекс подавления очень, очень, очень маленький,
10:28
then you very well mightмог бы be beingявляющийся suppressedподавленный.
252
613000
2000
вероятно, что вас действительно подавляют.
10:30
If it's very largeбольшой, maybe you're benefitingпользу from propagandaпропаганда.
253
615000
3000
Если он очень велик, наверное, вас пропагандируют.
10:34
JMJM: Now you can actuallyна самом деле look at
254
619000
2000
ЖМ: Теперь можно посмотреть
10:36
the distributionраспределение of suppressionподавление indexesиндексы over wholeвсе populationsпопуляции.
255
621000
3000
на распределение индексов подавления по всёму населению.
10:39
So for instanceпример, here --
256
624000
2000
Например, здесь:
10:41
this suppressionподавление indexиндекс is for 5,000 people
257
626000
2000
это индекс подавления для 5 тысяч людей,
10:43
pickedвыбрал in Englishанглийский booksкниги where there's no knownизвестен suppressionподавление --
258
628000
2000
взятых из английских книг, где известно про отсутствие цензуры,
10:45
it would be like this, basicallyв основном tightlyплотно centeredв центре on one.
259
630000
2000
он примерно вот такой, сконцентрированный возле единицы.
10:47
What you expectожидать is basicallyв основном what you observeнаблюдать.
260
632000
2000
Ожидаемое совпадает с наблюдаемым.
10:49
This is distributionраспределение as seenвидели in GermanyГермания --
261
634000
2000
Это распределение наблюдалось в Германии —
10:51
very differentдругой, it's shiftedсдвинут to the left.
262
636000
2000
оно совершенно другое, смещено влево.
10:53
People talkedговорили about it twiceдважды lessМеньше as it should have been.
263
638000
3000
Люди говорили об этом в два раза реже, чем должны были.
10:56
But much more importantlyважно, the distributionраспределение is much widerШире.
264
641000
2000
Однако, что более важно, распределение намного шире.
10:58
There are manyмногие people who endконец up on the farдалеко left on this distributionраспределение
265
643000
3000
О многих людях, которые оказываются на левом краю этого распределения,
11:01
who are talkedговорили about 10 timesраз fewerменьше than they should have been.
266
646000
3000
говорят в 10 раз меньше, чем должны.
11:04
But then alsoтакже manyмногие people on the farдалеко right
267
649000
2000
Однако многие люди на правом краю
11:06
who seemказаться to benefitвыгода from propagandaпропаганда.
268
651000
2000
пожинают плоды пропаганды.
11:08
This pictureкартина is the hallmarkотличительный признак of censorshipцензура in the bookкнига recordзапись.
269
653000
3000
Эта картинка — клеймо цензуры на книжной истории.
11:11
ELAELA: So culturomicsculturomics
270
656000
2000
ЭЛА: Мы называем этот метод
11:13
is what we call this methodметод.
271
658000
2000
культуромикой.
11:15
It's kindсвоего рода of like genomicsгеномика.
272
660000
2000
Это как геномика.
11:17
ExceptКроме genomicsгеномика is a lensобъектив on biologyбиология
273
662000
2000
Разве что геномика это линза для биологии,
11:19
throughчерез the windowокно of the sequenceпоследовательность of basesосновы in the humanчеловек genomeгеном.
274
664000
3000
взгляд сквозь окно последовательностей оснований генома человека.
11:22
CulturomicsCulturomics is similarаналогичный.
275
667000
2000
Культуромика сходна.
11:24
It's the applicationзаявление of massive-scaleмассивное масштаба dataданные collectionколлекция analysisанализ
276
669000
3000
Это применение анализа наборов данных огромного масштаба
11:27
to the studyизучение of humanчеловек cultureкультура.
277
672000
2000
к изучению человеческой культуры.
11:29
Here, insteadвместо of throughчерез the lensобъектив of a genomeгеном,
278
674000
2000
Но взамен линзы генома,
11:31
throughчерез the lensобъектив of digitizedоцифрованы piecesкуски of the historicalисторический recordзапись.
279
676000
3000
мы смотрим сквозь линзу оцифрованных частиц истории.
11:34
The great thing about culturomicsculturomics
280
679000
2000
Замечательным аспектом культуромики является то,
11:36
is that everyoneвсе can do it.
281
681000
2000
что любой может ею заняться.
11:38
Why can everyoneвсе do it?
282
683000
2000
Почему же любой может ею заняться?
11:40
EveryoneВсе can do it because threeтри guys,
283
685000
2000
Потому что эти парни,
11:42
JonДжон OrwantOrwant, MattMatt GrayСерый and Will BrockmanБрокман over at GoogleGoogle,
284
687000
3000
Джон Орвант, Мэтт Грей и Уилл Брокман из Google,
11:45
saw the prototypeопытный образец of the NgramNgram Viewerзритель,
285
690000
2000
увидев прототип средства просмотра N-грамм,
11:47
and they said, "This is so funвесело.
286
692000
2000
сказали: «Это очень весёлая вещь.
11:49
We have to make this availableдоступный for people."
287
694000
3000
Давайте это опубликуем».
11:52
So in two weeksнедель flatквартира -- the two weeksнедель before our paperбумага cameпришел out --
288
697000
2000
Ровно за две недели — за две недели до публикации нашей статьи —
11:54
they codedзакодированный up a versionверсия of the NgramNgram Viewerзритель for the generalГенеральная publicобщественности.
289
699000
3000
они запрограммировали публичную версию средства просмотра N-грамм.
11:57
And so you too can typeтип in any wordслово or phraseфраза that you're interestedзаинтересованный in
290
702000
3000
Теперь и вы можете напечатать любое слово или предложение, которое вас интересует,
12:00
and see its n-gramн-грамм immediatelyнемедленно --
291
705000
2000
и сразу посмотреть его N-граммы,
12:02
alsoтакже browseпросматривать examplesПримеры of all the variousразличный booksкниги
292
707000
2000
включая просмотр примеров из всех тех разных книг,
12:04
in whichкоторый your n-gramн-грамм appearsпоявляется.
293
709000
2000
в которых встречается ваша N-грамма.
12:06
JMJM: Now this was used over a millionмиллиона timesраз on the first day,
294
711000
2000
ЖМ: В первый же день этим воспользовались более миллиона раз,
12:08
and this is really the bestЛучший of all the queriesзапросы.
295
713000
2000
и это — лучшие из всех запросов.
12:10
So people want to be theirих bestЛучший, put theirих bestЛучший footфут forwardвперед.
296
715000
3000
Люди хотят показать себя с наилучшей стороны.
12:13
But it turnsвитки out in the 18thго centuryвека, people didn't really careзабота about that at all.
297
718000
3000
Однако оказывается, что в 18-м веке людей это совсем не интересовало.
12:16
They didn't want to be theirих bestЛучший, they wanted to be theirих beftbeft.
298
721000
3000
Они не хотели показать себя с лучшей стороны [best], они хотели показать себя с лучшей штороны [beft].
12:19
So what happenedполучилось is, of courseкурс, this is just a mistakeошибка.
299
724000
3000
Как обычно, это была просто ошибка.
12:22
It's not that stroveноровил for mediocrityпосредственность,
300
727000
2000
Это не стремление к посредственности,
12:24
it's just that the S used to be writtenнаписано differentlyиначе, kindсвоего рода of like an F.
301
729000
3000
просто буква S писалась по-другому, похоже на F.
12:27
Now of courseкурс, GoogleGoogle didn't pickвыбирать this up at the time,
302
732000
3000
Конечно, Google тогда это не отследил,
12:30
so we reportedсообщается this in the scienceнаука articleстатья that we wroteписал.
303
735000
3000
поэтому мы отметили это в написанной нами статье.
12:33
But it turnsвитки out this is just a reminderнапоминание
304
738000
2000
Однако оказывается, что это просто напоминание о том, что,
12:35
that, althoughнесмотря на то что this is a lot of funвесело,
305
740000
2000
несмотря на всё веселье,
12:37
when you interpretинтерпретировать these graphsдиаграммы, you have to be very carefulосторожный,
306
742000
2000
при объяснении этих графиков нужно быть очень осторожным,
12:39
and you have to adoptпринять the baseбаза standardsстандарты in the sciencesнауки.
307
744000
3000
и нужно применять лучшие научные стандарты.
12:42
ELAELA: People have been usingс помощью this for all kindsвиды of funвесело purposesцели.
308
747000
3000
ЭЛА: Как только люди этим не пользовались.
12:45
(LaughterСмех)
309
750000
7000
(Смех)
12:52
ActuallyНа самом деле, we're not going to have to talk,
310
757000
2000
На самом деле, говорить ничего не нужно,
12:54
we're just going to showпоказать you all the slidesслайды and remainоставаться silentбесшумный.
311
759000
3000
мы просто покажем вам слайды, молча.
12:57
This personчеловек was interestedзаинтересованный in the historyистория of frustrationразочарование.
312
762000
3000
Этого человека интересовала история расстройств.
13:00
There's variousразличный typesтипы of frustrationразочарование.
313
765000
3000
Есть разные типы расстройств.
13:03
If you stubогрызок your toeпалец, that's a one A "arghArgh."
314
768000
3000
Если вы ударились большим пальцем, это «ах» с одним А.
13:06
If the planetпланета EarthЗемля is annihilatedуничтоженный by the VogonsVogons
315
771000
2000
Если планету Земля аннигилировали вогоны,
13:08
to make roomкомната for an interstellarмежзвездный bypassбайпас,
316
773000
2000
чтобы освободить место для межгалактического туннеля,
13:10
that's an eight8 A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
это «аааааааах» с восемью А.
13:12
This personчеловек studiesисследования all the "arghsarghs,"
318
777000
2000
Этот человек изучил все «ахи»,
13:14
from one throughчерез eight8 A'sВ виде.
319
779000
2000
содержащие от одного до восьми А.
13:16
And it turnsвитки out
320
781000
2000
Оказывается,
13:18
that the less-frequentреже "arghsarghs"
321
783000
2000
наиболее редкими «ахами» являются те,
13:20
are, of courseкурс, the onesте, that correspondвести переписку to things that are more frustratingразочаровывающий --
322
785000
3000
которые относятся к наиболее пугающим вещам,
13:23
exceptКроме, oddlyстранно, in the earlyрано 80s.
323
788000
3000
кроме, как ни странно, начала 80-х.
13:26
We think that mightмог бы have something to do with ReaganРейган.
324
791000
2000
Наверное, Рейган имеет к этому отношение.
13:28
(LaughterСмех)
325
793000
2000
(Смех)
13:30
JMJM: There are manyмногие usagesобыкновений of this dataданные,
326
795000
3000
ЖМ: Эти данные можно использовать по-разному,
13:33
but the bottomдно lineлиния is that the historicalисторический recordзапись is beingявляющийся digitizedоцифрованы.
327
798000
3000
но суть в том, что история оцифровывается.
13:36
GoogleGoogle has startedначал to digitizeпреобразовывать в цифровой форме 15 millionмиллиона booksкниги.
328
801000
2000
Google начал оцифровывать 15 миллионов книг.
13:38
That's 12 percentпроцент of all the booksкниги that have ever been publishedопубликованный.
329
803000
2000
Это 12 процентов всех когда-либо напечатанных книг.
13:40
It's a sizableзначительный chunkломоть of humanчеловек cultureкультура.
330
805000
3000
Это заметная часть человеческой культуры.
13:43
There's much more in cultureкультура: there's manuscriptsрукописи, there newspapersгазеты,
331
808000
3000
Но в культуре намного больше вещей: рукописи, газеты,
13:46
there's things that are not textтекст, like artИзобразительное искусство and paintingsкартины.
332
811000
2000
нетекстовые вещи, например искусство и картины.
13:48
These all happenслучаться to be on our computersкомпьютеры,
333
813000
2000
Всё это оказывается на наших компьютерах,
13:50
on computersкомпьютеры acrossчерез the worldМир.
334
815000
2000
на компьютерах по всему миру.
13:52
And when that happensпроисходит, that will transformпреобразование the way we have
335
817000
3000
И когда это случится, это изменит то,
13:55
to understandПонимаю our pastмимо, our presentнастоящее время and humanчеловек cultureкультура.
336
820000
2000
как мы понимаем прошлое, настоящее и человеческую культуру.
13:57
Thank you very much.
337
822000
2000
Спасибо большое.
13:59
(ApplauseАплодисменты)
338
824000
3000
(Аплодисменты)
Translated by Aliaksandr Autayeu
Reviewed by Alexandra Egorova

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com