ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Што научивме од 5 милиони книги

Filmed:
2,049,453 views

Дали некогаш си имате играно со „Ngram Viewer“ на Гугл? Тоа е алатка од која станувате зависни и која ви овозможува да пребарувате зборови и идеи во база на податоци од пет милиони книги. Ерез Либерман Ејден и Жан-Батист Мишел ни покажуваат како функционира оваа алатка и ни демонстрираат неколку од изненадувачките работи кои можеме да ги научиме од 500 милијарди зборови.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
Erez Lieberman Aiden: Everyone knows
0
0
2000
Ерез Либерман Ејден: Сите знаат
00:17
that a picture is worth a thousand words.
1
2000
3000
дека една слика вреди илјада зборови.
00:22
But we at Harvard
2
7000
2000
Но, ние од Харвард
00:24
were wondering if this was really true.
3
9000
3000
се прашувавме дали ова навистина е така.
00:27
(Laughter)
4
12000
2000
(смеа)
00:29
So we assembled a team of experts,
5
14000
4000
Па, составивме тим од експерти
00:33
spanning Harvard, MIT,
6
18000
2000
од Харвард, МИТ,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
20000
3000
Американскиот речник на зборови, Енциклопедија Британика,
00:38
and even our proud sponsors,
8
23000
2000
па дури и од нашиот горд спонзор
00:40
the Google.
9
25000
3000
Гугл.
00:43
And we cogitated about this
10
28000
2000
Внимателно работевме на ова
00:45
for about four years.
11
30000
2000
околу четири години.
00:47
And we came to a startling conclusion.
12
32000
5000
И дојдовме до неверојатен заклучок.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
37000
3000
Дами и господа, сликата не вреди илјада зборови.
00:55
In fact, we found some pictures
14
40000
2000
Всушност, најдовме некои слики
00:57
that are worth 500 billion words.
15
42000
5000
кои вредат 500 милијарди зборови.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
47000
2000
Жан-Батист Мишел: Како дојдовме до овој заклучок?
01:04
So Erez and I were thinking about ways
17
49000
2000
Јас и Ерез размислувавме како
01:06
to get a big picture of human culture
18
51000
2000
да добиеме голема слика за човечката култура
01:08
and human history: change over time.
19
53000
3000
и човечката историја, за промените низ времето.
01:11
So many books actually have been written over the years.
20
56000
2000
Досега се напишани многу книги
01:13
So we were thinking, well the best way to learn from them
21
58000
2000
и си рековме дека најдобриот начин да учиме од нив
01:15
is to read all of these millions of books.
22
60000
2000
е да ги прочитаме сите тие милиони книги.
01:17
Now of course, if there's a scale for how awesome that is,
23
62000
3000
Се разбира, доколку постои скала на луди нешта,
01:20
that has to rank extremely, extremely high.
24
65000
3000
ова мора да се рангира екстремно високо.
01:23
Now the problem is there's an X-axis for that,
25
68000
2000
Проблемот е што истовремено постои и Х оска,
01:25
which is the practical axis.
26
70000
2000
која е многу практична оска.
01:27
This is very, very low.
27
72000
2000
На неа сме многу ниско.
01:29
(Applause)
28
74000
3000
(аплауз)
01:32
Now people tend to use an alternative approach,
29
77000
3000
Луѓето често користат алтернативен пристап,
01:35
which is to take a few sources and read them very carefully.
30
80000
2000
т.е. земаат неколку извори и ги читаат многу внимателно.
01:37
This is extremely practical, but not so awesome.
31
82000
2000
Ова е многу практично, но не и многу луда работа.
01:39
What you really want to do
32
84000
3000
Она што навистина сакате да го направите
01:42
is to get to the awesome yet practical part of this space.
33
87000
3000
е да дојдете до лудиот, но и практичен дел од овој простор.
01:45
So it turns out there was a company across the river called Google
34
90000
3000
Излезе дека има една компанија преку реката што се вика Гугл,
01:48
who had started a digitization project a few years back
35
93000
2000
која неколку години претходно започнала проект за дигитализација,
01:50
that might just enable this approach.
36
95000
2000
кој би можел да го овозможи овој пристап.
01:52
They have digitized millions of books.
37
97000
2000
Тие имаат дигитализирано милиони книги.
01:54
So what that means is, one could use computational methods
38
99000
3000
Тоа значи дека можат да се користат методи за пресметка
01:57
to read all of the books in a click of a button.
39
102000
2000
кои ќе овозможат читање на сите книги со еден клик.
01:59
That's very practical and extremely awesome.
40
104000
3000
Тоа е многу практично и ептен лудо.
02:03
ELA: Let me tell you a little bit about where books come from.
41
108000
2000
Да ви кажам малку за тоа од каде доаѓаат книгите.
02:05
Since time immemorial, there have been authors.
42
110000
3000
Уште од памтивек постоеле автори,
02:08
These authors have been striving to write books.
43
113000
3000
кои настојувале да пишуваат книги,
02:11
And this became considerably easier
44
116000
2000
што станало значително полесно
02:13
with the development of the printing press some centuries ago.
45
118000
2000
со развојот на машината за печатење пред неколку века.
02:15
Since then, the authors have won
46
120000
3000
Оттогаш, авторите успеале
02:18
on 129 million distinct occasions,
47
123000
2000
во 129 милиони поединечни случаи
02:20
publishing books.
48
125000
2000
да објават книги.
02:22
Now if those books are not lost to history,
49
127000
2000
Доколку овие книги не се изгубени,
02:24
then they are somewhere in a library,
50
129000
2000
тогаш се наоѓаат некаде во некоја библиотека.
02:26
and many of those books have been getting retrieved from the libraries
51
131000
3000
Многу од овие книги
02:29
and digitized by Google,
52
134000
2000
се дигитализирани од страна на Гугл,
02:31
which has scanned 15 million books to date.
53
136000
2000
кој досега има скенирано 15 милиони книги.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
138000
3000
Кога Гугл дигитализира книга, ја става во навистина убав формат.
02:36
Now we've got the data, plus we have metadata.
55
141000
2000
Сега ги имаме податоците, плус имаме и метаподатоци,
02:38
We have information about things like where was it published,
56
143000
3000
т.е. каде била објавена книгата,
02:41
who was the author, when was it published.
57
146000
2000
кој е авторот, кога била објавена.
02:43
And what we do is go through all of those records
58
148000
3000
Потоа, ги прегледавме сите овие податоци
02:46
and exclude everything that's not the highest quality data.
59
151000
4000
и елиминиравме сè што не е со највисок квалитет.
02:50
What we're left with
60
155000
2000
Она што ни останува
02:52
is a collection of five million books,
61
157000
3000
е колекција од пет милиони книги.
02:55
500 billion words,
62
160000
3000
500 милијарди зборови.
02:58
a string of characters a thousand times longer
63
163000
2000
Низа од знаци илјада пати подолга
03:00
than the human genome --
64
165000
3000
од човечкиот геном -
03:03
a text which, when written out,
65
168000
2000
текст кој, кога би бил испишан,
03:05
would stretch from here to the Moon and back
66
170000
2000
би се протегал од овде до Месечината и назад
03:07
10 times over --
67
172000
2000
10 пати последователно -
03:09
a veritable shard of our cultural genome.
68
174000
4000
вистински сведок на нашиот културолошки геном.
03:13
Of course what we did
69
178000
2000
Се разбира, она што тогаш го направивме,
03:15
when faced with such outrageous hyperbole ...
70
180000
3000
соочени со една ваква безгранична хипербола...
03:18
(Laughter)
71
183000
2000
(смеа)
03:20
was what any self-respecting researchers
72
185000
3000
е она што секои истражувачи со самопочит
03:23
would have done.
73
188000
3000
би го направиле.
03:26
We took a page out of XKCD,
74
191000
2000
Како и во XKCD стриповите,
03:28
and we said, "Stand back.
75
193000
2000
рековме „Настрана, ве молиме.
03:30
We're going to try science."
76
195000
2000
Одиме со наука.“
03:32
(Laughter)
77
197000
2000
(смеа)
03:34
JM: Now of course, we were thinking,
78
199000
2000
Се разбира, си рековме
03:36
well let's just first put the data out there
79
201000
2000
„Ајде, прво да ги објавиме податоците,
03:38
for people to do science to it.
80
203000
2000
за луѓето да можат научно да ги обработат“.
03:40
Now we're thinking, what data can we release?
81
205000
2000
Се прашавме кои податоци да ги објавиме.
03:42
Well of course, you want to take the books
82
207000
2000
Секако, би сакале
03:44
and release the full text of these five million books.
83
209000
2000
да го објавите целиот текст од овие пет милиони книги.
03:46
Now Google, and Jon Orwant in particular,
84
211000
2000
Гугл, а особено Џон Орвант,
03:48
told us a little equation that we should learn.
85
213000
2000
ни кажа една мала равенка што требаше да ја научиме.
03:50
So you have five million, that is, five million authors
86
215000
3000
Значи, имате пет милиони. Тоа се пет милиони автори.
03:53
and five million plaintiffs is a massive lawsuit.
87
218000
3000
А, тоа се пет милиони тужители.
03:56
So, although that would be really, really awesome,
88
221000
2000
И макар што тоа би било навистина супер,
03:58
again, that's extremely, extremely impractical.
89
223000
3000
сепак е многу непрактично.
04:01
(Laughter)
90
226000
2000
(смеа)
04:03
Now again, we kind of caved in,
91
228000
2000
Повторно се предомисливме
04:05
and we did the very practical approach, which was a bit less awesome.
92
230000
3000
и се насочивме кон попрактичниот пристап, кој не е толку луд.
04:08
We said, well instead of releasing the full text,
93
233000
2000
Па, наместо да го објавиме целиот текст,
04:10
we're going to release statistics about the books.
94
235000
2000
решивме да ја објавиме статистиката за книгите.
04:12
So take for instance "A gleam of happiness."
95
237000
2000
Земете, на пример, „Блесок на среќа“.
04:14
It's four words; we call that a four-gram.
96
239000
2000
Тоа се три збора. Ние го викаме три-грам.
04:16
We're going to tell you how many times a particular four-gram
97
241000
2000
Ќе ви покажеме колку пати одреден три-грам
04:18
appeared in books in 1801, 1802, 1803,
98
243000
2000
се појавил во книгите од 1801, 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
сè до 2008 година.
04:22
That gives us a time series
100
247000
2000
Тоа ни дава временска низа
04:24
of how frequently this particular sentence was used over time.
101
249000
2000
за тоа колку често оваа реченица била користена низ времето.
04:26
We do that for all the words and phrases that appear in those books,
102
251000
3000
Тоа го повторивме со сите зборови и фрази што се појавуваат во овие книги,
04:29
and that gives us a big table of two billion lines
103
254000
3000
и така добивме голема табела од две милијарди низи
04:32
that tell us about the way culture has been changing.
104
257000
2000
кои ни кажуваат како се менувала културата низ времето.
04:34
ELA: So those two billion lines,
105
259000
2000
Значи, имаме две милијарди низи,
04:36
we call them two billion n-grams.
106
261000
2000
или, како што ние ги викаме, два милијарди ен-грами.
04:38
What do they tell us?
107
263000
2000
Што ни кажуваат тие?
04:40
Well the individual n-grams measure cultural trends.
108
265000
2000
Поединечните ен-грами ги мерат културолошките трендови.
04:42
Let me give you an example.
109
267000
2000
Да ви дадам еден пример.
04:44
Let's suppose that I am thriving,
110
269000
2000
Да претпоставиме дека просперирам
04:46
then tomorrow I want to tell you about how well I did.
111
271000
2000
и утре сакам да ви кажам колку добро ми одело.
04:48
And so I might say, "Yesterday, I throve."
112
273000
3000
Можам да речам „Вчера, напредував“.
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
276000
3000
Или, можам да кажам „Вчера, просперирав“.
04:54
Well which one should I use?
114
279000
3000
Кој збор да го употребам?
04:57
How to know?
115
282000
2000
Од каде да знам?
04:59
As of about six months ago,
116
284000
2000
Од пред околу шест месеци,
05:01
the state of the art in this field
117
286000
2000
со најмодерните алатки можете,
05:03
is that you would, for instance,
118
288000
2000
на пример,
05:05
go up to the following psychologist with fabulous hair,
119
290000
2000
да му се обратите на овој психолог со неверојатна фризура
05:07
and you'd say,
120
292000
2000
и да го прашате
05:09
"Steve, you're an expert on the irregular verbs.
121
294000
3000
„Стив, ти си експерт за неправилни глаголи.
05:12
What should I do?"
122
297000
2000
Што да правам?“.
05:14
And he'd tell you, "Well most people say thrived,
123
299000
2000
А, тој ќе ви рече „Па, повеќето луѓе велат просперирав,
05:16
but some people say throve."
124
301000
3000
но некои луѓе велат напредував.“
05:19
And you also knew, more or less,
125
304000
2000
Исто така знаете, повеќе или помалку,
05:21
that if you were to go back in time 200 years
126
306000
3000
дека ако се вратите за 200 години назад во времето
05:24
and ask the following statesman with equally fabulous hair,
127
309000
3000
и го прашате овој државник со еднакво неверојатна фризура...
05:27
(Laughter)
128
312000
3000
(смеа)
05:30
"Tom, what should I say?"
129
315000
2000
„Том, што да правам?“,
05:32
He'd say, "Well, in my day, most people throve,
130
317000
2000
тој ќе ви каже „Па, во мое време, повеќето луѓе напредуваа,
05:34
but some thrived."
131
319000
3000
но некои просперираа“.
05:37
So now what I'm just going to show you is raw data.
132
322000
2000
Сега ќе ви ги покажам необработените податоци.
05:39
Two rows from this table of two billion entries.
133
324000
4000
Два реда од оваа табела со две милијарди записи.
05:43
What you're seeing is year by year frequency
134
328000
2000
Ја гледате фреквенцијата по години
05:45
of "thrived" and "throve" over time.
135
330000
3000
на „просперира“ и „напредува“ низ времето.
05:49
Now this is just two
136
334000
2000
Ова се само два реда
05:51
out of two billion rows.
137
336000
3000
од две милијарди редови.
05:54
So the entire data set
138
339000
2000
Значи, вкупниот сет на податоци
05:56
is a billion times more awesome than this slide.
139
341000
3000
е милијарди пати поневеројатен од овој слајд.
05:59
(Laughter)
140
344000
2000
(смеа)
06:01
(Applause)
141
346000
4000
(аплауз)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
350000
2000
Постојат многу други слики кои вредат 500 милијарди зборови.
06:07
For instance, this one.
143
352000
2000
На пример, оваа.
06:09
If you just take influenza,
144
354000
2000
Да го земеме грипот.
06:11
you will see peaks at the time where you knew
145
356000
2000
Ќе видите скокови во времето кога знаете дека
06:13
big flu epidemics were killing people around the globe.
146
358000
3000
големи епидемии на грип убивале многу луѓе низ светот.
06:16
ELA: If you were not yet convinced,
147
361000
3000
Ако сè уште не сте убедени,
06:19
sea levels are rising,
148
364000
2000
нивото на морињата расте,
06:21
so is atmospheric CO2 and global temperature.
149
366000
3000
како и атмосферскиот јаглерод диоксид и глобалната температура.
06:24
JM: You might also want to have a look at this particular n-gram,
150
369000
3000
Можеби ќе сакате да го погледнете и овој ен-грам,
06:27
and that's to tell Nietzsche that God is not dead,
151
372000
3000
за да му кажете на Ниче дека Бог не е мртов,
06:30
although you might agree that he might need a better publicist.
152
375000
3000
иако можеби ќе се согласите дека му треба подобра реклама.
06:33
(Laughter)
153
378000
2000
(смеа)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
380000
3000
Можете да налетате на некои прилично апстрактни концепти.
06:38
For instance, let me tell you the history
155
383000
2000
На пример, да ви ја кажам историјата
06:40
of the year 1950.
156
385000
2000
за 1950-тата година.
06:42
Pretty much for the vast majority of history,
157
387000
2000
Претежно во минатото
06:44
no one gave a damn about 1950.
158
389000
2000
на никого не му било гајле за 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
Во 1700, во 1800, во 1900...
06:48
no one cared.
160
393000
3000
на никого не му било гајле.
06:52
Through the 30s and 40s,
161
397000
2000
Низ 30-тите и 40-тите
06:54
no one cared.
162
399000
2000
на никого не му било гајле.
06:56
Suddenly, in the mid-40s,
163
401000
2000
Наеднаш, во средината на 40-тите,
06:58
there started to be a buzz.
164
403000
2000
почнало нешто да се шушка.
07:00
People realized that 1950 was going to happen,
165
405000
2000
Луѓето сфатиле дека ќе се случи 1950 година
07:02
and it could be big.
166
407000
2000
и дека тоа може да биде доста важно.
07:04
(Laughter)
167
409000
3000
(смеа)
07:07
But nothing got people interested in 1950
168
412000
3000
Но, ништо не ги заинтересирало луѓето за 1950 година
07:10
like the year 1950.
169
415000
3000
како годината 1950.
07:13
(Laughter)
170
418000
3000
(смеа)
07:16
People were walking around obsessed.
171
421000
2000
Луѓето шетале наоколу преокупирани.
07:18
They couldn't stop talking
172
423000
2000
Не можеле да престанат да зборуваат
07:20
about all the things they did in 1950,
173
425000
3000
за сите работи кои ги направиле во 1950,
07:23
all the things they were planning to do in 1950,
174
428000
3000
за сите работи што планирале да ги направат во 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
431000
5000
сите соништа за она што сакале да го постигнат во 1950.
07:31
In fact, 1950 was so fascinating
176
436000
2000
Всушност, 1950 била толку фасцинантна
07:33
that for years thereafter,
177
438000
2000
што со години подоцна
07:35
people just kept talking about all the amazing things that happened,
178
440000
3000
луѓето продолжиле да зборуваат за сите неверојатни нешта што се случиле тогаш.
07:38
in '51, '52, '53.
179
443000
2000
Во '51, '52, '53...
07:40
Finally in 1954,
180
445000
2000
Конечно во 1954,
07:42
someone woke up and realized
181
447000
2000
некој се разбудил и сфатил
07:44
that 1950 had gotten somewhat passé.
182
449000
4000
дека 1950 одамна поминала.
07:48
(Laughter)
183
453000
2000
(смеа)
07:50
And just like that, the bubble burst.
184
455000
2000
И така, одеднаш, целата работа спласнала.
07:52
(Laughter)
185
457000
2000
(смеа)
07:54
And the story of 1950
186
459000
2000
Приказната за 1950 година
07:56
is the story of every year that we have on record,
187
461000
2000
е приказната за секоја година што ја имаме евидентирано,
07:58
with a little twist, because now we've got these nice charts.
188
463000
3000
со мала промена, бидејќи сега ги имаме овие убави табели.
08:01
And because we have these nice charts, we can measure things.
189
466000
3000
Па, така, можеме да ги мериме нештата.
08:04
We can say, "Well how fast does the bubble burst?"
190
469000
2000
Може да речеме „Колку брзо спласнала работата?“.
08:06
And it turns out that we can measure that very precisely.
191
471000
3000
Излезе дека многу прецизно можеме да го измериме тоа.
08:09
Equations were derived, graphs were produced,
192
474000
3000
Беа изведени равенки, беа направени графикони,
08:12
and the net result
193
477000
2000
и крајниот резултат
08:14
is that we find that the bubble bursts faster and faster
194
479000
3000
ни говори дека работите спласнуваат сè побрзо и побрзо
08:17
with each passing year.
195
482000
2000
со секоја измината година.
08:19
We are losing interest in the past more rapidly.
196
484000
5000
Сега побрзо губиме интерес за минатото.
08:24
JM: Now a little piece of career advice.
197
489000
2000
Еден мал професионален совет.
08:26
So for those of you who seek to be famous,
198
491000
2000
Оние од вас кои сакаат да бидат славни
08:28
we can learn from the 25 most famous political figures,
199
493000
2000
може да учат од 25-те најславни политички фигури,
08:30
authors, actors and so on.
200
495000
2000
автори, актери и така натаму.
08:32
So if you want to become famous early on, you should be an actor,
201
497000
3000
Ако сакате да станете славни кога сте помлади, треба да бидете актер,
08:35
because then fame starts rising by the end of your 20s --
202
500000
2000
бидејќи кај нив славата врвот го достигнува кон крајот на 20-тите години од животот.
08:37
you're still young, it's really great.
203
502000
2000
Сè уште сте млади, баш супер.
08:39
Now if you can wait a little bit, you should be an author,
204
504000
2000
Ако можете да почекате малку, тогаш треба да бидете автор,
08:41
because then you rise to very great heights,
205
506000
2000
бидејќи тогаш ќе ги достигнете најголемите височини,
08:43
like Mark Twain, for instance: extremely famous.
206
508000
2000
како Марк Твен, на пример. Тој е екстремно славен.
08:45
But if you want to reach the very top,
207
510000
2000
Но, ако сакате да дојдете до самиот врв,
08:47
you should delay gratification
208
512000
2000
тогаш треба да го одложите задоволството
08:49
and, of course, become a politician.
209
514000
2000
и, се разбира, да станете политичар.
08:51
So here you will become famous by the end of your 50s,
210
516000
2000
Тогаш ќе станете славни кон крајот од вашите 50-ти,
08:53
and become very, very famous afterward.
211
518000
2000
а потоа ќе станувате уште пославни.
08:55
So scientists also tend to get famous when they're much older.
212
520000
3000
Научниците, исто така, стануваат славни кога се многу постари.
08:58
Like for instance, biologists and physics
213
523000
2000
Како на пример, биолозите и физичарите
09:00
tend to be almost as famous as actors.
214
525000
2000
можат да бидат славни речиси како актерите.
09:02
One mistake you should not do is become a mathematician.
215
527000
3000
Но, никако не смеете да станете математичар.
09:05
(Laughter)
216
530000
2000
(смеа)
09:07
If you do that,
217
532000
2000
Ако го направите тоа,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
534000
3000
ќе си мислите „Супер. Најголемите резултати ќе ги постигнам во моите 20-ти.“
09:12
But guess what, nobody will really care.
219
537000
2000
Но, никому нема да му е гајле.
09:14
(Laughter)
220
539000
3000
(смеа)
09:17
ELA: There are more sobering notes
221
542000
2000
Има и потрезвени податоци
09:19
among the n-grams.
222
544000
2000
помеѓу ен-грамите.
09:21
For instance, here's the trajectory of Marc Chagall,
223
546000
2000
На пример, еве ја траекторијата за Марк Шагал,
09:23
an artist born in 1887.
224
548000
2000
уметник роден во 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
550000
3000
Ова изгледа како нормална траекторија за една славна личност.
09:28
He gets more and more and more famous,
226
553000
4000
Тој станува сè пославен.
09:32
except if you look in German.
227
557000
2000
Но, не ако барате на германски.
09:34
If you look in German, you see something completely bizarre,
228
559000
2000
Ако барате на германски, ќе видите нешто сосема бизарно,
09:36
something you pretty much never see,
229
561000
2000
нешто што ретко се гледа.
09:38
which is he becomes extremely famous
230
563000
2000
Тој станува екстремно славен,
09:40
and then all of a sudden plummets,
231
565000
2000
потоа наеднаш славата му паѓа,
09:42
going through a nadir between 1933 and 1945,
232
567000
3000
достигнувајќи најниска точка од 1933 до 1945,
09:45
before rebounding afterward.
233
570000
3000
пред пак да се врати.
09:48
And of course, what we're seeing
234
573000
2000
Се разбира, од ова гледаме
09:50
is the fact Marc Chagall was a Jewish artist
235
575000
3000
дека Марк Шагал бил еврејски уметник
09:53
in Nazi Germany.
236
578000
2000
во нацистичка Германија.
09:55
Now these signals
237
580000
2000
Овие показатели
09:57
are actually so strong
238
582000
2000
се толку силни,
09:59
that we don't need to know that someone was censored.
239
584000
3000
што не мора да знаеме дали некој бил цензуриран.
10:02
We can actually figure it out
240
587000
2000
Самите може да го откриеме тоа
10:04
using really basic signal processing.
241
589000
2000
преку просто анализирање на показателот.
10:06
Here's a simple way to do it.
242
591000
2000
Еве едноставен начин како да се направи тоа.
10:08
Well, a reasonable expectation
243
593000
2000
Разумно очекување
10:10
is that somebody's fame in a given period of time
244
595000
2000
е дека нечија слава во еден даден временски период
10:12
should be roughly the average of their fame before
245
597000
2000
треба да биде приближно колку и просекот од нивната слава
10:14
and their fame after.
246
599000
2000
пред и по тој период.
10:16
So that's sort of what we expect.
247
601000
2000
Тоа би го очекувале.
10:18
And we compare that to the fame that we observe.
248
603000
3000
Тоа ќе го споредиме со фактичката слава.
10:21
And we just divide one by the other
249
606000
2000
Едното го делиме со другото
10:23
to produce something we call a suppression index.
250
608000
2000
и добиваме т.н. индекс на супресија (потиснување).
10:25
If the suppression index is very, very, very small,
251
610000
3000
Доколку овој индекс е многу, многу мал,
10:28
then you very well might be being suppressed.
252
613000
2000
тогаш веројатно сте биле потиснати.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
615000
3000
Доколку е многу голем, тогаш можеби користите пропаганда.
10:34
JM: Now you can actually look at
254
619000
2000
Можете да ја погледнете
10:36
the distribution of suppression indexes over whole populations.
255
621000
3000
дистрибуцијата на индексите на супресија низ цели популации.
10:39
So for instance, here --
256
624000
2000
На пример, овде...
10:41
this suppression index is for 5,000 people
257
626000
2000
ова е индекс на супресија за 5.000 луѓе
10:43
picked in English books where there's no known suppression --
258
628000
2000
добиен од англиските книги за кои нема супресија.
10:45
it would be like this, basically tightly centered on one.
259
630000
2000
Тој изгледа вака. Во основа, цврсто е центриран на еден.
10:47
What you expect is basically what you observe.
260
632000
2000
Го гледате тоа и што би го очекувале.
10:49
This is distribution as seen in Germany --
261
634000
2000
Оваа дистрибуција е од Германија.
10:51
very different, it's shifted to the left.
262
636000
2000
Многу е различна. Поместена е на лево.
10:53
People talked about it twice less as it should have been.
263
638000
3000
Луѓето за нив зборувале два пати помалку отколку што би требало.
10:56
But much more importantly, the distribution is much wider.
264
641000
2000
Но, што е уште поважно, дистрибуцијата е многу поширока.
10:58
There are many people who end up on the far left on this distribution
265
643000
3000
Има многу луѓе на самиот лев крај од дистрибуцијата,
11:01
who are talked about 10 times fewer than they should have been.
266
646000
3000
за кои е зборувано десет пати помалку одошто е нормално.
11:04
But then also many people on the far right
267
649000
2000
Но, има и многу луѓе на десниот крај,
11:06
who seem to benefit from propaganda.
268
651000
2000
на кои изгледа им помогнала пропаганда.
11:08
This picture is the hallmark of censorship in the book record.
269
653000
3000
Оваа слика е показател за цензурата на книгите.
11:11
ELA: So culturomics
270
656000
2000
Овој метод
11:13
is what we call this method.
271
658000
2000
го нарекуваме културомика.
11:15
It's kind of like genomics.
272
660000
2000
Сличен е на геномиката,
11:17
Except genomics is a lens on biology
273
662000
2000
со таа разлика што со геномиката ја разбираме билогијата,
11:19
through the window of the sequence of bases in the human genome.
274
664000
3000
преку базните секвенци во човечкиот геном.
11:22
Culturomics is similar.
275
667000
2000
Културомиката е слична.
11:24
It's the application of massive-scale data collection analysis
276
669000
3000
Тоа е применета анализа врз податоци од голем размер
11:27
to the study of human culture.
277
672000
2000
со цел да се проучи човечката култура.
11:29
Here, instead of through the lens of a genome,
278
674000
2000
Наместо да гледаме низ призмата на геномот,
11:31
through the lens of digitized pieces of the historical record.
279
676000
3000
овде гледаме низ призмата на дигитализираните историски податоци.
11:34
The great thing about culturomics
280
679000
2000
Она што е супер кај културомиката
11:36
is that everyone can do it.
281
681000
2000
е што секој може да ја примени.
11:38
Why can everyone do it?
282
683000
2000
Зошто?
11:40
Everyone can do it because three guys,
283
685000
2000
Затоа што тројца момци,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
687000
3000
Џон Орвант, Мет Греј и Вил Брокман од Гугл,
11:45
saw the prototype of the Ngram Viewer,
285
690000
2000
го видоа прототипот за „Ngram Viewer“
11:47
and they said, "This is so fun.
286
692000
2000
и рекоа „Ова е баш забавно.
11:49
We have to make this available for people."
287
694000
3000
Мора да го направиме достапно за луѓето.“
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
697000
2000
Во период од две недели, пред да излезе нашата статија,
11:54
they coded up a version of the Ngram Viewer for the general public.
289
699000
3000
тие направија верзија на „Ngram Viewer“ наменета за широката јавност.
11:57
And so you too can type in any word or phrase that you're interested in
290
702000
3000
Па, така и вие може да напишете збор или фраза што ве интересираат
12:00
and see its n-gram immediately --
291
705000
2000
и веднаш да го видите ен-грамот за нив.
12:02
also browse examples of all the various books
292
707000
2000
Исто така, можете да ги пребарате и книгите
12:04
in which your n-gram appears.
293
709000
2000
во кои се појавува вашиот ен-грам.
12:06
JM: Now this was used over a million times on the first day,
294
711000
2000
Во само првиот ден оваа алатка беше искористена преку милион пати.
12:08
and this is really the best of all the queries.
295
713000
2000
Тоа е најдоброто од сите пребарувања.
12:10
So people want to be their best, put their best foot forward.
296
715000
3000
Луѓето сакаат да бидат најдобри што можат, да дадат сè од себе.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
718000
3000
Но, изгледа дека во 18-тиот век на луѓето воопшто не им било гајле за тоа.
12:16
They didn't want to be their best, they wanted to be their beft.
298
721000
3000
Не сакале да бидат најдобри (beSt), туку најдобли (beFt).
12:19
So what happened is, of course, this is just a mistake.
299
724000
3000
Се разбира ова е само грешка.
12:22
It's not that strove for mediocrity,
300
727000
2000
Не се работи за стремеж кон медиокритет,
12:24
it's just that the S used to be written differently, kind of like an F.
301
729000
3000
туку тогаш буквата S се пишувала поинаку, слично на F.
12:27
Now of course, Google didn't pick this up at the time,
302
732000
3000
Гугл го немаше забележано ова
12:30
so we reported this in the science article that we wrote.
303
735000
3000
и затоа ние го спомнавме во трудот што го објавивме.
12:33
But it turns out this is just a reminder
304
738000
2000
Ова треба да биде само потсетник
12:35
that, although this is a lot of fun,
305
740000
2000
дека, иако ова е многу забавно,
12:37
when you interpret these graphs, you have to be very careful,
306
742000
2000
кога ги интерпретирате графконите мора да бидете многу внимателни
12:39
and you have to adopt the base standards in the sciences.
307
744000
3000
и мора да ги примените основните стандарди на науката.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
747000
3000
Луѓето го користат ова за разни забавни цели.
12:45
(Laughter)
309
750000
7000
(смеа)
12:52
Actually, we're not going to have to talk,
310
757000
2000
Нема потреба да зборуваме.
12:54
we're just going to show you all the slides and remain silent.
311
759000
3000
Само ќе ви ги покажеме слајдовите и ќе молчиме.
12:57
This person was interested in the history of frustration.
312
762000
3000
Овде некој бил заинтересиран за историјата на фрустрацијата.
13:00
There's various types of frustration.
313
765000
3000
Има разни видови на фрустрација.
13:03
If you stub your toe, that's a one A "argh."
314
768000
3000
Ако си го удрите палецот, тоа е „уф“ со едно у.
13:06
If the planet Earth is annihilated by the Vogons
315
771000
2000
Доколку Земјата е уништена од страна на Вогоните
13:08
to make room for an interstellar bypass,
316
773000
2000
за да се изгради меѓуѕвездена обиколница,
13:10
that's an eight A "aaaaaaaargh."
317
775000
2000
тоа е „уф“ со осум у.
13:12
This person studies all the "arghs,"
318
777000
2000
Оваа личност ги проучувала сите видови на „уф“,
13:14
from one through eight A's.
319
779000
2000
со од една до осум букви у.
13:16
And it turns out
320
781000
2000
Се покажало дека
13:18
that the less-frequent "arghs"
321
783000
2000
поретко се користат оние „уф“
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
785000
3000
кои кореспондираат на нештата што се пофрустрирачки,
13:23
except, oddly, in the early 80s.
323
788000
3000
освен, за чудо, во раните 80-ти.
13:26
We think that might have something to do with Reagan.
324
791000
2000
Мислиме дека тоа некако е поврзано со Реган.
13:28
(Laughter)
325
793000
2000
(смеа)
13:30
JM: There are many usages of this data,
326
795000
3000
Овие податоци може да се користат на разни начини,
13:33
but the bottom line is that the historical record is being digitized.
327
798000
3000
но она што е најважно е дека историските записи се дигитализираат.
13:36
Google has started to digitize 15 million books.
328
801000
2000
Гугл започна со дигитализација на 15 милиони книги.
13:38
That's 12 percent of all the books that have ever been published.
329
803000
2000
Тоа се 12 проценти од сите книги што некогаш биле објавени,
13:40
It's a sizable chunk of human culture.
330
805000
3000
што е значаен дел од човечката култура.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
808000
3000
Но, културата е многу повеќе: имаме ракописи, весници,
13:46
there's things that are not text, like art and paintings.
332
811000
2000
податоци кои не се текстуални, како уметноста и сликите.
13:48
These all happen to be on our computers,
333
813000
2000
Сите тие треба да се најдат на нашите компјутери,
13:50
on computers across the world.
334
815000
2000
на компјутерите низ целиот свет.
13:52
And when that happens, that will transform the way we have
335
817000
3000
Тоа ќе го смени начинот на кој
13:55
to understand our past, our present and human culture.
336
820000
2000
ги разбираме нашето минато, нашата сегашност и човечката култура.
13:57
Thank you very much.
337
822000
2000
Ви благодарам многу.
13:59
(Applause)
338
824000
3000
(аплауз)
Translated by ALEKSANDAR MITEVSKI
Reviewed by Biljana Dijanisieva

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com