ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Çka kemi mësuar prej 5 milionë librave

Filmed:
2,049,453 views

A keni pasur rastin ta provoni Ngram Viewer prej Google labs? Është një mjet pas të cilit mund vareni e që ju lejon kërkimin e termeve-fjalëve si dhe ideve nga një bazë të dhënash prej 5 milionë librash nëpër shekuj. Erez Lieberman Aiden dhe Jean-Baptiste Michel na e rrëfejnë se si funksionin ky mjet si dhe befasitë të cilat ne mundemi ti mësojmë prej 500 milionë fjalëve.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
Erez Lieberman Aiden: Everyone knows
0
0
2000
Erez Lieberman Aiden: Të gjithë e dinë
00:17
that a picture is worth a thousand words.
1
2000
3000
se një fotografi vlen sa një mijë fjalë.
00:22
But we at Harvard
2
7000
2000
Por ne në Harvard
00:24
were wondering if this was really true.
3
9000
3000
po e vemë në pikëpyetje vërtetësinë e kësaj shprehje.
00:27
(Laughter)
4
12000
2000
(Të qeshura)
00:29
So we assembled a team of experts,
5
14000
4000
Kështuqë ne e kemi mbledh nji ekip profesionistësh,
00:33
spanning Harvard, MIT,
6
18000
2000
nga Harvard, MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
20000
3000
Fjalori i Trashëgimisë Amerikane (The American Heritage Dictionary), Enciklopedia Britanika
00:38
and even our proud sponsors,
8
23000
2000
dhe sponsorët tanë të nderuar
00:40
the Google.
9
25000
3000
Google
00:43
And we cogitated about this
10
28000
2000
Ne kemi menduar thellë për këtë çështje
00:45
for about four years.
11
30000
2000
për katër vite të tëra.
00:47
And we came to a startling conclusion.
12
32000
5000
Dhe kemi arritur në konkludime befasuese.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
37000
3000
Zonja dhe Zotërinj, një fotografi nuk vlen sa një mijë fjalë.
00:55
In fact, we found some pictures
14
40000
2000
Në fakt, ne kemi hasur në disa fotografi
00:57
that are worth 500 billion words.
15
42000
5000
të cilat vlejnë sa 500 miliardë fjalë.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
47000
2000
Jean-Baptiste Michel: Pra si kemi arritur deri te ky konkludim?
01:04
So Erez and I were thinking about ways
17
49000
2000
Erezi dhe une po mendonim për mënyrat
01:06
to get a big picture of human culture
18
51000
2000
si ta gjejmë nji fotografi e cila përfshin kulturën e njerëzimit
01:08
and human history: change over time.
19
53000
3000
dhe historinë e njerëzimit: duke ndryshuar nëpër kohë.
01:11
So many books actually have been written over the years.
20
56000
2000
Gjatë viteve janë shkruar shumë libra.
01:13
So we were thinking, well the best way to learn from them
21
58000
2000
Ne po mendonim, mënyra më e mirë për të mësuar prej tyre
01:15
is to read all of these millions of books.
22
60000
2000
është ti lexosh të gjithë këta miliona libra.
01:17
Now of course, if there's a scale for how awesome that is,
23
62000
3000
Tani natyrisht nëse do të mund të masnin me ndonjë shkallë se sa mbresëlënëse do të ishte kjo gjë,
01:20
that has to rank extremely, extremely high.
24
65000
3000
sigurisht do ta rendisnim tej, tej lartë.
01:23
Now the problem is there's an X-axis for that,
25
68000
2000
Tani problemin qëndron se aty gjindet nji bosht X,
01:25
which is the practical axis.
26
70000
2000
i cili ështe boshti praktik.
01:27
This is very, very low.
27
72000
2000
Kjo është shumë, shumë e ultë.
01:29
(Applause)
28
74000
3000
(Duartrokitje)
01:32
Now people tend to use an alternative approach,
29
77000
3000
Tani njerëzit tentojnë të përdorin nji qasje alternative,
01:35
which is to take a few sources and read them very carefully.
30
80000
2000
e cila përfshin grumbullimin e disa burimeve dhe leximin e tyre me kujdes.
01:37
This is extremely practical, but not so awesome.
31
82000
2000
Kjo gjë është tejet praktike por jo edhe aq mbresëlënëse.
01:39
What you really want to do
32
84000
3000
Se çka duam të bëjmë është
01:42
is to get to the awesome yet practical part of this space.
33
87000
3000
t'arrijmë te pjesa mbresëlënëse e poashtu praktike e kësaj hapësire.
01:45
So it turns out there was a company across the river called Google
34
90000
3000
Fillimisht kompania e quajtur Google
01:48
who had started a digitization project a few years back
35
93000
2000
kishte filluar një projekt të digjitalizimit (të të dhënave) disa vite më herët
01:50
that might just enable this approach.
36
95000
2000
që veç do ta mundësonte këtë qasje.
01:52
They have digitized millions of books.
37
97000
2000
Ata kanë digjitalizuar miliona libra.
01:54
So what that means is, one could use computational methods
38
99000
3000
Kjo do të thotë, duke shfrytëzuar metodat komputative mundemi
01:57
to read all of the books in a click of a button.
39
102000
2000
ti lexojmë të gjithë librat me një shtypje butoni.
01:59
That's very practical and extremely awesome.
40
104000
3000
Kjo gjë është tejet praktike dhe më se mbresëlënëse.
02:03
ELA: Let me tell you a little bit about where books come from.
41
108000
2000
ELA: Më lejoni t'ju rrëfej pak se si kanë ardhur librat.
02:05
Since time immemorial, there have been authors.
42
110000
3000
Qysh se nuk mbahet mend kanë ekzistuar autorët.
02:08
These authors have been striving to write books.
43
113000
3000
Këta autorë janë përpjekur të shkruajnë libra.
02:11
And this became considerably easier
44
116000
2000
Mundimi i tyre është lehtësuar në mënyrë të konsiderueshme
02:13
with the development of the printing press some centuries ago.
45
118000
2000
me zhvillimin e makinave shtypëse disa shekuj më herët.
02:15
Since then, the authors have won
46
120000
3000
Që nga at'herë autorë kanë fituar
02:18
on 129 million distinct occasions,
47
123000
2000
në 129 milionë raste të ndryshme
02:20
publishing books.
48
125000
2000
libra të botuar.
02:22
Now if those books are not lost to history,
49
127000
2000
Tani nëse këto libra nuk janë të humbur nëpër kohëra,
02:24
then they are somewhere in a library,
50
129000
2000
ato duhet të jenë diku në ndonjë bibliotekë,
02:26
and many of those books have been getting retrieved from the libraries
51
131000
3000
dhe shumë nga këto libra janë huazuar nga bibliotekat
02:29
and digitized by Google,
52
134000
2000
dhe janë digjitalizuar nga Google,
02:31
which has scanned 15 million books to date.
53
136000
2000
e cila i ka skenuar 15 milionë libra deri sot.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
138000
3000
Tani, kur Google digjitalizon një libër, ata e vendosin në një format shumë të mirë.
02:36
Now we've got the data, plus we have metadata.
55
141000
2000
Tani kemi të dhëna (data) dhe poashtu metatëdhëna (metadata).
02:38
We have information about things like where was it published,
56
143000
3000
Ne kemi informacione për gjër si: ku është botuar libri,
02:41
who was the author, when was it published.
57
146000
2000
kush ka qenë autori dhe kur është botuar.
02:43
And what we do is go through all of those records
58
148000
3000
Se çka bëjmë ne është që i kontrollojmë gjithë të dhënat
02:46
and exclude everything that's not the highest quality data.
59
151000
4000
dhe i përjashtojmë gjithëçka që nuk është e dhënë e kualitetit më të lartë.
02:50
What we're left with
60
155000
2000
Neve na mbetet
02:52
is a collection of five million books,
61
157000
3000
një koleksion i pesë milionë librave,
02:55
500 billion words,
62
160000
3000
500 miliardë fjalëve,
02:58
a string of characters a thousand times longer
63
163000
2000
një varg karakteresh një mijë herë më i gjatë
03:00
than the human genome --
64
165000
3000
se gjenomi i njeriut --
03:03
a text which, when written out,
65
168000
2000
një tekst i cili po të shkruhej
03:05
would stretch from here to the Moon and back
66
170000
2000
do të zgjatej sa prej këtu gjer në Hënë e prapë mbrapa deri këtu
03:07
10 times over --
67
172000
2000
edhe atë 10 herë--
03:09
a veritable shard of our cultural genome.
68
174000
4000
një copë e thyer e gjenomit tonë kulturor.
03:13
Of course what we did
69
178000
2000
Natyrisht çka kemi bërë ne
03:15
when faced with such outrageous hyperbole ...
70
180000
3000
kur jemi ballafaquar me atë hiperbollë të tmerrshme...
03:18
(Laughter)
71
183000
2000
(Të qeshura)
03:20
was what any self-respecting researchers
72
185000
3000
ishte ajo që çdo hulumtues i respektueshëm
03:23
would have done.
73
188000
3000
do të bënte.
03:26
We took a page out of XKCD,
74
191000
2000
Ne morrëm një faqe nga XKCD
03:28
and we said, "Stand back.
75
193000
2000
dhe kemi thënë: "Mbajuni.
03:30
We're going to try science."
76
195000
2000
Ne do të provojmë shkencën."
03:32
(Laughter)
77
197000
2000
( Të qeshura)
03:34
JM: Now of course, we were thinking,
78
199000
2000
JM: Natyrisht, ne po mendonim,
03:36
well let's just first put the data out there
79
201000
2000
do ti vendosnim të dhënat
03:38
for people to do science to it.
80
203000
2000
ashtu që njerëzit ti përdorin për shkencë ato.
03:40
Now we're thinking, what data can we release?
81
205000
2000
Tani po mendonim, cilat të dhëna mund ti nxjerrim?
03:42
Well of course, you want to take the books
82
207000
2000
Natyrisht, ju do të dëshironi ti merrni librat
03:44
and release the full text of these five million books.
83
209000
2000
dhe ti publikoni tekstin e plotë të pesë milionë librave.
03:46
Now Google, and Jon Orwant in particular,
84
211000
2000
Tani Google, dhe Jon Orwant në veçanti
03:48
told us a little equation that we should learn.
85
213000
2000
na kanë treguar një ekuacion të cilin duhet ta mësojmë.
03:50
So you have five million, that is, five million authors
86
215000
3000
Kështuqë nëse keni pesë milionë autorë
03:53
and five million plaintiffs is a massive lawsuit.
87
218000
3000
dhe pesë milionë paditës formojnë një paditje masive.
03:56
So, although that would be really, really awesome,
88
221000
2000
Edhe pse kjo do të ishte me të vërtetë e mrekullueshme,
03:58
again, that's extremely, extremely impractical.
89
223000
3000
megjithatë do të ishte tejet jo praktike.
04:01
(Laughter)
90
226000
2000
(Të qeshura)
04:03
Now again, we kind of caved in,
91
228000
2000
Kështu qe ne përsëri u zbrapsëm,
04:05
and we did the very practical approach, which was a bit less awesome.
92
230000
3000
dhe u drejtuam me një qasje më praktike e cila ishte më pak mbresëlënëse.
04:08
We said, well instead of releasing the full text,
93
233000
2000
Dhe thamë, në vend se ta publikojmë tekstin e plotë,
04:10
we're going to release statistics about the books.
94
235000
2000
ne do te publikojmë statistikat rreth librave.
04:12
So take for instance "A gleam of happiness."
95
237000
2000
Për shembull " A gleam of happiness" ("Një dritë e zbehtë e lumturisë").
04:14
It's four words; we call that a four-gram.
96
239000
2000
Përmban katër fjalë, ne mund ta thërrasim një katër-gram.
04:16
We're going to tell you how many times a particular four-gram
97
241000
2000
Tani do t'ju rrëfejmë se sa herë një katër-gram i veçantë
04:18
appeared in books in 1801, 1802, 1803,
98
243000
2000
është shfaqur nëpër libra në vitet 1801. 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
e gjer në vitin 2008.
04:22
That gives us a time series
100
247000
2000
Kjo na sjell neve një seri
04:24
of how frequently this particular sentence was used over time.
101
249000
2000
e cila na tregon frekuencën e përdorimit gjatë kohës të një fjalie të veçantë.
04:26
We do that for all the words and phrases that appear in those books,
102
251000
3000
E kemi bërë këtë gjë për të gjitha fjalët dhe frazat të cilat shfaqen në ato libra,
04:29
and that gives us a big table of two billion lines
103
254000
3000
dhe kjo na sjell një tabelë të madhe me dy miliardë linja
04:32
that tell us about the way culture has been changing.
104
257000
2000
të cilat na rrëfejnë se si kultura ka ndryshuar.
04:34
ELA: So those two billion lines,
105
259000
2000
ELA: Kështu që këto dy miliardë linja,
04:36
we call them two billion n-grams.
106
261000
2000
ne i kemi quajtur dy miliardë n-grame.
04:38
What do they tell us?
107
263000
2000
E çka na rrëfejnë ato neve?
04:40
Well the individual n-grams measure cultural trends.
108
265000
2000
N-gramet individuale masin trendet kulturore.
04:42
Let me give you an example.
109
267000
2000
Ta marr një shembull për t'ju ilustruar.
04:44
Let's suppose that I am thriving,
110
269000
2000
Le të supozojmë se unë jam duke u zhvilluar,
04:46
then tomorrow I want to tell you about how well I did.
111
271000
2000
dhe të nesërmen do të dëshiroja t'ju rrëfej sa kam arritur.
04:48
And so I might say, "Yesterday, I throve."
112
273000
3000
Kështuqë mund të them , "Dje përparova" (Shënim: Mirret shembull trajta e foljeve të rregullta dhe parregullta në gjuhën angleze).
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
276000
3000
Ose mund të thosha, "Dje kam përparuar".
04:54
Well which one should I use?
114
279000
3000
Cilën formë do të duhej ta përdorja?
04:57
How to know?
115
282000
2000
Si ta di?
04:59
As of about six months ago,
116
284000
2000
Diku para gjashtë muajsh,
05:01
the state of the art in this field
117
286000
2000
arti i kësaj fushe
05:03
is that you would, for instance,
118
288000
2000
do të ishte, si shembull,
05:05
go up to the following psychologist with fabulous hair,
119
290000
2000
të takoni një psikolog me flokë të mrekullueshëm,
05:07
and you'd say,
120
292000
2000
e ti thoni;
05:09
"Steve, you're an expert on the irregular verbs.
121
294000
3000
"Steve, ti je një ekspert në foljet e parregullta.
05:12
What should I do?"
122
297000
2000
Çka më duhet të bëj?"
05:14
And he'd tell you, "Well most people say thrived,
123
299000
2000
Ai do t'ju përgjigjej, "Shumica e njerëzve përdorin shprehjen: kam përparuar,
05:16
but some people say throve."
124
301000
3000
por ka të tillë që përdorin: përparova."
05:19
And you also knew, more or less,
125
304000
2000
Edhe ju e dini, pak a shumë,
05:21
that if you were to go back in time 200 years
126
306000
3000
se po t'ju duhej të ktheheni prapa në kohë për 200 vite
05:24
and ask the following statesman with equally fabulous hair,
127
309000
3000
dhe ta pyetni deklaruesin e rradhës poashtu me flokë të mrekullueshëm,
05:27
(Laughter)
128
312000
3000
(Të qeshura)
05:30
"Tom, what should I say?"
129
315000
2000
"Tom, si duhet ta them?"
05:32
He'd say, "Well, in my day, most people throve,
130
317000
2000
Ai do t'ju përgjigjej, " Tani, në kohën time shumica e njerëzve janë zhvilluar,
05:34
but some thrived."
131
319000
3000
por disa zhvilluan."
05:37
So now what I'm just going to show you is raw data.
132
322000
2000
Tani do t'ju paraqes disa të dhëna të papërpunuara,
05:39
Two rows from this table of two billion entries.
133
324000
4000
Dy rreshta prej kësaj tabele prej dy miliardë të dhënash.
05:43
What you're seeing is year by year frequency
134
328000
2000
Se çka po shohim është frekuenca vit për vit
05:45
of "thrived" and "throve" over time.
135
330000
3000
e "jam zhvilluar" dhe "u zhvillova" gjatë kohës.
05:49
Now this is just two
136
334000
2000
Kjo tani është vetëm dy
05:51
out of two billion rows.
137
336000
3000
prej dy miliardë rreshtash.
05:54
So the entire data set
138
339000
2000
Pra i gjithë kompleti i të dhënave
05:56
is a billion times more awesome than this slide.
139
341000
3000
është një miliardë herë më i mrekullueshëm se kjo faqe prezentimi.
05:59
(Laughter)
140
344000
2000
(Të qeshura)
06:01
(Applause)
141
346000
4000
(Duartrokitje)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
350000
2000
JM: Tashti ka shumë fotografi që vlejnë sa 500 miliardë fjalë,
06:07
For instance, this one.
143
352000
2000
Si shembull, kjo.
06:09
If you just take influenza,
144
354000
2000
Nëse e marrim gripin,
06:11
you will see peaks at the time where you knew
145
356000
2000
do të shihni pika kulminante gjatë kohës kur ju keni qenë në dijeni
06:13
big flu epidemics were killing people around the globe.
146
358000
3000
se epidemitë e mëdha të gripit kanë qenë vdekjeprurëse përgjatë globit.
06:16
ELA: If you were not yet convinced,
147
361000
3000
ELA: Nëse nuk jeni ende të bindur,
06:19
sea levels are rising,
148
364000
2000
nivelet e ujërave po rritet,
06:21
so is atmospheric CO2 and global temperature.
149
366000
3000
po ashtu edhe niveli i CO2 dhe temperatura globale.
06:24
JM: You might also want to have a look at this particular n-gram,
150
369000
3000
JM: Ndoshta do të duhej ta shiqoni pikërisht këtë n-gram,
06:27
and that's to tell Nietzsche that God is not dead,
151
372000
3000
e kjo vetëm për ti tregu Niçes se Zoti nuk ka vdek.
06:30
although you might agree that he might need a better publicist.
152
375000
3000
edhe pse edhe ju ndoshta pajtoheni se ai ka nevoje për ndonjë publicist më të mirë.
06:33
(Laughter)
153
378000
2000
(Të qeshura)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
380000
3000
Ju mund ti qaseni edhe disa koncepteve mjaft abstrajte me këtë metodë.
06:38
For instance, let me tell you the history
155
383000
2000
Për shembull, më lejoni t'ju rrëfej historinë e
06:40
of the year 1950.
156
385000
2000
vitit 1950.
06:42
Pretty much for the vast majority of history,
157
387000
2000
Për shumicën e historisë
06:44
no one gave a damn about 1950.
158
389000
2000
askujt s'ju ka bërë vonë për vitin 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
Në vitin 1700, 1800, 1900,
06:48
no one cared.
160
393000
3000
askush nuk është brengosur.
06:52
Through the 30s and 40s,
161
397000
2000
Gjatë viteve 30ta dhe 40ta,
06:54
no one cared.
162
399000
2000
askush nuk është brengosur.
06:56
Suddenly, in the mid-40s,
163
401000
2000
Papritmas, në mesin e viteve 40ta,
06:58
there started to be a buzz.
164
403000
2000
filloi të bëhet zhurmë.
07:00
People realized that 1950 was going to happen,
165
405000
2000
Njerëzit e kuptuan se viti 1950 do të vinte,
07:02
and it could be big.
166
407000
2000
dhe do të mund të ishte madhështorë.
07:04
(Laughter)
167
409000
3000
(Të qeshura)
07:07
But nothing got people interested in 1950
168
412000
3000
Por asgjë nuk i tërhoqi vëmendjen njerëzve në vitin 1950
07:10
like the year 1950.
169
415000
3000
vetëm se veç viti 1950 në vete.
07:13
(Laughter)
170
418000
3000
(Të qeshura)
07:16
People were walking around obsessed.
171
421000
2000
Njerëzit shetisnin rreth e rrotul të obsesionuar.
07:18
They couldn't stop talking
172
423000
2000
Ata nuk mund të ndalonin së foluri
07:20
about all the things they did in 1950,
173
425000
3000
për gjërat që kishin bërë në vitin1950,
07:23
all the things they were planning to do in 1950,
174
428000
3000
gjërat që kishin planifikuar se do ti bënin në vitin 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
431000
5000
gjithë ato ëndrra që kishin dëshiruar ti plotësonin në vitin 1950.
07:31
In fact, 1950 was so fascinating
176
436000
2000
Në fakt, viti 1950 ishte aq i mahnitshëm
07:33
that for years thereafter,
177
438000
2000
sa për vitet që do të vinin,
07:35
people just kept talking about all the amazing things that happened,
178
440000
3000
njerëzit do të flisnin për të gjitha gjërat e mrekullueshme që kanë ndodhur,
07:38
in '51, '52, '53.
179
443000
2000
në '51tën, '52tën, '53tën.
07:40
Finally in 1954,
180
445000
2000
Më në fund në vitin 1954,
07:42
someone woke up and realized
181
447000
2000
dikush u kthjell dhe kuptoi
07:44
that 1950 had gotten somewhat passé.
182
449000
4000
se disi 1950ta është zbehur.
07:48
(Laughter)
183
453000
2000
(Të qeshura)
07:50
And just like that, the bubble burst.
184
455000
2000
Dhe kështu, baloni pëlciti.
07:52
(Laughter)
185
457000
2000
(Të qeshura)
07:54
And the story of 1950
186
459000
2000
Dhe tregimi i 1950tës
07:56
is the story of every year that we have on record,
187
461000
2000
është tregimi i çdo viti të cilin e kemi regjistruar ne,
07:58
with a little twist, because now we've got these nice charts.
188
463000
3000
me pak ndryshime, sepse tani i kemi këto diagrame të mira.
08:01
And because we have these nice charts, we can measure things.
189
466000
3000
Dhe sepse i kemi këto diagrame të mira, ne mundemi ti masim gjërat.
08:04
We can say, "Well how fast does the bubble burst?"
190
469000
2000
Ne mund të themi: "Sa shpejt mundet një balon të pëcals?"
08:06
And it turns out that we can measure that very precisely.
191
471000
3000
Dhe siç po duket ne mundemi ta masim atë
08:09
Equations were derived, graphs were produced,
192
474000
3000
Ekuacionet janë derivuar, grafiqet janë ndërtuar,
08:12
and the net result
193
477000
2000
dhe rezultati i fundit
08:14
is that we find that the bubble bursts faster and faster
194
479000
3000
është se ne kemi konkluduar se baloni pëlcet shpejt e më shpejt
08:17
with each passing year.
195
482000
2000
me çdo vit që kalon.
08:19
We are losing interest in the past more rapidly.
196
484000
5000
Ne po humbim interesimin për të kaluarën në mënyrë tejet të shpejtë.
08:24
JM: Now a little piece of career advice.
197
489000
2000
JM: Tani një këshillë sa i përket karrierës.
08:26
So for those of you who seek to be famous,
198
491000
2000
Për ata që kërkojnë famën,
08:28
we can learn from the 25 most famous political figures,
199
493000
2000
mund të mësojmë prej 25 figurave më të famshme të politikës,
08:30
authors, actors and so on.
200
495000
2000
autorëve, aktorëve e kështu me radhë.
08:32
So if you want to become famous early on, you should be an actor,
201
497000
3000
Kështuqë pra, nëse doni të bëheni të famshëm qysh herët, duhet të bëheni aktor,
08:35
because then fame starts rising by the end of your 20s --
202
500000
2000
sepse atëherë fama fillon t'ju rritet kah mosha 20 vjeçare,
08:37
you're still young, it's really great.
203
502000
2000
ju jeni ende të rinj, çka është e mrekullueshmë.
08:39
Now if you can wait a little bit, you should be an author,
204
504000
2000
Nëse dëshironi të prisni pak, duhet të bëheni autor,
08:41
because then you rise to very great heights,
205
506000
2000
sepse atëherë mund të ngriteni në majat më të larta,
08:43
like Mark Twain, for instance: extremely famous.
206
508000
2000
si shembull Mark Twain, më se i famshëm.
08:45
But if you want to reach the very top,
207
510000
2000
Por nëse doni të arrini majat e majave,
08:47
you should delay gratification
208
512000
2000
duhet të i vononi kënaqësitë
08:49
and, of course, become a politician.
209
514000
2000
dhe natyrisht të bëheni një politikan.
08:51
So here you will become famous by the end of your 50s,
210
516000
2000
Në këtë rast do të bëheni të famshëm kah mosha 50 vjeçare,
08:53
and become very, very famous afterward.
211
518000
2000
do të bëheni shumë, shumë të famshëm pastaj.
08:55
So scientists also tend to get famous when they're much older.
212
520000
3000
Poashtu edhe shkenctarët duken se bëhen të famshëm kur veçse janë më të moshuar.
08:58
Like for instance, biologists and physics
213
523000
2000
Si shembull, biologët dhe fizikantët
09:00
tend to be almost as famous as actors.
214
525000
2000
duken se gati bëhen të famshëm sa vetë aktorët.
09:02
One mistake you should not do is become a mathematician.
215
527000
3000
Një gabim nuk duhet ta bëni, e të bëheni matematicient.
09:05
(Laughter)
216
530000
2000
(Të qeshura)
09:07
If you do that,
217
532000
2000
Nëse veç bëheni,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
534000
3000
ju do të mendoni, "Për mrekulli, do ti realizoj punimet më të mira të miat në moshën 20 vjeçare."
09:12
But guess what, nobody will really care.
219
537000
2000
Edhe a e dini, se askujt si bëhet vonë për këtë fakt.
09:14
(Laughter)
220
539000
3000
(Të qeshura)
09:17
ELA: There are more sobering notes
221
542000
2000
ELA: Ne mund të gjejmë shënime më të qarta
09:19
among the n-grams.
222
544000
2000
midis n-grameve.
09:21
For instance, here's the trajectory of Marc Chagall,
223
546000
2000
Si shembull, ja trajektorja e Marc Chagall,
09:23
an artist born in 1887.
224
548000
2000
një artist i lindur në vitin 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
550000
3000
Dhe kjo duket si një trajektore normale e një personi të famshëm.
09:28
He gets more and more and more famous,
226
553000
4000
Ai bëhet gjithëmonë më i famshëm,
09:32
except if you look in German.
227
557000
2000
përveç se nëse shiqoni në gjuhën gjermane.
09:34
If you look in German, you see something completely bizarre,
228
559000
2000
Nëse shiqoni në gjuhën gjermane, do të nuhasni diçka tërësisht bizare,
09:36
something you pretty much never see,
229
561000
2000
diçka që gati kurrë nuk do të shihni,
09:38
which is he becomes extremely famous
230
563000
2000
gjë që është se ai bëhet më se i famshëm
09:40
and then all of a sudden plummets,
231
565000
2000
e pastaj papritmas merr teposhtëzën,
09:42
going through a nadir between 1933 and 1945,
232
567000
3000
duke përjetuar një pikë të ultë midis viteve 1933 dhe 1945,
09:45
before rebounding afterward.
233
570000
3000
para se të tërhiqet pastaj.
09:48
And of course, what we're seeing
234
573000
2000
Se çka po vërejmë natyrisht,
09:50
is the fact Marc Chagall was a Jewish artist
235
575000
3000
është fakti që Marc Chagall ishte një artist hebre
09:53
in Nazi Germany.
236
578000
2000
në një Gjermani Naziste.
09:55
Now these signals
237
580000
2000
Tani, këto sinjale
09:57
are actually so strong
238
582000
2000
janë shumë të fortë
09:59
that we don't need to know that someone was censored.
239
584000
3000
sa që neve nuk na nevojitet te jemi në dijeni se dikush ishte i çenzuruar.
10:02
We can actually figure it out
240
587000
2000
Ne në fakt mund ta kuptojmë vetvetiu
10:04
using really basic signal processing.
241
589000
2000
duke shfrytëzuar procesimin e sinjaleve themelore.
10:06
Here's a simple way to do it.
242
591000
2000
Ja si është metoda më e thjeshtë për ta bërë.
10:08
Well, a reasonable expectation
243
593000
2000
Pritjet racionale
10:10
is that somebody's fame in a given period of time
244
595000
2000
që fama e dikujt gjatë një periudhe kohore
10:12
should be roughly the average of their fame before
245
597000
2000
do të duhet të jetë përafërsisht mesatarja e famës së tyre para
10:14
and their fame after.
246
599000
2000
dhe pasi që veç ishin të famshëm.
10:16
So that's sort of what we expect.
247
601000
2000
Kjo është çka ne presim.
10:18
And we compare that to the fame that we observe.
248
603000
3000
Dhe ne e krahasojmë me famën të cilën e vëzhgojmë.
10:21
And we just divide one by the other
249
606000
2000
Dhe veç i ndajmë njërën me tjetrën
10:23
to produce something we call a suppression index.
250
608000
2000
për të prodhuar diçka që ne e quajmë indeksi i shuarjes.
10:25
If the suppression index is very, very, very small,
251
610000
3000
Nëse ky indeks i shuarjes është tejet, tejet, tejet i vogël,
10:28
then you very well might be being suppressed.
252
613000
2000
atëherë ju veçse jeni të shtypur.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
615000
3000
Nëse ky indeks është i madh, ndoshta jeni duke përfituar nga propaganda.
10:34
JM: Now you can actually look at
254
619000
2000
JM: Tani ju mund të shihni
10:36
the distribution of suppression indexes over whole populations.
255
621000
3000
shpërndarjen e indekseve te shuarjeve nëpër popullatën e gjerë.
10:39
So for instance, here --
256
624000
2000
Pra si shembull këtu--
10:41
this suppression index is for 5,000 people
257
626000
2000
ky indeks i shuarjes është për 5,000 njerëz
10:43
picked in English books where there's no known suppression --
258
628000
2000
të përzgjedhur nëpër libra anglez ku nuk ka pasur shtypje të njohur--
10:45
it would be like this, basically tightly centered on one.
259
630000
2000
do të dukej diçka si kjo, pra e përqëndruar ngushtë në një.
10:47
What you expect is basically what you observe.
260
632000
2000
Se çka prisni në parim është se çka vëzhgoni.
10:49
This is distribution as seen in Germany --
261
634000
2000
Kjo shpërndarje e parë në Gjermani--
10:51
very different, it's shifted to the left.
262
636000
2000
shumë e ndryshme, është zhvendosur në të majtë.
10:53
People talked about it twice less as it should have been.
263
638000
3000
Njerëzit kanë folur rreth saj dy herë më pak se është dashur.
10:56
But much more importantly, the distribution is much wider.
264
641000
2000
Por çka është më me rëndësi, shpërndarja është më e gjerë.
10:58
There are many people who end up on the far left on this distribution
265
643000
3000
Janë gjendur shumë njerëz të cilët kanë përfunduar në skajin e anës së majtë të shpërndarjes
11:01
who are talked about 10 times fewer than they should have been.
266
646000
3000
të cilët kanë folur 10 herë më pak se është dashur.
11:04
But then also many people on the far right
267
649000
2000
Por në anën tjetër shumë njerëz në skajin e anës së djathtë
11:06
who seem to benefit from propaganda.
268
651000
2000
siç duket kanë përfituar nga propaganda.
11:08
This picture is the hallmark of censorship in the book record.
269
653000
3000
Kjo fotografi është vula dalluese e çenzurës në librin e shënuar.
11:11
ELA: So culturomics
270
656000
2000
Pra kulturomikë
11:13
is what we call this method.
271
658000
2000
e quajmë ne këtë metodë.
11:15
It's kind of like genomics.
272
660000
2000
Diçka e ngjashme me gjenomikën.
11:17
Except genomics is a lens on biology
273
662000
2000
Përveç se gjenomika e vë nën thjerrëz biologjinë
11:19
through the window of the sequence of bases in the human genome.
274
664000
3000
nëpërmjet dritares së ndërtueme në sekuenca në bazë të gjenomit njerëzor.
11:22
Culturomics is similar.
275
667000
2000
Kulturomika është e ngjashme.
11:24
It's the application of massive-scale data collection analysis
276
669000
3000
Paraqet aplikimin e analizës së të dhënave masive të mbledhura paraprakisht
11:27
to the study of human culture.
277
672000
2000
për të studiuar kulturën njerëzore.
11:29
Here, instead of through the lens of a genome,
278
674000
2000
Tani këtu në vend se të shiqojmë nëpërmjet thjerrëzës së një gjenomi,
11:31
through the lens of digitized pieces of the historical record.
279
676000
3000
shiqojmë nëpërmjet thjerrëzës së pjesëve të digjitalizuara të regjistrave historik.
11:34
The great thing about culturomics
280
679000
2000
Mashështia e kulturomikës
11:36
is that everyone can do it.
281
681000
2000
është se çdokush mund ta bëj.
11:38
Why can everyone do it?
282
683000
2000
Pse çdokush mundet?
11:40
Everyone can do it because three guys,
283
685000
2000
Gjithëkush do të ketë mundësi, sepse tre djem,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
687000
3000
Jon Orwant, Matt Gray dhe Will Brockman në Google,
11:45
saw the prototype of the Ngram Viewer,
285
690000
2000
kur e kanë e parë prototipin e Ngram Viewer,
11:47
and they said, "This is so fun.
286
692000
2000
thanë, "Kjo duket shumë zbavitëse.
11:49
We have to make this available for people."
287
694000
3000
Do të duhet të jetë e disponueshme për njerëzit."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
697000
2000
Për rrafsh dy javë--dy javë para se të publikohej artikulli ynë--
11:54
they coded up a version of the Ngram Viewer for the general public.
289
699000
3000
ata kodifikuan një version të Ngram Viewer për publikun e gjerë.
11:57
And so you too can type in any word or phrase that you're interested in
290
702000
3000
Dhe ju mund të shtypni ndonjë fjalë apo frazë e cila ju intereson
12:00
and see its n-gram immediately --
291
705000
2000
dhe ta shiqoni n-gram e tij menjiherë--
12:02
also browse examples of all the various books
292
707000
2000
poashtu të shfletoni shembuj prej librave të ndryshëm
12:04
in which your n-gram appears.
293
709000
2000
në të cilat n-grami juaj shfaqet.
12:06
JM: Now this was used over a million times on the first day,
294
711000
2000
JM: Tani ky apllikacion është shfrytëzuar një milionë herë në ditë e parë të tij,
12:08
and this is really the best of all the queries.
295
713000
2000
dhe kjo ështe më e mirë prej të gjitha kërkimeve.
12:10
So people want to be their best, put their best foot forward.
296
715000
3000
Kështuqë njerëzit duan të jenë më e mira e vetvetes, le të vënë hapin më të mirë përpara.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
718000
3000
Por siç do të shihet njerëzit në shekullin e XVIII-të nuk janë brengosur shumë për atë gjë.
12:16
They didn't want to be their best, they wanted to be their beft.
298
721000
3000
Njerëzit nuk kanë dashur të jenë në të mirën (fjala në angl. best) e tyre por në të mifën e tyre ( beft, një shkronjë e shkruar gabimisht, fraza mbetet pa kuptim).
12:19
So what happened is, of course, this is just a mistake.
299
724000
3000
Se çka ka ndodhur, natyrisht, ky është një gabim.
12:22
It's not that strove for mediocrity,
300
727000
2000
Nuk ishte ajo që u përpjek për mediokritet,
12:24
it's just that the S used to be written differently, kind of like an F.
301
729000
3000
por shkronja S shkruhej pak më ndryshe, diçka si shkronja F.
12:27
Now of course, Google didn't pick this up at the time,
302
732000
3000
Tani natyrisht, Google nuk mund ta haste në atë kohë,
12:30
so we reported this in the science article that we wrote.
303
735000
3000
kështu që ne e raportuam në artikullin që po shkruanim.
12:33
But it turns out this is just a reminder
304
738000
2000
Por ajo doli të ishte vetëm një rikujtues
12:35
that, although this is a lot of fun,
305
740000
2000
se edhe pse kjo është shumë zbavitëse,
12:37
when you interpret these graphs, you have to be very careful,
306
742000
2000
kur i intepretoni këto grafiqe, duhet të keni shumë kujdes,
12:39
and you have to adopt the base standards in the sciences.
307
744000
3000
dhe ti përvetësoni standardet themelore shkencore.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
747000
3000
ELA: Njerëzit e kanë shfrytëzuar këtë aplikacion për qëllime të ndryshme zbavitëse.
12:45
(Laughter)
309
750000
7000
(Të qeshura)
12:52
Actually, we're not going to have to talk,
310
757000
2000
Në fakt, ne nuk do të flasim më,
12:54
we're just going to show you all the slides and remain silent.
311
759000
3000
do t'ju paraqesim të gjitha faqet e prezentimit dhe do të jemi të qetë.
12:57
This person was interested in the history of frustration.
312
762000
3000
Ky person ishte i interesuar në historinë e frustrimit.
13:00
There's various types of frustration.
313
765000
3000
Ekzistojne lloje të ndryshme të frustrimit.
13:03
If you stub your toe, that's a one A "argh."
314
768000
3000
Nëse zeni në thua, në pasthirrmën tuaj "ah" gjendet vetëm një A.
13:06
If the planet Earth is annihilated by the Vogons
315
771000
2000
Nëse planeti Tokë do të shkatërrohej tërësisht nga jashtëtokësorët Vogonë
13:08
to make room for an interstellar bypass,
316
773000
2000
për të liruar hapësirë për një bajpas ndëryjor,
13:10
that's an eight A "aaaaaaaargh."
317
775000
2000
në "Aaaaaaaah" do të gjindeshin tetë A-ja.
13:12
This person studies all the "arghs,"
318
777000
2000
Ky person studio të gjitha pasthirrmat "ah",
13:14
from one through eight A's.
319
779000
2000
prej me një deri tetë A-ja.
13:16
And it turns out
320
781000
2000
Dhe siç u pa
13:18
that the less-frequent "arghs"
321
783000
2000
"ah"-et më pak të shpeshta
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
785000
3000
janë natyrisht ato të cilat korrespondojnë me gjërat më frustruese--
13:23
except, oddly, in the early 80s.
323
788000
3000
përveç çuditërisht në vitet e fillimit të 1980tës.
13:26
We think that might have something to do with Reagan.
324
791000
2000
Ne mendojmë se kjo ka të bëj diçka me Reagan.
13:28
(Laughter)
325
793000
2000
(Të qeshura)
13:30
JM: There are many usages of this data,
326
795000
3000
JM: Këto të dhëna mund të shfrytëzohen në mënyra të ndryshme,
13:33
but the bottom line is that the historical record is being digitized.
327
798000
3000
por çka duam të themi është se shënimet historike po digjitalizohen.
13:36
Google has started to digitize 15 million books.
328
801000
2000
Google ka fillu digjitalizimin e 15 milionë librave.
13:38
That's 12 percent of all the books that have ever been published.
329
803000
2000
Kjo është vetëm 12 përqind e të gjithë librave të botuar deri sot.
13:40
It's a sizable chunk of human culture.
330
805000
3000
Paraqet një copë të konsiderueshme të kulturës njerëzore.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
808000
3000
Kuptohet ka shumë më shumë gjëra në kulture si: dorëshkrimet, shtypi ditor,
13:46
there's things that are not text, like art and paintings.
332
811000
2000
gjërat që nuk përmbajnë tekst, si arti dhe pikturat.
13:48
These all happen to be on our computers,
333
813000
2000
E gjithë këto ndodhen në kompjuterët tanë,
13:50
on computers across the world.
334
815000
2000
në kompjuterët nëpër botë.
13:52
And when that happens, that will transform the way we have
335
817000
3000
E kur gjithë këto ndodhin, do të transformojnë mënyrën se si ne
13:55
to understand our past, our present and human culture.
336
820000
2000
e kuptojmë te kaluarën, të tashmen tonë si dhe kulturën njerëzore.
13:57
Thank you very much.
337
822000
2000
Ju falemnderit shumë.
13:59
(Applause)
338
824000
3000
(Duartrokitje)
Translated by Albana Deralla
Reviewed by Dita Bytyci

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com