ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

מה למדנו מ-5 מיליון ספרים

Filmed:
2,049,453 views

האם שיחקתם פעם בתוכנה הגרפית Ngram של מעבדות גוגל? זהו כלי ממכר המאפשר לנו לחפש מילים ורעיונות בבסיס נתונים של 5 מיליון ספרים שנכתבו לאורך מאות שנים. ארז ליברמן איידן וז'אן-באפטיסט מישל מראים לנו כיצד זה עובד, וגם כמה מהדברים המפתיעים שניתן ללמוד מתוך 500 מיליארד מילים.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
Erezארז Liebermanליברמן Aidenאיידן: Everyoneכל אחד knowsיודע
0
0
2000
ארז ליברמן איידן: כולם יודעים
00:17
that a pictureתְמוּנָה is worthשִׁוּוּי a thousandאלף wordsמילים.
1
2000
3000
שתמונה שווה אלף מילים.
00:22
But we at Harvardהרווארד
2
7000
2000
אבל אנחנו בהרווארד
00:24
were wonderingתוהה if this was really trueנָכוֹן.
3
9000
3000
תהינו אם זה באמת נכון.
00:27
(Laughterצחוק)
4
12000
2000
(צחוק)
00:29
So we assembledהתאספו a teamקְבוּצָה of expertsמומחים,
5
14000
4000
לכן הרכבנו צוות של מומחים
00:33
spanningפורש Harvardהרווארד, MITMIT,
6
18000
2000
שמגיעים מהרווארד, MIT,
00:35
The Americanאֲמֶרִיקָאִי Heritageמוֹרֶשֶׁת Dictionaryמילון, The Encyclopediaאֶנצִיקלוֹפֶּדִיָה Britannicaבריטניקה
7
20000
3000
המילון למורשת אמריקאית, אנציקלופדיה בריטניקה
00:38
and even our proudגאה sponsorsנותני חסות,
8
23000
2000
ואפילו מנותני החסות
00:40
the GoogleGoogle.
9
25000
3000
הגאים שלנו, גוגל.
00:43
And we cogitatedמשוחק about this
10
28000
2000
הרהרנו בזה
00:45
for about fourארבעה yearsשנים.
11
30000
2000
במשך כארבע שנים
00:47
And we cameבא to a startlingמבהילה conclusionסיכום.
12
32000
5000
והגענו למסקנה מדהימה.
00:52
Ladiesנשים and gentlemenרבותי, a pictureתְמוּנָה is not worthשִׁוּוּי a thousandאלף wordsמילים.
13
37000
3000
גבירותיי ורבותיי, תמונה אינה שווה אלף מילים.
00:55
In factעוּבדָה, we foundמצאתי some picturesתמונות
14
40000
2000
בעצם, מצאנו כמה תמונות
00:57
that are worthשִׁוּוּי 500 billionמיליארד wordsמילים.
15
42000
5000
השוות 500 מיליארד מילים.
01:02
Jean-Baptisteז'אן-בפטיסט Michelמישל: So how did we get to this conclusionסיכום?
16
47000
2000
ג'ין-בפטיסט מישל: כיצד הגענו למסקנה זו?
01:04
So Erezארז and I were thinkingחושב about waysדרכים
17
49000
2000
ארז ואני חשבנו על דרכים
01:06
to get a bigגָדוֹל pictureתְמוּנָה of humanבן אנוש cultureתַרְבּוּת
18
51000
2000
לקבלת תמונה כוללת של תרבות
01:08
and humanבן אנוש historyהִיסטוֹרִיָה: changeשינוי over time.
19
53000
3000
והיסטוריה אנושית: של שינוי לאורך זמן.
01:11
So manyרב booksספרים actuallyלמעשה have been writtenכתוב over the yearsשנים.
20
56000
2000
כל-כך הרבה ספרים נכתבו במהלך השנים.
01:13
So we were thinkingחושב, well the bestהטוב ביותר way to learnלִלמוֹד from them
21
58000
2000
לכן חשבנו שהדרך הכי טובה ללמוד מהם
01:15
is to readלקרוא all of these millionsמיליונים of booksספרים.
22
60000
2000
היא לקרוא את כל מיליוני הספרים.
01:17
Now of courseקוּרס, if there's a scaleסוּלָם for how awesomeמדהים that is,
23
62000
3000
כמובן שאם יש מדד לעד כמה שזה מרשים,
01:20
that has to rankדַרגָה extremelyמְאוֹד, extremelyמְאוֹד highגָבוֹהַ.
24
65000
3000
יש למקם אותו מאוד, מאוד גבוה.
01:23
Now the problemבְּעָיָה is there's an X-axisX- ציר for that,
25
68000
2000
הבעיה היא שקיים גם ציר X,
01:25
whichאיזה is the practicalמַעֲשִׂי axisצִיר.
26
70000
2000
שהוא ציר התכליתיות במקרה זה,
01:27
This is very, very lowנָמוּך.
27
72000
2000
שעל-פיו זה מאוד, מאוד נמוך.
01:29
(Applauseתְשׁוּאוֹת)
28
74000
3000
(מחיאות כפיים)
01:32
Now people tendנוטה to use an alternativeחֲלוּפָה approachגִישָׁה,
29
77000
3000
אנשים נוטים להשתמש בגישה אלטרנטיבית,
01:35
whichאיזה is to take a fewמְעַטִים sourcesמקורות and readלקרוא them very carefullyבקפידה.
30
80000
2000
שזה לקחת כמה מקורות ולקרוא אותם בתשומת לב.
01:37
This is extremelyמְאוֹד practicalמַעֲשִׂי, but not so awesomeמדהים.
31
82000
2000
זה מאוד מעשי אבל לא מרשים.
01:39
What you really want to do
32
84000
3000
מה שבאמת צריך לעשות
01:42
is to get to the awesomeמדהים yetעדיין practicalמַעֲשִׂי partחֵלֶק of this spaceמֶרחָב.
33
87000
3000
זה להיכנס לחלק המרשים אבל גם המעשי של סביבה זו.
01:45
So it turnsפונה out there was a companyחֶברָה acrossלְרוֹחָב the riverנהר calledשקוראים לו GoogleGoogle
34
90000
3000
מתברר שיש חברה מעבר לנהר שנקראת גוגל
01:48
who had startedהתחיל a digitizationדיגיטציה projectפּרוֹיֶקט a fewמְעַטִים yearsשנים back
35
93000
2000
שהחלה במיזם דיגיטליזציה לפני כמה שנים
01:50
that mightאולי just enableלְאַפשֵׁר this approachגִישָׁה.
36
95000
2000
העשוי לאפשר את יישומה של גישה זו.
01:52
They have digitizedדיגיטציה millionsמיליונים of booksספרים.
37
97000
2000
הם ביצעו דיגיטליזציה למיליוני ספרים.
01:54
So what that meansאומר is, one could use computationalחישובית methodsשיטות
38
99000
3000
זה אומר שניתן לנצל שיטות ממוחשבות
01:57
to readלקרוא all of the booksספרים in a clickנְקִישָׁה of a buttonלַחְצָן.
39
102000
2000
כדי לקרוא את כל הספרים בלחיצת כפתור.
01:59
That's very practicalמַעֲשִׂי and extremelyמְאוֹד awesomeמדהים.
40
104000
3000
זה מאוד מעשי וגם מרשים ביותר.
02:03
ELAELA: Let me tell you a little bitbit about where booksספרים come from.
41
108000
2000
א.ל.א.: אספר לכם קצת מאיפה הספרים מגיעים.
02:05
Sinceמאז time immemorialקָדוּם, there have been authorsמחברים.
42
110000
3000
מאז זמנים קדומים, היו כבר מיליוני סופרים.
02:08
These authorsמחברים have been strivingשאיפה to writeלִכתוֹב booksספרים.
43
113000
3000
סופרים אלה שאפו לכתוב ספרים.
02:11
And this becameהפכתי considerablyבמידה ניכרת easierקל יותר
44
116000
2000
וזה הפך לקל משמעותית
02:13
with the developmentהתפתחות of the printingהַדפָּסָה pressללחוץ some centuriesמאות שנים agoלִפנֵי.
45
118000
2000
עם התפתחות הדפוס לפני מספר מאות שנים.
02:15
Sinceמאז then, the authorsמחברים have wonזכית
46
120000
3000
מאז, הסופרים זכו לפרסם ספרים
02:18
on 129 millionמִילִיוֹן distinctמובהק occasionsאירועים,
47
123000
2000
129 מיליון
02:20
publishingהוֹצָאָה לְאוֹר booksספרים.
48
125000
2000
פעמים.
02:22
Now if those booksספרים are not lostאבד to historyהִיסטוֹרִיָה,
49
127000
2000
אם כל אותם הספרים לא הלכו לאיבוד
02:24
then they are somewhereאי שם in a libraryסִפְרִיָה,
50
129000
2000
במהלך ההיסטוריה, הם נמצאים בספריות,
02:26
and manyרב of those booksספרים have been gettingמקבל retrievedאוחזר from the librariesספריות
51
131000
3000
ורבים מבין הספרים האלה נשלפים מהספריות
02:29
and digitizedדיגיטציה by GoogleGoogle,
52
134000
2000
ועוברים דיגיטליזציה אצל גוגל,
02:31
whichאיזה has scannedסרק 15 millionמִילִיוֹן booksספרים to dateתַאֲרִיך.
53
136000
2000
אשר סרקה עד כה 15 מיליון ספרים.
02:33
Now when GoogleGoogle digitizesdigitizes a bookסֵפֶר, they put it into a really niceנֶחְמָד formatפוּרמָט.
54
138000
3000
כאשר בגוגל עושים דיגיטליזציה לספר, הם מעבירים אותו לפורמט באמת יפה.
02:36
Now we'veיש לנו got the dataנתונים, plusועוד we have metadataמטה-נתונים.
55
141000
2000
יש לנו נתונים ובנוסף יש לנו נתונים על מאפייני הנתונים.
02:38
We have informationמֵידָע about things like where was it publishedיצא לאור,
56
143000
3000
יש לנו מידע על דברים כגון היכן זה פורסם,
02:41
who was the authorמְחַבֵּר, when was it publishedיצא לאור.
57
146000
2000
מי היה המחבר, מתי זה פורסם.
02:43
And what we do is go throughדרך all of those recordsרשומות
58
148000
3000
ומה שאנו עושים זה לעבור על כל הרשומות האלו
02:46
and excludeלא לכלול everything that's not the highestהכי גבוה qualityאיכות dataנתונים.
59
151000
4000
ולוותר על כל הנתונים שאינם מהאיכות הכי גבוהה.
02:50
What we're left with
60
155000
2000
מה שנשאר זה
02:52
is a collectionאוסף of fiveחָמֵשׁ millionמִילִיוֹן booksספרים,
61
157000
3000
אוסף של 5 מיליון ספרים,
02:55
500 billionמיליארד wordsמילים,
62
160000
3000
500 מיליארד מילים,
02:58
a stringחוּט of charactersדמויות a thousandאלף timesפִּי longerארוך יותר
63
163000
2000
מחרוזת של אותיות הארוכה פי אלף
03:00
than the humanבן אנוש genomeגנום --
64
165000
3000
מהחומר התורשתי האנושי --
03:03
a textטֶקסט whichאיזה, when writtenכתוב out,
65
168000
2000
טקסט שאם ייכתב,
03:05
would stretchלִמְתוֹחַ from here to the Moonירח and back
66
170000
2000
יגיע מכאן לירח ובחזרה
03:07
10 timesפִּי over --
67
172000
2000
10 פעמים ויותר --
03:09
a veritableמַמָשִׁי shardחֶרֶס of our culturalתַרְבּוּתִי genomeגנום.
68
174000
4000
זהו פלח משמעותי מהתורשה התרבותית שלנו.
03:13
Of courseקוּרס what we did
69
178000
2000
ברור שמה שעשינו
03:15
when facedפנים with suchכגון outrageousמְזַעזֵעַ hyperboleהַגזָמָה ...
70
180000
3000
כאשר נתקלנו בהיפרבולה שערורייתית כזו --
03:18
(Laughterצחוק)
71
183000
2000
(צחוק)
03:20
was what any self-respectingכבוד עצמי researchersחוקרים
72
185000
3000
היה מה שכל חוקר המכבד את עצמו
03:23
would have doneבוצע.
73
188000
3000
היה עושה.
03:26
We tookלקח a pageעמוד out of XKCDXKCD,
74
191000
2000
לקחנו דף מתוך קטע קומי ברשת,
03:28
and we said, "Standלַעֲמוֹד back.
75
193000
2000
ואמרנו, "תתרחקי מאיתנו.
03:30
We're going to try scienceמַדָע."
76
195000
2000
אנו הולכים להיעזר במדע."
03:32
(Laughterצחוק)
77
197000
2000
(צחוק)
03:34
JMJM: Now of courseקוּרס, we were thinkingחושב,
78
199000
2000
ג'.מ.: טוב, ברור שחשבנו
03:36
well let's just first put the dataנתונים out there
79
201000
2000
שאולי נחשוף את הנתונים לאנשים
03:38
for people to do scienceמַדָע to it.
80
203000
2000
כדי שיעשו עליהם מחקרים מדעיים.
03:40
Now we're thinkingחושב, what dataנתונים can we releaseלְשַׁחְרֵר?
81
205000
2000
התחלנו לחשוב איזה נתונים לשחרר.
03:42
Well of courseקוּרס, you want to take the booksספרים
82
207000
2000
האמת שהיינו רוצים לשחרר
03:44
and releaseלְשַׁחְרֵר the fullמלא textטֶקסט of these fiveחָמֵשׁ millionמִילִיוֹן booksספרים.
83
209000
2000
את מלוא הטקסט של כל 5 מיליון הספרים.
03:46
Now GoogleGoogle, and Jonג'ון Orwantאור in particularמיוחד,
84
211000
2000
אבל גוגל, ובעיקר ג'ון אורוונט,
03:48
told us a little equationמשוואה that we should learnלִלמוֹד.
85
213000
2000
סיפרו לנו שעלינו ללמוד משוואה אחת.
03:50
So you have fiveחָמֵשׁ millionמִילִיוֹן, that is, fiveחָמֵשׁ millionמִילִיוֹן authorsמחברים
86
215000
3000
אם יש לכם 5 מיליון, זה אומר 5 מיליון סופרים
03:53
and fiveחָמֵשׁ millionמִילִיוֹן plaintiffsתובעים is a massiveמַסִיבִי lawsuitתביעה משפטית.
87
218000
3000
ו-5 מיליון תביעות משפטיות שזה ממש המון.
03:56
So, althoughלמרות ש that would be really, really awesomeמדהים,
88
221000
2000
כך שגם אם זה יהיה ממש, ממש מרשים,
03:58
again, that's extremelyמְאוֹד, extremelyמְאוֹד impracticalלֹא מַעֲשִׂי.
89
223000
3000
שוב, זה מאוד, מאוד לא מעשי.
04:01
(Laughterצחוק)
90
226000
2000
(צחוק)
04:03
Now again, we kindסוג of cavedcaved in,
91
228000
2000
ואנו שוב ויתרנו,
04:05
and we did the very practicalמַעֲשִׂי approachגִישָׁה, whichאיזה was a bitbit lessפָּחוּת awesomeמדהים.
92
230000
3000
ואימצנו את הגישה המאוד מעשית, שהיתה קצת פחות מרשימה.
04:08
We said, well insteadבמקום זאת of releasingשחרור the fullמלא textטֶקסט,
93
233000
2000
אמרנו, במקום לשחרר את מלוא הטקסט,
04:10
we're going to releaseלְשַׁחְרֵר statisticsסטָטִיסטִיקָה about the booksספרים.
94
235000
2000
נשחרר סטטיסטיקות על הספרים.
04:12
So take for instanceלמשל "A gleamנִצנוּץ of happinessאושר."
95
237000
2000
ניקח לדוגמא "קורטוב של אושר".
04:14
It's fourארבעה wordsמילים; we call that a four-gramארבעה גרם.
96
239000
2000
אלו הן ארבע מילים (באנגלית); נקרא לזה משקל-ארבע.
04:16
We're going to tell you how manyרב timesפִּי a particularמיוחד four-gramארבעה גרם
97
241000
2000
נספר לכם כמה פעמים משקל-ארבע מסויים
04:18
appearedהופיע in booksספרים in 1801, 1802, 1803,
98
243000
2000
הופיע בספרים ב-1801, 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
עד 2008.
04:22
That givesנותן us a time seriesסִדרָה
100
247000
2000
זה נותן לנו מרווחי זמן של תדירות השימוש
04:24
of how frequentlyבתדירות גבוהה this particularמיוחד sentenceמשפט was used over time.
101
249000
2000
בביטוי מסויים זה לאורך תקופה.
04:26
We do that for all the wordsמילים and phrasesביטויים that appearלְהוֹפִיעַ in those booksספרים,
102
251000
3000
אנו עושים זאת לכל המילים והביטויים אשר מופיעים בספרים הללו,
04:29
and that givesנותן us a bigגָדוֹל tableשולחן of two billionמיליארד linesקווים
103
254000
3000
וזה נותן לנו טבלה גדולה של שני מיליארד שורות
04:32
that tell us about the way cultureתַרְבּוּת has been changingמִשְׁתַנֶה.
104
257000
2000
המספרות לנו על הדרך בה תרבות משתנה.
04:34
ELAELA: So those two billionמיליארד linesקווים,
105
259000
2000
א.ל.א.: שני מיליארד השורות הללו,
04:36
we call them two billionמיליארד n-gramsn גרם.
106
261000
2000
אנו מכנים אותן שני מיליארד משקלי-n.
04:38
What do they tell us?
107
263000
2000
מה הן מספרות לנו?
04:40
Well the individualאִישִׁי n-gramsn גרם measureלִמְדוֹד culturalתַרְבּוּתִי trendsמגמות.
108
265000
2000
כל משקל-n לכשעצמו מודד מגמות תרבותיות.
04:42
Let me give you an exampleדוגמא.
109
267000
2000
אתן לכם דוגמא.
04:44
Let's supposeלְהַנִיחַ that I am thrivingמשגשגת,
110
269000
2000
נניח שאני מצליח במשהו,
04:46
then tomorrowמָחָר I want to tell you about how well I did.
111
271000
2000
לכן מחר ברצוני לספר לכם על ההצלחה שלי.
04:48
And so I mightאולי say, "Yesterdayאתמול, I throveשגשגתי."
112
273000
3000
אני עשוי לומר, "אתמול, הצלחתי (I throve)."
04:51
Alternativelyלחלופין, I could say, "Yesterdayאתמול, I thrivedשגשג."
113
276000
3000
או לחילופין, אתמול, הצלחתי (I thrived)".
04:54
Well whichאיזה one should I use?
114
279000
3000
במה עליי להשתמש?
04:57
How to know?
115
282000
2000
כיצד יודעים?
04:59
As of about sixשֵׁשׁ monthsחודשים agoלִפנֵי,
116
284000
2000
עד לפני 6 חודשים,
05:01
the stateמדינה of the artאומנות in this fieldשדה
117
286000
2000
המצב העדכני בתחום זה היה
05:03
is that you would, for instanceלמשל,
118
288000
2000
שהולכים, לדוגמא,
05:05
go up to the followingהבא psychologistפְּסִיכוֹלוֹג with fabulousמהמם hairשיער,
119
290000
2000
לפסיכולוג כזה עם שיער מדהים,
05:07
and you'dהיית רוצה say,
120
292000
2000
ואומרים,
05:09
"Steveסטיב, you're an expertמוּמחֶה on the irregularלֹא סָדִיר verbsפעלים.
121
294000
3000
"סטיב, אתה מומחה בפעלים חריגים.
05:12
What should I do?"
122
297000
2000
מה עליי לעשות?"
05:14
And he'dהוא היה tell you, "Well mostרוב people say thrivedשגשג,
123
299000
2000
והוא היה עונה, "רוב האנשים אומרים thrived,
05:16
but some people say throveשגשגתי."
124
301000
3000
אבל כמה אומרים throve"
05:19
And you alsoגַם knewידע, more or lessפָּחוּת,
125
304000
2000
גם אתם יודעים, פחות או יותר,
05:21
that if you were to go back in time 200 yearsשנים
126
306000
3000
שאם הייתם חוזרים 200 שנה אחורה
05:24
and askלִשְׁאוֹל the followingהבא statesmanמְדִינָאִי with equallyבאופן שווה fabulousמהמם hairשיער,
127
309000
3000
ושואלים את המדינאי הזה שגם לו יש שיער מדהים,
05:27
(Laughterצחוק)
128
312000
3000
(צחוק)
05:30
"Tomטום, what should I say?"
129
315000
2000
"טום, מה עליי להגיד?"
05:32
He'dהוא היה say, "Well, in my day, mostרוב people throveשגשגתי,
130
317000
2000
הוא היה עונה, "בזמני, רוב האנשים השתמשו ב-throve,
05:34
but some thrivedשגשג."
131
319000
3000
אבל כמה ב-thrived".
05:37
So now what I'm just going to showלְהַצִיג you is rawגלם dataנתונים.
132
322000
2000
כעת מה שאראה לכם זה נתונים גולמיים.
05:39
Two rowsשורות from this tableשולחן of two billionמיליארד entriesרשומות.
133
324000
4000
שתי שורות מטבלה זו של 2 מיליארד שורות.
05:43
What you're seeingרְאִיָה is yearשָׁנָה by yearשָׁנָה frequencyתדירות
134
328000
2000
מה שרואים זו התדירות, שנה אחר שנה,
05:45
of "thrivedשגשג" and "throveשגשגתי" over time.
135
330000
3000
של "thrived" מול "throve" לאורך זמן.
05:49
Now this is just two
136
334000
2000
אלו רק שתי שורות
05:51
out of two billionמיליארד rowsשורות.
137
336000
3000
מתוך 2 מיליארד שורות.
05:54
So the entireשלם dataנתונים setמַעֲרֶכֶת
138
339000
2000
כך שכל מערך הנתונים
05:56
is a billionמיליארד timesפִּי more awesomeמדהים than this slideשקופית.
139
341000
3000
מרשים פי מיליארד מאשר שקופית זו.
05:59
(Laughterצחוק)
140
344000
2000
(צחוק)
06:01
(Applauseתְשׁוּאוֹת)
141
346000
4000
(מחיאות כפיים)
06:05
JMJM: Now there are manyרב other picturesתמונות that are worthשִׁוּוּי 500 billionמיליארד wordsמילים.
142
350000
2000
ג'.מ: ישנן הרבה תמונות אחרות
06:07
For instanceלמשל, this one.
143
352000
2000
השוות 500 מיליארד מילים. למשל זו.
06:09
If you just take influenzaשַׁפַעַת,
144
354000
2000
אם ניקח את שפעת,
06:11
you will see peaksפסגות at the time where you knewידע
145
356000
2000
נראה שיאים בזמנים שאנו יודעים
06:13
bigגָדוֹל fluשַׁפַעַת epidemicsמגיפות were killingהֶרֶג people around the globeגלוֹבּוּס.
146
358000
3000
שבהם מגיפות השפעת חיסלו אנשים בכל העולם.
06:16
ELAELA: If you were not yetעדיין convincedמְשׁוּכנָע,
147
361000
3000
א.ל.א.: אם עדיין לא השתכנעתם,
06:19
seaיָם levelsרמות are risingעוֹלֶה,
148
364000
2000
פני-הים עולים,
06:21
so is atmosphericאטמוספרי COשיתוף2 and globalגלוֹבָּלִי temperatureטֶמפֶּרָטוּרָה.
149
366000
3000
כך גם דו-תחמוצת הפחמן באויר והטמפרטורה הממוצעת.
06:24
JMJM: You mightאולי alsoגַם want to have a look at this particularמיוחד n-gramn גרם,
150
369000
3000
ג'.מ.: אולי גם תרצו לראות את משקל-n המסויים הזה,
06:27
and that's to tell Nietzscheניטשה that God is not deadמֵת,
151
372000
3000
וזה כדי לספר לניטשה שאלוהים לא מת,
06:30
althoughלמרות ש you mightאולי agreeלְהַסכִּים that he mightאולי need a better publicistפּוּבּלִיצִיסט.
152
375000
3000
אף על-פי שתסכימו אולי שהוא זקוק ליחצ"ן יותר טוב.
06:33
(Laughterצחוק)
153
378000
2000
(צחוק)
06:35
ELAELA: You can get at some prettyיפה abstractתַקצִיר conceptsמושגים with this sortסוג of thing.
154
380000
3000
א.ל.א.: ניתן להגיע לכמה תפיסות מופשטות מדבר כזה.
06:38
For instanceלמשל, let me tell you the historyהִיסטוֹרִיָה
155
383000
2000
לדוגמא, אספר לכם על ההיסטוריה
06:40
of the yearשָׁנָה 1950.
156
385000
2000
של שנת 1950.
06:42
Prettyיפה much for the vastעָצוּם majorityרוֹב of historyהִיסטוֹרִיָה,
157
387000
2000
לאורך רוב ההיסטוריה בקירוב,
06:44
no one gaveנתן a damnלעזאזל about 1950.
158
389000
2000
אף אחד לא שם על שנת 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
ב-1700, ב-1800, ב-1900,
06:48
no one caredדאגתי.
160
393000
3000
לאף אחד לא היה אכפת.
06:52
Throughדרך the 30s and 40s,
161
397000
2000
לאורך שנות ה-30 וה-40,
06:54
no one caredדאגתי.
162
399000
2000
לאף אחד לא היה אכפת.
06:56
Suddenlyפִּתְאוֹם, in the mid-בֵּינוֹנִי-40s,
163
401000
2000
פתאום, באמצע שנות ה-40,
06:58
there startedהתחיל to be a buzzזִמזוּם.
164
403000
2000
התחיל הבאז.
07:00
People realizedהבין that 1950 was going to happenלִקְרוֹת,
165
405000
2000
אנשים גילו ש-1950 עומדת להגיע,
07:02
and it could be bigגָדוֹל.
166
407000
2000
והיא יכולה להיות דבר גדול.
07:04
(Laughterצחוק)
167
409000
3000
(צחוק)
07:07
But nothing got people interestedמעוניין in 1950
168
412000
3000
אבל שום דבר לא גרם להם להתעניין ב-1950
07:10
like the yearשָׁנָה 1950.
169
415000
3000
כמו השנה 1950 עצמה.
07:13
(Laughterצחוק)
170
418000
3000
(צחוק)
07:16
People were walkingהליכה around obsessedאובססיבי.
171
421000
2000
אנשים התהלכו עם אובססיה בתוכם.
07:18
They couldn'tלא יכול stop talkingשִׂיחָה
172
423000
2000
הם לא יכלו להפסיק לדבר
07:20
about all the things they did in 1950,
173
425000
3000
על כל הדברים שהם עשו ב-1950,
07:23
all the things they were planningתִכנוּן to do in 1950,
174
428000
3000
כל הדברים שהם תיכננו לעשות ב-1950,
07:26
all the dreamsחלומות of what they wanted to accomplishלְהַשִׂיג in 1950.
175
431000
5000
כל החלומות שהם רצו להגשים ב-1950.
07:31
In factעוּבדָה, 1950 was so fascinatingמַקסִים
176
436000
2000
למעשה, 1950 היתה כה מרתקת
07:33
that for yearsשנים thereafterלְאַחַר מִכֵּן,
177
438000
2000
שבשנים שלאחריה,
07:35
people just keptשמר talkingשִׂיחָה about all the amazingמדהים things that happenedקרה,
178
440000
3000
אנשים פשוט המשיכו לדבר על כל הדברים המדהימים שקרו,
07:38
in '51, '52, '53.
179
443000
2000
ב-51, 52, 53.
07:40
Finallyסוף כל סוף in 1954,
180
445000
2000
לבסוף ב-1954,
07:42
someoneמִישֶׁהוּ wokeהתעוררתי up and realizedהבין
181
447000
2000
מישהו התעורר ושם לב
07:44
that 1950 had gottenקיבל somewhatבמידה מסוימת passלַעֲבוֹרé.
182
449000
4000
ש-1950 איכשהו עבר זמנה.
07:48
(Laughterצחוק)
183
453000
2000
(צחוק)
07:50
And just like that, the bubbleבּוּעָה burstהִתפָּרְצוּת.
184
455000
2000
וככה סתם, הבלון התפוצץ.
07:52
(Laughterצחוק)
185
457000
2000
(צחוק)
07:54
And the storyכַּתָבָה of 1950
186
459000
2000
וסיפורה של 1950 הוא הסיפור
07:56
is the storyכַּתָבָה of everyכֹּל yearשָׁנָה that we have on recordתקליט,
187
461000
2000
של כל שנה שיש עליה רשומות,
07:58
with a little twistלְהִתְפַּתֵל, because now we'veיש לנו got these niceנֶחְמָד chartsתרשימים.
188
463000
3000
עם שינוי קטן, כי כעת יש לנו את התרשימים היפים האלה.
08:01
And because we have these niceנֶחְמָד chartsתרשימים, we can measureלִמְדוֹד things.
189
466000
3000
ומאחר ויש לנו אותם, אנו יכולים למדוד דברים שונים.
08:04
We can say, "Well how fastמָהִיר does the bubbleבּוּעָה burstהִתפָּרְצוּת?"
190
469000
2000
אנו יכולים לשאול, "כמה מהר הבלון מתפוצץ?"
08:06
And it turnsפונה out that we can measureלִמְדוֹד that very preciselyבְּדִיוּק.
191
471000
3000
מתברר שניתן למדוד זאת בדיוק מאוד גבוה.
08:09
Equationsמשוואות were derivedנִגזָר, graphsגרפים were producedמיוצר,
192
474000
3000
מזה נוצרו משוואות, נוצרו גרפים,
08:12
and the netנֶטוֹ resultתוֹצָאָה
193
477000
2000
והתוצאה הסופית היא
08:14
is that we find that the bubbleבּוּעָה burstsהתפרצויות fasterמהיר יותר and fasterמהיר יותר
194
479000
3000
שמצאנו שהבלון מתפוצץ יותר ויותר מהר
08:17
with eachכל אחד passingחוֹלֵף yearשָׁנָה.
195
482000
2000
עם כל שנה שעוברת.
08:19
We are losingלאבד interestריבית in the pastעבר more rapidlyמַהֵר.
196
484000
5000
אנו מאבדים עניין בעבר בקצב הולך וגובר.
08:24
JMJM: Now a little pieceלְחַבֵּר of careerקריירה adviceעֵצָה.
197
489000
2000
ג'.מ.: ועכשיו עצה קטנה בנושא קריירה.
08:26
So for those of you who seekלְחַפֵּשׂ to be famousמפורסם,
198
491000
2000
עבור אלה מכם ששואפים להתפרסם,
08:28
we can learnלִלמוֹד from the 25 mostרוב famousמפורסם politicalפּוֹלִיטִי figuresדמויות,
199
493000
2000
ניתן ללמוד מ-25 הפוליטיקאים המובילים,
08:30
authorsמחברים, actorsשחקנים and so on.
200
495000
2000
הסופרים, השחקנים ועוד.
08:32
So if you want to becomeהפכו famousמפורסם earlyמוקדם on, you should be an actorשַׂחְקָן,
201
497000
3000
אם ברצונכם להתפרסם מוקדם, עליכם להיות שחקנים,
08:35
because then fameפִּרסוּם startsמתחיל risingעוֹלֶה by the endסוֹף of your 20s --
202
500000
2000
מכיוון שהפירסום מתחיל לטפס בסוף שנות ה-20 שלכם --
08:37
you're still youngצָעִיר, it's really great.
203
502000
2000
אתם עדיין צעירים וזה נהדר.
08:39
Now if you can wait a little bitbit, you should be an authorמְחַבֵּר,
204
504000
2000
אם אתם יכולים להמתין מעט, עליכם להיות סופרים,
08:41
because then you riseלעלות to very great heightsגבהים,
205
506000
2000
מאחר ואז אתם מטפסים לגבהים גדולים,
08:43
like Markסימן Twainטוויין, for instanceלמשל: extremelyמְאוֹד famousמפורסם.
206
508000
2000
כמו מרק טוויין: מאוד מפורסם.
08:45
But if you want to reachלְהַגִיעַ the very topחלק עליון,
207
510000
2000
אבל אם ברצונכם להגיע ממש לפיסגה,
08:47
you should delayלְעַכֵּב gratificationשְׂבִיעוּת
208
512000
2000
עליכם לדחות סיפוקים
08:49
and, of courseקוּרס, becomeהפכו a politicianפּוֹלִיטִיקָאִי.
209
514000
2000
וכמובן, להיות פוליטיקאי.
08:51
So here you will becomeהפכו famousמפורסם by the endסוֹף of your 50s,
210
516000
2000
כאן תהיו מפורסמים בסוף שנות ה-50 שלכם,
08:53
and becomeהפכו very, very famousמפורסם afterwardאחר כך.
211
518000
2000
ותהיו מאוד, מאוד מפורסמים אחר-כך.
08:55
So scientistsמדענים alsoגַם tendנוטה to get famousמפורסם when they're much olderישן יותר.
212
520000
3000
גם המדענים נוטים להתפרסם כאשר הם מבוגרים בהרבה.
08:58
Like for instanceלמשל, biologistsביולוגים and physicsפיזיקה
213
523000
2000
כמו לדוגמא, ביולוגים ופיזיקאים
09:00
tendנוטה to be almostכִּמעַט as famousמפורסם as actorsשחקנים.
214
525000
2000
שמקבלים פירסום כמו שחקנים.
09:02
One mistakeטעות you should not do is becomeהפכו a mathematicianמתמטיקאי.
215
527000
3000
שגיאה אחת שעליכם להימנע ממנה זה להיות מתמטיקאי.
09:05
(Laughterצחוק)
216
530000
2000
(צחוק)
09:07
If you do that,
217
532000
2000
אם תעשו זאת,
09:09
you mightאולי think, "Oh great. I'm going to do my bestהטוב ביותר work when I'm in my 20s."
218
534000
3000
אולי תחשבו, "נהדר, אגיע לשיאי בשנות ה-20 שלי."
09:12
But guessלְנַחֵשׁ what, nobodyאף אחד will really careלְטַפֵּל.
219
537000
2000
אבל אתם יודעים מה? לאף אחד זה לא יהיה אכפת.
09:14
(Laughterצחוק)
220
539000
3000
(צחוק)
09:17
ELAELA: There are more soberingהִתפַּכְּחוּת notesהערות
221
542000
2000
א.ל.א.: ישנן תובנות נוספות מאירות-עיניים
09:19
amongבין the n-gramsn גרם.
222
544000
2000
בתוך המשקלי-n.
09:21
For instanceלמשל, here'sהנה the trajectoryמַסלוּל of Marcמארק Chagallשאגאל,
223
546000
2000
לדוגמא, הנה המסלול של מרק שאגל,
09:23
an artistאמן bornנוֹלָד in 1887.
224
548000
2000
אמן יליד 1887.
09:25
And this looksנראה like the normalנוֹרמָלִי trajectoryמַסלוּל of a famousמפורסם personאדם.
225
550000
3000
וזה נראה כמסלול רגיל של אדם שהתפרסם.
09:28
He getsמקבל more and more and more famousמפורסם,
226
553000
4000
הוא נהיה יותר ויותר מפורסם,
09:32
exceptמלבד if you look in Germanגֶרמָנִיָת.
227
557000
2000
אלא אם בודקים בשפה הגרמנית.
09:34
If you look in Germanגֶרמָנִיָת, you see something completelyלַחֲלוּטִין bizarreמוּזָר,
228
559000
2000
אם בודקים בגרמנית, רואים משהו לגמרי מוזר,
09:36
something you prettyיפה much never see,
229
561000
2000
משהו שכמעט ולא רואים,
09:38
whichאיזה is he becomesהופך extremelyמְאוֹד famousמפורסם
230
563000
2000
שזה שהוא נהיה מאוד מפורסם
09:40
and then all of a suddenפִּתְאוֹמִי plummetsצונחת,
231
565000
2000
ואז פתאום צולל לתחתית,
09:42
going throughדרך a nadirנדיר betweenבֵּין 1933 and 1945,
232
567000
3000
עובר שפל בין 1933 ו-1945,
09:45
before reboundingריבאונד afterwardאחר כך.
233
570000
3000
לפני עלייתו מחדש.
09:48
And of courseקוּרס, what we're seeingרְאִיָה
234
573000
2000
ובעצם, מה שרואים זו העובדה
09:50
is the factעוּבדָה Marcמארק Chagallשאגאל was a Jewishיהודי artistאמן
235
575000
3000
שמרק שאגאל היה אמן יהודי
09:53
in Naziנאצי Germanyגֶרמָנִיָה.
236
578000
2000
בגרמניה הנאצית.
09:55
Now these signalsאותות
237
580000
2000
הסימנים האלה
09:57
are actuallyלמעשה so strongחָזָק
238
582000
2000
הם כה חזקים
09:59
that we don't need to know that someoneמִישֶׁהוּ was censoredצנזורה.
239
584000
3000
שאין צורך לדעת שמישהו צונזר.
10:02
We can actuallyלמעשה figureדמות it out
240
587000
2000
ניתן פשוט להסיק זאת
10:04
usingמבנה יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוני really basicבסיסי signalאוֹת processingמעבד.
241
589000
2000
בעזרת עיבוד נתונים בסיסי.
10:06
Here'sהנה a simpleפָּשׁוּט way to do it.
242
591000
2000
הנה דרך פשוטה לעשות את זה.
10:08
Well, a reasonableסביר expectationתוֹחֶלֶת
243
593000
2000
סביר לצפות שמידת הפירסום
10:10
is that somebody'sשל מישהו fameפִּרסוּם in a givenנָתוּן periodפרק זמן of time
244
595000
2000
של פלוני בזמן נתון תהיה
10:12
should be roughlyבְּעֵרֶך the averageמְמוּצָע of theirשֶׁלָהֶם fameפִּרסוּם before
245
597000
2000
בקירוב הממוצע של פירסומו
10:14
and theirשֶׁלָהֶם fameפִּרסוּם after.
246
599000
2000
לפני אותו זמן ופירסומו אחריו.
10:16
So that's sortסוג of what we expectלְצַפּוֹת.
247
601000
2000
זה בערך מה שאנו מצפים
10:18
And we compareלְהַשְׁווֹת that to the fameפִּרסוּם that we observeלצפות.
248
603000
3000
ומשווים את התוצאה למידת הפירסום בפועל.
10:21
And we just divideלחלק one by the other
249
606000
2000
מחלקים את האחד בשני
10:23
to produceליצר something we call a suppressionהַדחָקָה indexאינדקס.
250
608000
2000
כדי לקבל מה שנקרא מדד דיכוי.
10:25
If the suppressionהַדחָקָה indexאינדקס is very, very, very smallקָטָן,
251
610000
3000
אם מדד הדיכוי מאוד, מאוד קטן,
10:28
then you very well mightאולי be beingלהיות suppressedמדוכא.
252
613000
2000
זה אומר שמישהו כנראה סובל מדיכוי.
10:30
If it's very largeגָדוֹל, maybe you're benefitingנהנה from propagandaתַעֲמוּלָה.
253
615000
3000
אם הוא מאוד גדול, אולי מישהו נהנה מתעמולה.
10:34
JMJM: Now you can actuallyלמעשה look at
254
619000
2000
ג'.מ.: ניתן בעצם להסתכל על
10:36
the distributionהפצה of suppressionהַדחָקָה indexes- אינדקסים over wholeכֹּל populationsאוכלוסיות.
255
621000
3000
פילוג מדדי הדיכוי על-פני האוכלוסייה כולה.
10:39
So for instanceלמשל, here --
256
624000
2000
לדוגמא, מדד דיכוי זה
10:41
this suppressionהַדחָקָה indexאינדקס is for 5,000 people
257
626000
2000
הוא של 5,000 אנשים
10:43
pickedהרים in Englishאנגלית booksספרים where there's no knownידוע suppressionהַדחָקָה --
258
628000
2000
הלקוח מספרים באנגליה שלא אמור להיות שם דיכוי --
10:45
it would be like this, basicallyבעיקרון tightlyבחוזקה centeredמְרוּכָּז on one.
259
630000
2000
הוא ייראה כך, בגדול מרוכז סביב 1.
10:47
What you expectלְצַפּוֹת is basicallyבעיקרון what you observeלצפות.
260
632000
2000
מה שמצפים לו זה בערך מה שרואים כאן.
10:49
This is distributionהפצה as seenלראות in Germanyגֶרמָנִיָה --
261
634000
2000
זה הפילוג שמתקבל בגרמניה --
10:51
very differentשונה, it's shiftedמוּזָז to the left.
262
636000
2000
מאוד שונה, הוא מוסט שמאלה.
10:53
People talkedדיבר about it twiceפעמיים lessפָּחוּת as it should have been.
263
638000
3000
אנשים שם דיברו כפליים פחות ממה שהיה ניתן לצפות.
10:56
But much more importantlyחשוב, the distributionהפצה is much widerרחב יותר.
264
641000
2000
אבל יותר חשוב, הפילוג הרבה יותר רחב.
10:58
There are manyרב people who endסוֹף up on the farרָחוֹק left on this distributionהפצה
265
643000
3000
יש הרבה אנשים הנמצאים בקצה השמאלי של פילוג זה
11:01
who are talkedדיבר about 10 timesפִּי fewerפחות than they should have been.
266
646000
3000
אשר דיברו פי-10 פחות ממה שהיו "צריכים".
11:04
But then alsoגַם manyרב people on the farרָחוֹק right
267
649000
2000
אבל יש גם הרבה אנשים בקצה הימני
11:06
who seemנראה to benefitתועלת from propagandaתַעֲמוּלָה.
268
651000
2000
שנראה שהם מרויחים מתעמולה.
11:08
This pictureתְמוּנָה is the hallmarkסימן ההיכר of censorshipצֶנזוּרָה in the bookסֵפֶר recordתקליט.
269
653000
3000
תמונה זו היא המאפיין המזהה, במסד נתוני הספרים, לצנזורה.
11:11
ELAELA: So culturomicsתרבויות
270
656000
2000
א.ל.א.: אנו מכנים שיטה זו
11:13
is what we call this methodשִׁיטָה.
271
658000
2000
culturomics (חקר תורשה תרבותית).
11:15
It's kindסוג of like genomicsגנומיקה.
272
660000
2000
זה דומה לחקר התורשה בביולוגיה.
11:17
Exceptמלבד genomicsגנומיקה is a lensעֲדָשָׁה on biologyביולוגיה
273
662000
2000
חקר התורשה שם עדשה על ביולוגיה
11:19
throughדרך the windowחַלוֹן of the sequenceסדר פעולות of basesבסיסים in the humanבן אנוש genomeגנום.
274
664000
3000
דרך החלון של סדרות של רצפי בסיס בחומר התורשתי האנושי.
11:22
Culturomicsתרבויות is similarדוֹמֶה.
275
667000
2000
חקר תורשה תרבותית זה משהו דומה.
11:24
It's the applicationיישום of massive-scaleבממדים גדולים מאוד dataנתונים collectionאוסף analysisאָנָלִיזָה
276
669000
3000
זה שימוש באנליזה של איסוף נתונים בקנה-מידה ענקי
11:27
to the studyלימוד of humanבן אנוש cultureתַרְבּוּת.
277
672000
2000
לחקר של תרבות אנושית.
11:29
Here, insteadבמקום זאת of throughדרך the lensעֲדָשָׁה of a genomeגנום,
278
674000
2000
כאן, במקום להביט דרך עדשת החומר התורשתי,
11:31
throughדרך the lensעֲדָשָׁה of digitizedדיגיטציה piecesחתיכות of the historicalהִיסטוֹרִי recordתקליט.
279
676000
3000
מביטים דרך עדשה של פיסות של רשומות היסטוריות שעברו דיגיטליזציה.
11:34
The great thing about culturomicsתרבויות
280
679000
2000
הדבר הגדול בחקר תורשה תרבותית
11:36
is that everyoneכל אחד can do it.
281
681000
2000
הוא שכל אחד יכול לעשות זאת.
11:38
Why can everyoneכל אחד do it?
282
683000
2000
מדוע כל אחד יכול לעשות זאת?
11:40
Everyoneכל אחד can do it because threeשְׁלוֹשָׁה guys,
283
685000
2000
זה מכיוון ששלושה אנשים,
11:42
Jonג'ון Orwantאור, Mattמאט Grayאפור and Will Brockmanברוקמן over at GoogleGoogle,
284
687000
3000
ג'ון אורוונט, מאט גריי וויל ברוקמן מגוגל,
11:45
saw the prototypeאב טיפוס of the NgramNGRG Viewerצוֹפֶה,
285
690000
2000
ראו את אב-הטיפוס של מצגת המשקל-n,
11:47
and they said, "This is so funכֵּיף.
286
692000
2000
ואמרו, "זה כזה כיף.
11:49
We have to make this availableזמין for people."
287
694000
3000
עלינו להפכה לזמינה לציבור."
11:52
So in two weeksשבועות flatשָׁטוּחַ -- the two weeksשבועות before our paperעיתון cameבא out --
288
697000
2000
תוך שבועיים -- שבועיים לפני שהמאמר שלנו התפרסם --
11:54
they codedמקודד up a versionגִרְסָה of the NgramNGRG Viewerצוֹפֶה for the generalכללי publicפּוּמְבֵּי.
289
699000
3000
הם כתבו תוכנית לגירסת מצגת משקל-n בשביל כלל הציבור.
11:57
And so you too can typeסוּג in any wordמִלָה or phraseמִשׁפָּט that you're interestedמעוניין in
290
702000
3000
ניתן להקליד כל מילה או ביטוי שחפצים בהם
12:00
and see its n-gramn גרם immediatelyמיד --
291
705000
2000
ולראות את משקל ה-n שלהם מייד --
12:02
alsoגַם browseלְדַפדֵף examplesדוגמאות of all the variousשׁוֹנִים booksספרים
292
707000
2000
וגם להציג דוגמאות של כל הספרים המגוונים
12:04
in whichאיזה your n-gramn גרם appearsמופיע.
293
709000
2000
שבהם מופיע המשקל-n שבחרת.
12:06
JMJM: Now this was used over a millionמִילִיוֹן timesפִּי on the first day,
294
711000
2000
ג'.מ.: נעשה בזה שימוש יותר ממיליון פעם ביום הראשון,
12:08
and this is really the bestהטוב ביותר of all the queriesשאילתות.
295
713000
2000
וזו באמת השאילתא הטובה ביותר מכולן.
12:10
So people want to be theirשֶׁלָהֶם bestהטוב ביותר, put theirשֶׁלָהֶם bestהטוב ביותר footכף רגל forwardקָדִימָה.
296
715000
3000
אנשים רוצים את הטוב ביותר, להניח את הרגל היותר טובה מלפנים.
12:13
But it turnsפונה out in the 18thה centuryמֵאָה, people didn't really careלְטַפֵּל about that at all.
297
718000
3000
אבל מתברר שבמאה ה-18, לאנשים לא היה ממש אכפת מכל זה.
12:16
They didn't want to be theirשֶׁלָהֶם bestהטוב ביותר, they wanted to be theirשֶׁלָהֶם beftביפט.
298
721000
3000
הם לא רצו את הטוב ביותר (best), אלא את הטוב ביותר (beft).
12:19
So what happenedקרה is, of courseקוּרס, this is just a mistakeטעות.
299
724000
3000
לכן מה שקרה הוא, טוב, ברור שזו טעות.
12:22
It's not that stroveנאבק for mediocrityבֵּינוֹנִיוּת,
300
727000
2000
זה לא שהם שאפו לבינוניות,
12:24
it's just that the S used to be writtenכתוב differentlyבאופן שונה, kindסוג of like an F.
301
729000
3000
אלא שהיו נוהגים לכתוב S בצורה שונה, בערך כמו F.
12:27
Now of courseקוּרס, GoogleGoogle didn't pickלִבחוֹר this up at the time,
302
732000
3000
גוגל לא תפסו זאת בזמנו,
12:30
so we reportedדיווח this in the scienceמַדָע articleמאמר that we wroteכתבתי.
303
735000
3000
לכן דיווחנו על כך במאמר המדעי שכתבנו.
12:33
But it turnsפונה out this is just a reminderתִזכּוֹרֶת
304
738000
2000
אבל מתברר שזה רק מזכיר לנו
12:35
that, althoughלמרות ש this is a lot of funכֵּיף,
305
740000
2000
שלמרות שכל זה כיף גדול,
12:37
when you interpretלפרש these graphsגרפים, you have to be very carefulזָהִיר,
306
742000
2000
כאשר מפרשים את הגרפים הללו, צריך מאוד להיזהר,
12:39
and you have to adoptלְאַמֵץ the baseבסיס standardsתקנים in the sciencesמדעים.
307
744000
3000
ושעלינו לאמץ סטנדרטים בסיסיים של מדע.
12:42
ELAELA: People have been usingמבנה יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוניפים יוני this for all kindsמיני of funכֵּיף purposesמטרות.
308
747000
3000
א.ל.א: אנשים נוהגים להשתמש בזה לכל מיני מטרות.
12:45
(Laughterצחוק)
309
750000
7000
(צחוק)
12:52
Actuallyבעצם, we're not going to have to talk,
310
757000
2000
בעצם, אין לנו יותר צורך לדבר,
12:54
we're just going to showלְהַצִיג you all the slidesשקופיות and remainלְהִשָׁאֵר silentשקט.
311
759000
3000
אנו רק נראה לכם את כל השקופיות ונישאר דוממים.
12:57
This personאדם was interestedמעוניין in the historyהִיסטוֹרִיָה of frustrationתסכול.
312
762000
3000
אדם זה התעניין בהיסטוריית התיסכול.
13:00
There's variousשׁוֹנִים typesסוגים of frustrationתסכול.
313
765000
3000
ישנם סוגי תיסכול שונים.
13:03
If you stubבָּדָל your toeאֶצבַּע, that's a one A "arghargh."
314
768000
3000
אם נפגעים בבוהן, יש אחד "ארג".
13:06
If the planetכוכב לכת Earthכדור הארץ is annihilatedמושמד by the Vogonsווגונים
315
771000
2000
אם כדור-הארץ מושמד על-ידי הווגונים
13:08
to make roomחֶדֶר for an interstellarבֵּין כּוֹכָבִי bypassלַעֲקוֹף,
316
773000
2000
כדי לפנות דרך למעבר בין-כוכבי,
13:10
that's an eightשמונה A "aaaaaaaarghaaaaaaa."
317
775000
2000
זה שמונה א "אאאאאאאארג".
13:12
This personאדם studiesלימודים all the "arghsarghs,"
318
777000
2000
אדם זה חוקר את כל ה"ארגים",
13:14
from one throughדרך eightשמונה A'sכפי ש.
319
779000
2000
מאחד עד שמונה א-ים.
13:16
And it turnsפונה out
320
781000
2000
מתברר
13:18
that the less-frequentבתדירות נמוכה יותר "arghsarghs"
321
783000
2000
שה"ארגים" הפחות נפוצים
13:20
are, of courseקוּרס, the onesיחידות that correspondלְהִתְכַּתֵב to things that are more frustratingמתסכל --
322
785000
3000
הם אלה אשר קשורים בדברים היותר מתסכלים --
13:23
exceptמלבד, oddlyבְּאֹפֶן מוּזַר, in the earlyמוקדם 80s.
323
788000
3000
מלבד, באופן משונה, בשנות ה-80 המוקדמות.
13:26
We think that mightאולי have something to do with Reaganרייגן.
324
791000
2000
אנו סבורים שזה עשוי להיות קשור איכשהו ברייגן.
13:28
(Laughterצחוק)
325
793000
2000
(צחוק)
13:30
JMJM: There are manyרב usagesשימושים of this dataנתונים,
326
795000
3000
ג'.מ.: ישנם הרבה שימושים לנתונים אלה,
13:33
but the bottomתַחתִית lineקַו is that the historicalהִיסטוֹרִי recordתקליט is beingלהיות digitizedדיגיטציה.
327
798000
3000
אבל השורה התחתונה היא שרשומות היסטוריות עוברות דיגיטליזציה.
13:36
GoogleGoogle has startedהתחיל to digitizeלְסַפְרֵת 15 millionמִילִיוֹן booksספרים.
328
801000
2000
גוגל החלה בדיגיטליזציה של 15 מיליון ספרים.
13:38
That's 12 percentאָחוּז of all the booksספרים that have ever been publishedיצא לאור.
329
803000
2000
זה 12 אחוז מכל הספרים שיצאו אי-פעם לאור.
13:40
It's a sizableגָדוֹל לְמַדַי chunkחתיכה of humanבן אנוש cultureתַרְבּוּת.
330
805000
3000
זוהי פיסה גדולה למדיי של התרבות האנושית.
13:43
There's much more in cultureתַרְבּוּת: there's manuscriptsכתבי יד, there newspapersעיתונים,
331
808000
3000
יש בנוסף עוד הרבה בתרבות: ישנם כתבי-יד, ישנם עיתונים,
13:46
there's things that are not textטֶקסט, like artאומנות and paintingsציורים.
332
811000
2000
ישנם דברים שאינם טקסטים, כמו אמנות וציורים.
13:48
These all happenלִקְרוֹת to be on our computersמחשבים,
333
813000
2000
כל זה אמור להיות במחשבים שלנו,
13:50
on computersמחשבים acrossלְרוֹחָב the worldעוֹלָם.
334
815000
2000
במחשבים בכל העולם.
13:52
And when that happensקורה, that will transformשינוי צורה the way we have
335
817000
3000
וכאשר זה יקרה, יחול שינוי באופן בו אנו מבינים את עברנו,
13:55
to understandמבין our pastעבר, our presentמתנה and humanבן אנוש cultureתַרְבּוּת.
336
820000
2000
את ההווה שלנו ואת התרבות האנושית.
13:57
Thank you very much.
337
822000
2000
תודה רבה לכם.
13:59
(Applauseתְשׁוּאוֹת)
338
824000
3000
(מחיאות כפיים)
Translated by Yubal Masalker
Reviewed by Sigal Tifferet

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com