ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

เราเรียนรู้อะไรบ้างจากหนังสือ 5 ล้านเล่ม

Filmed:
2,049,453 views

คุณได้ลองเล่น Ngram Viewer ที่พัฒนาโดย Google Lab บ้างแล้วหรือยัง? มันเป็นเครื่องมือที่ทำให้คุณค้นหาคำหรือความคิดต่างๆ จากฐานข้อมูลที่รวบรวมจากหนังสือกว่า 5 ล้านเล่มที่ได้ตีพิมพ์ในหลายร้อยปีที่ผ่านมา เอเรส ลีเบอร์แมน เอเด็น และฌ็อง แบพติสต์ มิเชลจะมาแสดงวิธีใช้และเกร็ดเล็กๆ ที่เราเรียนรู้ได้จาก 5 แสนล้านคำพูด
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezErez Liebermanลีเบอร์แมน AidenAiden: Everyoneทุกคน knowsรู้
0
0
2000
เอเรส ลีเบอร์แมน เอเด็น: ทุกท่านคงคุ้นๆ
00:17
that a pictureภาพ is worthคุ้มค่า a thousandพัน wordsคำ.
1
2000
3000
กับคำกล่าวที่ว่ารูปภาพสื่อคำพูดนับพันใช่ไหมครับ
00:22
But we at Harvardฮาร์วาร์
2
7000
2000
แต่สำหรับพวกเราที่ฮาร์วาร์ด
00:24
were wonderingสงสัย if this was really trueจริง.
3
9000
3000
กลับสงสัยว่ามันเป็นอย่างนั้นจริงรึเปล่า
00:27
(Laughterเสียงหัวเราะ)
4
12000
2000
(หัวเราะ)
00:29
So we assembledลอม a teamทีม of expertsผู้เชี่ยวชาญ,
5
14000
4000
พวกเราเลยรวมทีมกลุ่มผู้เชี่ยวชาญ
00:33
spanningซึ่งประกอบไปด้วย Harvardฮาร์วาร์, MITเอ็มไอที,
6
18000
2000
จากฮาร์วาร์ด เอ็มไอที
00:35
The Americanอเมริกัน Heritageมรดก Dictionaryพจนานุกรม, The Encyclopediaสารานุกรม Britannicaสารานุกรม
7
20000
3000
พจนานุกรมอเมริกันเฮอริเทจ สารานุกรมบริตานิกา
00:38
and even our proudภูมิใจ sponsorsผู้ให้การสนับสนุน,
8
23000
2000
รวมไปถึงผู้สนับสนุนที่พวกเราภูมิใจ
00:40
the GoogleGoogle.
9
25000
3000
กูเกิล
00:43
And we cogitatedcogitated about this
10
28000
2000
หลังจากที่ทีมเราพินิจพิเคราะห์
00:45
for about fourสี่ yearsปี.
11
30000
2000
มาประมาณ 4 ปี
00:47
And we cameมา to a startlingที่ทำให้ตกใจ conclusionข้อสรุป.
12
32000
5000
ทุกท่านครับ พวกเราได้ข้อสรุปมาว่า
00:52
Ladiesสุภาพสตรี and gentlemenสุภาพบุรุษ, a pictureภาพ is not worthคุ้มค่า a thousandพัน wordsคำ.
13
37000
3000
รูปภาพหนึ่งๆ ไม่ได้สื่อคำพูดออกมาแค่หลักพันหรอกครับ
00:55
In factความจริง, we foundพบ some picturesภาพ
14
40000
2000
เพราะพวกเราเจอบางรูป
00:57
that are worthคุ้มค่า 500 billionพันล้าน wordsคำ.
15
42000
5000
ที่สื่อคำพูดออกมาได้เป็น 5 แสนล้านคำเลยล่ะครับ
01:02
Jean-BaptisteJean-Baptiste Michelมิเชล: So how did we get to this conclusionข้อสรุป?
16
47000
2000
ฌ็อง แบพติสต์ มิเชล: เพื่อแสดงให้ทุกท่านเห็นถึงที่มาของข้อสรุปนี้
01:04
So ErezErez and I were thinkingคิด about waysวิธี
17
49000
2000
อีเรสกับผมเลยได้ลองหาวิธี
01:06
to get a bigใหญ่ pictureภาพ of humanเป็นมนุษย์ cultureวัฒนธรรม
18
51000
2000
ที่จะศึกษาภาพรวมของวัฒนธรรม
01:08
and humanเป็นมนุษย์ historyประวัติศาสตร์: changeเปลี่ยนแปลง over time.
19
53000
3000
และประวัติศาสตร์มนุษยชาติที่เปลี่ยนแปลงไปตามกาลเวลา
01:11
So manyจำนวนมาก booksหนังสือ actuallyแท้จริง have been writtenเขียน over the yearsปี.
20
56000
2000
มีหนังสือไม่น้อยที่เขียนเกี่ยวกับเรื่องนี้
01:13
So we were thinkingคิด, well the bestดีที่สุด way to learnเรียน from them
21
58000
2000
พวกเราเลยเชื่อว่า วิธีที่ดีที่สุดที่จะศึกษาจากหนังสือเป็นล้านเหล่านี้
01:15
is to readอ่าน all of these millionsล้าน of booksหนังสือ.
22
60000
2000
ก็คืออ่านมันทั้งหมด
01:17
Now of courseหลักสูตร, if there's a scaleขนาด for how awesomeน่ากลัว that is,
23
62000
3000
ซึ่งถ้าหากมีหน่วยวัดว่าเครื่องมือนี้เจ๋งแค่ไหน
01:20
that has to rankยศ extremelyอย่างมาก, extremelyอย่างมาก highสูง.
24
65000
3000
แน่นอนว่ามันคงจะต้องอยู่ในระดับที่เจ๋งมากแน่ๆ
01:23
Now the problemปัญหา is there's an X-axisแกน X for that,
25
68000
2000
ปัญหาอยู่ที่มันมีแกน x ถ่วงอยู่
01:25
whichที่ is the practicalประยุกต์ axisแกน.
26
70000
2000
ซึ่งเป็นแกนที่วัดการนำไปใช้จริง
01:27
This is very, very lowต่ำ.
27
72000
2000
จะเห็นได้ว่ามันอยู่ต่ำมากครับ
01:29
(Applauseการปรบมือ)
28
74000
3000
(ปรบมือ)
01:32
Now people tendมีแนวโน้ม to use an alternativeทางเลือก approachเข้าใกล้,
29
77000
3000
ผู้คนจึงมักจะใช้ตัวเลือกอื่น
01:35
whichที่ is to take a fewน้อย sourcesแหล่งที่มา and readอ่าน them very carefullyรอบคอบ.
30
80000
2000
เช่น คัดเฉพาะข้อมูลบางแหล่งและอ่านมันอย่างระมัดระวัง
01:37
This is extremelyอย่างมาก practicalประยุกต์, but not so awesomeน่ากลัว.
31
82000
2000
เป็นวิธีที่อยู่ในระดับนำไปใช้ได้จริงที่สูงมาก แต่ยังไม่เจ๋งพอ
01:39
What you really want to do
32
84000
3000
สิ่งที่คุณต้องการจริงๆคือ
01:42
is to get to the awesomeน่ากลัว yetยัง practicalประยุกต์ partส่วนหนึ่ง of this spaceช่องว่าง.
33
87000
3000
ทางเลือกที่่เจ๋งและนำไปใช้ได้จริง
01:45
So it turnsผลัดกัน out there was a companyบริษัท acrossข้าม the riverแม่น้ำ calledเรียกว่า GoogleGoogle
34
90000
3000
ซึ่งบังเอิญมากที่บริษัทตรงฝั่งแม่น้ำที่ชื่อ "กูเกิล"
01:48
who had startedเริ่มต้น a digitizationแปลง projectโครงการ a fewน้อย yearsปี back
35
93000
2000
ได้ริเริ่มโครงการทำหนังสือให้เป็นรูปแบบดิจิทัลเมื่อไม่กี่ปีมานี้
01:50
that mightอาจ just enableทำให้สามารถ this approachเข้าใกล้.
36
95000
2000
ถือเป็นการเปิดทางให้กับทางเลือกอย่างว่า
01:52
They have digitizedดิจิทัล millionsล้าน of booksหนังสือ.
37
97000
2000
พวกเขาทำหนังสือให้เป็นรูปแบบดิจิทัลหลายล้านเล่มแล้ว
01:54
So what that meansวิธี is, one could use computationalการคำนวณ methodsวิธีการ
38
99000
3000
หมายความว่า เราสามารถใช้วิธีอย่างเดียวกับที่ใช้กับคอมพิวเตอร์
01:57
to readอ่าน all of the booksหนังสือ in a clickคลิก of a buttonปุ่ม.
39
102000
2000
กดคลิ๊กที่ปลายนิ้วเพื่ออ่านหนังสือทั้งหมด
01:59
That's very practicalประยุกต์ and extremelyอย่างมาก awesomeน่ากลัว.
40
104000
3000
วิธีนี้จัดว่านำใช้ได้จริงและเจ๋งมากๆด้วย
02:03
ELAELA: Let me tell you a little bitบิต about where booksหนังสือ come from.
41
108000
2000
ELA: ทีนี้ขอผมเล่าหน่อยว่าหนังสือทั้งหลายมาจากไหน
02:05
Sinceตั้งแต่ time immemorialนมนาน, there have been authorsผู้เขียน.
42
110000
3000
กาลครั้งหนึ่งก่อนที่พวกเราจะจำความได้ ก็มีคนเป็นนักเขียนไม่น้อยเลยทีเดียว
02:08
These authorsผู้เขียน have been strivingที่มุ่งมั่น to writeเขียน booksหนังสือ.
43
113000
3000
พวกเขาใช้ความเพียรพยายามสูงมากกว่าจะเขียนหนังสือออกมาเป็นเล่มๆ
02:11
And this becameกลายเป็น considerablyอย่างมาก easierง่ายดาย
44
116000
2000
ทีนี้พอวิทยาการการพิมพ์เริ่มก้าวหน้า
02:13
with the developmentพัฒนาการ of the printingการพิมพ์ pressกด some centuriesมานานหลายศตวรรษ agoมาแล้ว.
45
118000
2000
ในไม่กี่ร้อยปีที่ผ่านมาก็ทำให้ขั้นตอนการทำหนังสือง่ายขึ้น
02:15
Sinceตั้งแต่ then, the authorsผู้เขียน have wonวอน
46
120000
3000
แต่นั้นมาก็ทำให้นักเขียนจากทั่วสารทิศ
02:18
on 129 millionล้าน distinctแตกต่าง occasionsโอกาส,
47
123000
2000
สามารถเขียนหนังสือและตีพิมพ์
02:20
publishingการประกาศ booksหนังสือ.
48
125000
2000
ในแต่ละสถานที่ทั่วทุกมุมโลกได้
02:22
Now if those booksหนังสือ are not lostสูญหาย to historyประวัติศาสตร์,
49
127000
2000
จนถึงวันนี้ หากหนังสือพวกนั้นยังไม่หายไปจากประวัติศาสตร์
02:24
then they are somewhereที่ไหนสักแห่ง in a libraryห้องสมุด,
50
129000
2000
มันจะยังคงวางอยู่ในห้องสมุดแห่งใดแแห่งหนึ่ง
02:26
and manyจำนวนมาก of those booksหนังสือ have been gettingได้รับ retrievedดึง from the librariesห้องสมุด
51
131000
3000
ซึ่งกูเกิลได้ดำเนินการยืมหนังสือเหล่านั้นมาจากห้องสมุด
02:29
and digitizedดิจิทัล by GoogleGoogle,
52
134000
2000
เพื่อมาสแกนให้อยู่ในรูปแบบดิจิทัล
02:31
whichที่ has scannedสแกน 15 millionล้าน booksหนังสือ to dateวันที่.
53
136000
2000
ซึ่งจนถึงวันนี้เสร็จไปกว่า 15 ล้านเล่มแล้ว
02:33
Now when GoogleGoogle digitizesdigitizes a bookหนังสือ, they put it into a really niceดี formatรูป.
54
138000
3000
โดยทีมงานได้จัดทำหนังสือให้อยู่ในรูปแบบที่ดีมาก
02:36
Now we'veเราได้ got the dataข้อมูล, plusบวก we have metadataเมตาดาต้า.
55
141000
2000
ทำให้พวกเรามีข้อมูล รายละเอียดต่างๆ
02:38
We have informationข้อมูล about things like where was it publishedการตีพิมพ์,
56
143000
3000
เช่น ข้อมูลจำพวกสถานที่หรือวันเวลาที่ตีพิมพ์
02:41
who was the authorผู้เขียน, when was it publishedการตีพิมพ์.
57
146000
2000
ข้อมูลผู้แต่ง
02:43
And what we do is go throughตลอด all of those recordsบันทึก
58
148000
3000
จากนั้นก็ตรวจสอบมันอย่างละเอียด
02:46
and excludeไม่รวม everything that's not the highestสูงสุด qualityคุณภาพ dataข้อมูล.
59
151000
4000
ทำให้มันสมบูรณ์ที่สุด
02:50
What we're left with
60
155000
2000
และพวกเราก็ได้ผลงาน
02:52
is a collectionชุด of fiveห้า millionล้าน booksหนังสือ,
61
157000
3000
หนังสือห้าล้านกว่่าเล่ม
02:55
500 billionพันล้าน wordsคำ,
62
160000
3000
หรือคำห้าแสนกว่าล้านคำ
02:58
a stringเชือก of charactersตัวละคร a thousandพัน timesครั้ง longerอีกต่อไป
63
163000
2000
ตัวอักษรที่เรียงกันเหล่านี้
03:00
than the humanเป็นมนุษย์ genomeจีโนม --
64
165000
3000
ยาวกว่าจีโนมของมนุษย์เราเป็นพันๆเท่า
03:03
a textข้อความ whichที่, when writtenเขียน out,
65
168000
2000
ตัวหนังสือเหล่านี้เมื่อเรียงกันแล้ว
03:05
would stretchยืด from here to the Moonดวงจันทร์ and back
66
170000
2000
อาจยาวถึงระยะทางไปกลับจากโลกถึงดวงจันทร์
03:07
10 timesครั้ง over --
67
172000
2000
ประมาณ 10 รอบได้
03:09
a veritableจริง shardสะเก็ด of our culturalด้านวัฒนธรรม genomeจีโนม.
68
174000
4000
นี่คือเสี้ยวหนึ่งของวัฒนธรรมมนุษย์เรา
03:13
Of courseหลักสูตร what we did
69
178000
2000
แน่นอนว่าขณะที่พวกเราเจอ
03:15
when facedต้องเผชิญกับ with suchอย่างเช่น outrageousอุกอาจ hyperboleอติพจน์ ...
70
180000
3000
สถานการณ์ที่ดูเกินจริงขนาดนี้
03:18
(Laughterเสียงหัวเราะ)
71
183000
2000
(หัวเราะ)
03:20
was what any self-respectingเคารพตัวเอง researchersนักวิจัย
72
185000
3000
เป็นสิ่งที่นักวิจัยที่มีความนับถือในตัวเอง
03:23
would have doneเสร็จแล้ว.
73
188000
3000
เลือกที่จะทำ
03:26
We tookเอา a pageหน้า out of XKCDXKCD,
74
191000
2000
พวกเราเหมือนการ์ตูนล้อเลียน
03:28
and we said, "Standยืน back.
75
193000
2000
และพูดว่า "ถอยไป
03:30
We're going to try scienceวิทยาศาสตร์."
76
195000
2000
พวกเราจะใช้วิทยาศาสตร์มาพิสูจน์"
03:32
(Laughterเสียงหัวเราะ)
77
197000
2000
(หัวเราะ)
03:34
JMJM: Now of courseหลักสูตร, we were thinkingคิด,
78
199000
2000
JM: ต่อมา พวกเราคิดกันว่า
03:36
well let's just first put the dataข้อมูล out there
79
201000
2000
เอาล่ะ พวกเราแยกเรื่องข้อมูล
03:38
for people to do scienceวิทยาศาสตร์ to it.
80
203000
2000
ให้กับทีมทดลองทางวิทยาศาสตร์ดูแลไปก่อน
03:40
Now we're thinkingคิด, what dataข้อมูล can we releaseปล่อย?
81
205000
2000
และพวกเราก็วางแผนว่า ข้อมูลจำพวกไหนที่เราควรจะนำออกสู่สาธารณะ?
03:42
Well of courseหลักสูตร, you want to take the booksหนังสือ
82
207000
2000
แน่นอนว่า เราอยากจะทำให้ทุกๆคนเข้าถึง
03:44
and releaseปล่อย the fullเต็ม textข้อความ of these fiveห้า millionล้าน booksหนังสือ.
83
209000
2000
เนื้อหาในหนังสือทั้งหมด
03:46
Now GoogleGoogle, and Jonจอน OrwantOrwant in particularโดยเฉพาะ,
84
211000
2000
แต่กูเกิล โดยเฉพาะจอน ออร์วอนท์
03:48
told us a little equationสมการ that we should learnเรียน.
85
213000
2000
ทำให้พวกเราเรียนรู้ว่า
03:50
So you have fiveห้า millionล้าน, that is, fiveห้า millionล้าน authorsผู้เขียน
86
215000
3000
ในหนังสือห้าล้านเล่ม หมายถึง นักเขียนห้าล้านคน
03:53
and fiveห้า millionล้าน plaintiffsโจทก์ is a massiveมาก lawsuitคดีความ.
87
218000
3000
หรือก็คือโจทก์ที่สามารถฟ้องเราได้ห้าล้านคนเช่นกัน
03:56
So, althoughแม้ว่า that would be really, really awesomeน่ากลัว,
88
221000
2000
ดังนั้นถึงแม้ว่าสิ่งนี้จะเจ๋งมากถึงมากที่สุด
03:58
again, that's extremelyอย่างมาก, extremelyอย่างมาก impracticalทำไม่ได้.
89
223000
3000
แต่มันก็ไม่น่าใช้มากถึงมากที่สุดอยู่ดี
04:01
(Laughterเสียงหัวเราะ)
90
226000
2000
(หัวเราะ)
04:03
Now again, we kindชนิด of cavedยุบ in,
91
228000
2000
ด้วยเหตุนี้ พวกเราเลยกลับมาคิดทบทวน
04:05
and we did the very practicalประยุกต์ approachเข้าใกล้, whichที่ was a bitบิต lessน้อยกว่า awesomeน่ากลัว.
92
230000
3000
แล้วริเริ่มโครงการที่เน้นเรื่องการใช้งาน แต่ลดความเจ๋งลงไปหน่อย
04:08
We said, well insteadแทน of releasingการปล่อย the fullเต็ม textข้อความ,
93
233000
2000
พวกเราคิดว่า แทนที่จะปล่อยตัวหนังสือทั้งหมดออกไป
04:10
we're going to releaseปล่อย statisticsสถิติ about the booksหนังสือ.
94
235000
2000
ก็ปล่อยเฉพาะสถิติของเนื้อหาที่อยู่หนังสือเหล่านั้น
04:12
So take for instanceตัวอย่าง "A gleamเปล่งประกาย of happinessความสุข."
95
237000
2000
ตัวอย่างเช่น "ความ สุข แวว วับ"
04:14
It's fourสี่ wordsคำ; we call that a four-gramสี่กรัม.
96
239000
2000
4 คำนี้ พวกเราขอเรียกมันว่า "4 gram" นะครับ
04:16
We're going to tell you how manyจำนวนมาก timesครั้ง a particularโดยเฉพาะ four-gramสี่กรัม
97
241000
2000
พวกเราสามารถบอกคุณได้ว่า คำ 4 gram นี้ปรากฏในหนังสือที่ตีพิมพ์
04:18
appearedปรากฏ in booksหนังสือ in 1801, 1802, 1803,
98
243000
2000
ระหว่างปี ค.ศ. 1801, 1802, 1802 จนถึงปีค.ศ 2008
04:20
all the way up to 2008.
99
245000
2000
ทั้งหมดกี่ครั้ง
04:22
That givesจะช่วยให้ us a time seriesชุด
100
247000
2000
พวกเราสามารถทำความเข้าใจคำๆนั้น
04:24
of how frequentlyบ่อยๆ this particularโดยเฉพาะ sentenceประโยค was used over time.
101
249000
2000
จากความถี่ที่ถูกหยิบยกมาใช้ตั้งแต่อดีตจนถึงปัจจุบัน
04:26
We do that for all the wordsคำ and phrasesวลี that appearปรากฏ in those booksหนังสือ,
102
251000
3000
พวกเราทำแบบนี้กับคำและวลีทุกๆคำที่ปรากฏอยู่ในหนังสือ
04:29
and that givesจะช่วยให้ us a bigใหญ่ tableตาราง of two billionพันล้าน linesเส้น
103
254000
3000
ซึ่งทำให้เราได้ตารางที่ยาวประมาณสองพันล้านบรรทัด
04:32
that tell us about the way cultureวัฒนธรรม has been changingเปลี่ยนแปลง.
104
257000
2000
สิ่งเหล่านี้แสดงถึงความเปลี่ยนแปลงทางวัฒนธรรมของมนุษย์
04:34
ELAELA: So those two billionพันล้าน linesเส้น,
105
259000
2000
ELA: สำหรับสองพันล้านบรรทัดเหล่านั้น
04:36
we call them two billionพันล้าน n-gramsn-กรัม.
106
261000
2000
เราขอเรียกมันว่าสองพันล้าน n-gram นะครับ
04:38
What do they tell us?
107
263000
2000
มันบอกอะไรเราบ้าง?
04:40
Well the individualรายบุคคล n-gramsn-กรัม measureวัด culturalด้านวัฒนธรรม trendsแนวโน้ม.
108
265000
2000
เอาล่ะ n-gram ของวลีหนึ่งๆสามารถวัดกระแสทางวัฒนธรรมได้
04:42
Let me give you an exampleตัวอย่าง.
109
267000
2000
ขอผมลองยกตัวอย่างให้เห็นภาพนะครับ
04:44
Let's supposeสมมติ that I am thrivingการเจริญรุ่งเรือง,
110
269000
2000
สมมติว่าผมกำลังประสบความสำเร็จ
04:46
then tomorrowวันพรุ่งนี้ I want to tell you about how well I did.
111
271000
2000
ในวันต่อมาผมอยากเล่าให้่คุณฟังว่าผมทำได้ดีแค่ไหน
04:48
And so I mightอาจ say, "Yesterdayเมื่อวาน, I throvethrove."
112
273000
3000
ผมจะต้องพูดว่า "Yesterday, I throve"
04:51
Alternativelyอีกทางเลือกหนึ่ง, I could say, "Yesterdayเมื่อวาน, I thrivedเติบโต."
113
276000
3000
หรือพูดว่า "Yesterday, I thrived"
04:54
Well whichที่ one should I use?
114
279000
3000
ทีนี้ผมควรจะใช้คำไหนดีล่ะ?
04:57
How to know?
115
282000
2000
จะรู้ได้อย่างไร?
04:59
As of about sixหก monthsเดือน agoมาแล้ว,
116
284000
2000
ถ้าเป็นเมื่อหกเดือนที่แล้ว
05:01
the stateสถานะ of the artศิลปะ in this fieldสนาม
117
286000
2000
หากต้องการทราบข้อมูลเชิงลึกทางด้านนี้
05:03
is that you would, for instanceตัวอย่าง,
118
288000
2000
คุณอาจจะต้องสอบถามผู้เชี่ยวชาญ
05:05
go up to the followingดังต่อไปนี้ psychologistนักจิตวิทยา with fabulousเหลือเชื่อ hairผม,
119
290000
2000
ซึ่งก็คือ นักจิตวิทยาที่ทรงผมสวยงามท่านนี้นี่เอง
05:07
and you'dคุณควรที่จะ say,
120
292000
2000
คุณอาจถามว่า
05:09
"Steveสตีฟ, you're an expertผู้เชี่ยวชาญ on the irregularผิดปกติ verbsคำกริยา.
121
294000
3000
"คุณสตีฟครับ คุณเป็นผู้เชี่ยวชาญทางด้านกริยา 3 ช่อง
05:12
What should I do?"
122
297000
2000
บอกผมหน่อยว่าควรใช้คำไหน?"
05:14
And he'dเขาต้องการ tell you, "Well mostมากที่สุด people say thrivedเติบโต,
123
299000
2000
และเขาอาจจะบอกคุณว่า "อืม คนส่วนใหญ่ใช้ thrived"
05:16
but some people say throvethrove."
124
301000
3000
แต่บางคนก็ใช้ throve"
05:19
And you alsoด้วย knewรู้ว่า, more or lessน้อยกว่า,
125
304000
2000
และคุณก็อาจรู้อยู่แล้วว่า
05:21
that if you were to go back in time 200 yearsปี
126
306000
3000
หากคุณย้อนกลับไปเมื่อ 200 ปีที่แล้ว
05:24
and askถาม the followingดังต่อไปนี้ statesmanรัฐบุรุษ with equallyพอ ๆ กัน fabulousเหลือเชื่อ hairผม,
127
309000
3000
และถามรัฐบุรุษอีกท่านที่ทรงผมสวยไม่แพ้กัน
05:27
(Laughterเสียงหัวเราะ)
128
312000
3000
(หัวเราะ)
05:30
"Tomทอม, what should I say?"
129
315000
2000
"คุณทอมครับ ผมควรใช้คำไหนดี?"
05:32
He'dเขาต้องการ say, "Well, in my day, mostมากที่สุด people throvethrove,
130
317000
2000
เขาอาจจะบอกว่า "อืม ในยุคที่ผมอยู่ ส่วนใหญ่ใช้ throve
05:34
but some thrivedเติบโต."
131
319000
3000
บางคนใช้ thrived"
05:37
So now what I'm just going to showแสดง you is rawดิบ dataข้อมูล.
132
322000
2000
ทีนี้สิ่งที่ผมจะนำเสนอให้ทุกท่านเห็นก็คือข้อมูลดิบ
05:39
Two rowsแถว from this tableตาราง of two billionพันล้าน entriesรายการ.
133
324000
4000
กราฟสองเส้นที่เป็นสถิติจากตารางสองพันล้านบรรทัด
05:43
What you're seeingเห็น is yearปี by yearปี frequencyความถี่
134
328000
2000
สิ่งที่คุณเห็นก็คือความถี่ของการใช้คำว่า
05:45
of "thrivedเติบโต" and "throvethrove" over time.
135
330000
3000
"thrived" และ "throve" ที่ผ่านมาปีต่อปี
05:49
Now this is just two
136
334000
2000
ซึ่งนี่เป็นเพียงสอง
05:51
out of two billionพันล้าน rowsแถว.
137
336000
3000
ในสองพันล้านบรรทัด
05:54
So the entireทั้งหมด dataข้อมูล setชุด
138
339000
2000
หมายความว่าข้อมูลทั้งหมด
05:56
is a billionพันล้าน timesครั้ง more awesomeน่ากลัว than this slideสไลด์.
139
341000
3000
ก็จะเจ๋งกว่าในสไลด์นี้อีกเป็นพันล้่านเท่า
05:59
(Laughterเสียงหัวเราะ)
140
344000
2000
(หัวเราะ)
06:01
(Applauseการปรบมือ)
141
346000
4000
(ปรบมือ)
06:05
JMJM: Now there are manyจำนวนมาก other picturesภาพ that are worthคุ้มค่า 500 billionพันล้าน wordsคำ.
142
350000
2000
JM: ตอนนี้ก็จะมีรูปภาพหลายรูปที่สื่อคำกว่าห้าแสนล้านคำ
06:07
For instanceตัวอย่าง, this one.
143
352000
2000
เช่น คำนี้
06:09
If you just take influenzaไข้หวัดใหญ่,
144
354000
2000
หากคุณพูดถึงไข้หวัดใหญ่
06:11
you will see peaksยอดเขา at the time where you knewรู้ว่า
145
356000
2000
จากจุดสูงสุดในรูปนี้คุณจะสรุปได้ว่า
06:13
bigใหญ่ fluไข้หวัดใหญ่ epidemicsโรคระบาด were killingที่ฆ่า people around the globeโลก.
146
358000
3000
การระบาดได้คร่าชีวิตผู้คนทั่วทุกมุมโลก
06:16
ELAELA: If you were not yetยัง convincedมั่นใจ,
147
361000
3000
ELA: เผื่อคุณยังไม่เชื่อนะครับ
06:19
seaทะเล levelsระดับ are risingที่เพิ่มสูงขึ้น,
148
364000
2000
ระดับน้ำทะเลกำลังสูงขึ้น
06:21
so is atmosphericบรรยากาศ COCO2 and globalทั่วโลก temperatureอุณหภูมิ.
149
366000
3000
เช่นเดียวกับก๊่าซคาร์บอนไดออกไซต์และอุณหภูมิของโลก
06:24
JMJM: You mightอาจ alsoด้วย want to have a look at this particularโดยเฉพาะ n-gramn กรัม,
150
369000
3000
JM: คุณอาจอยากดู n-gram นี้ประกอบ
06:27
and that's to tell Nietzscheนิท that God is not deadตาย,
151
372000
3000
เพื่อบอก "นิตเช่" ว่าพระเจ้ายังไม่ตาย
06:30
althoughแม้ว่า you mightอาจ agreeตกลง that he mightอาจ need a better publicistนักเขียนหนังสือพิมพ์.
152
375000
3000
ถึงแม้คุณจะคิดว่าเขาควรมีนักประชาสัมพันธ์ที่ดีกว่านี้
06:33
(Laughterเสียงหัวเราะ)
153
378000
2000
(หัวเราะ)
06:35
ELAELA: You can get at some prettyน่ารัก abstractนามธรรม conceptsแนวคิด with this sortประเภท of thing.
154
380000
3000
ELA: ทุกท่านสามารถได้แนวคิดสรุปได้จากข้อมูลเหล่านี้
06:38
For instanceตัวอย่าง, let me tell you the historyประวัติศาสตร์
155
383000
2000
เช่น ขอผมเล่าประวัติศาสตร์
06:40
of the yearปี 1950.
156
385000
2000
ของปี ค.ศ. 1950 ก่อน
06:42
Prettyน่ารัก much for the vastกว้างใหญ่ majorityส่วนใหญ่ of historyประวัติศาสตร์,
157
387000
2000
ปีนี้เป็นปีประวัติศาสตร์ที่คนพูดถึงมากที่สุด
06:44
no one gaveให้ a damnประณาม about 1950.
158
389000
2000
ทั้งที่ก่อนหน้านั้นไม่มีใครพูดถึงปี ค.ศ.1950 นี้เลย
06:46
In 1700, in 1800, in 1900,
159
391000
2000
ตั้งแต่ปี 1700, 1800, 1900
06:48
no one caredได้รับการดูแล.
160
393000
3000
ไม่มีเลย
06:52
Throughตลอด the 30s and 40s,
161
397000
2000
ย้อนไปยังปี 1930-1940
06:54
no one caredได้รับการดูแล.
162
399000
2000
ก็ยังไม่เป็นที่กล่าวถึงเช่นกัน
06:56
Suddenlyทันใดนั้น, in the mid-กลาง40s,
163
401000
2000
จนกระทั่งในช่วงกลางศตวรรษ 1940
06:58
there startedเริ่มต้น to be a buzzฉวัดเฉวียน.
164
403000
2000
ทุกคนเริ่มเอ่ยถึงปีนี้
07:00
People realizedตระหนัก that 1950 was going to happenเกิดขึ้น,
165
405000
2000
ผู้คนเริ่มตระหนักว่าปี 1950 กำลังจะมา
07:02
and it could be bigใหญ่.
166
407000
2000
และมันจะยิ่งใหญ่มาก
07:04
(Laughterเสียงหัวเราะ)
167
409000
3000
(หัวเราะ)
07:07
But nothing got people interestedสนใจ in 1950
168
412000
3000
แต่ไม่มีอะไรทำให้ผู้คนสนใจปี 1950
07:10
like the yearปี 1950.
169
415000
3000
เหมือนปี 1950
07:13
(Laughterเสียงหัวเราะ)
170
418000
3000
(หัวเราะ)
07:16
People were walkingที่เดิน around obsessedหมกมุ่น.
171
421000
2000
ตั้งแต่นั้นมาผู้คนเริ่มหมกหมุ่น
07:18
They couldn'tไม่สามารถ stop talkingการพูด
172
423000
2000
พวกเขาไม่หยุดเอ่ยถึง
07:20
about all the things they did in 1950,
173
425000
3000
สิ่งที่เกิดขึ้นทั้งหมดในปี 1950
07:23
all the things they were planningการวางแผน to do in 1950,
174
428000
3000
แผนทั้งหมดที่พวกเขาจะทำในปี 1950
07:26
all the dreamsความฝัน of what they wanted to accomplishทำให้สำเร็จ in 1950.
175
431000
5000
ความฝันทั้งหมดที่พวกเขาอยากทำให้สำเร็จในปี 1950
07:31
In factความจริง, 1950 was so fascinatingมโนหร
176
436000
2000
จริงๆแล้ว ปี 1950 น่าสนใจมาก
07:33
that for yearsปี thereafterหลังจากนั้น,
177
438000
2000
หลังจากปีนั้น
07:35
people just keptเก็บไว้ talkingการพูด about all the amazingน่าอัศจรรย์ things that happenedที่เกิดขึ้น,
178
440000
3000
ผู้คนก็พูดถึงแต่สิ่งอัศจรรย์ที่เกิดขึ้น
07:38
in '51, '52, '53.
179
443000
2000
ในปี 51 52 53
07:40
Finallyในที่สุด in 1954,
180
445000
2000
และสุดท้ายปี 1954
07:42
someoneบางคน wokeตื่น up and realizedตระหนัก
181
447000
2000
อยู่ๆก็มีใครซักคนตื่นขึ้นมาและตระหนักว่า
07:44
that 1950 had gottenอากาศ somewhatค่อนข้าง passผ่านไปé.
182
449000
4000
เหตุการณ์ 1950 ได้ผ่านพ้นไปแล้ว
07:48
(Laughterเสียงหัวเราะ)
183
453000
2000
(หัวเราะ)
07:50
And just like that, the bubbleฟอง burstระเบิด.
184
455000
2000
และฟองสบู่่ก็แตก ณ ปีนั้นเอง
07:52
(Laughterเสียงหัวเราะ)
185
457000
2000
(หัวเราะ)
07:54
And the storyเรื่องราว of 1950
186
459000
2000
และเรื่องราวของปี 1950
07:56
is the storyเรื่องราว of everyทุกๆ yearปี that we have on recordบันทึก,
187
461000
2000
ก็เป็นเรื่องราวที่ได้รับการบันทึกเพิ่มเข้าไปทุกๆปี
07:58
with a little twistบิด, because now we'veเราได้ got these niceดี chartsชาร์ต.
188
463000
3000
แม้จะมีหักมุมเล็กน้อย แต่ตารางก็ดูดีทีเดียว
08:01
And because we have these niceดี chartsชาร์ต, we can measureวัด things.
189
466000
3000
และเพราะพวกเรามีกราฟที่สวยแบบนี้ เราถึงสามารถคำนวนเรื่องราวได้
08:04
We can say, "Well how fastรวดเร็ว does the bubbleฟอง burstระเบิด?"
190
469000
2000
เราบอกได้ว่า "ฟองสบู่แตกเร็วแค่ไหน?"
08:06
And it turnsผลัดกัน out that we can measureวัด that very preciselyแม่นยำ.
191
471000
3000
กลายเป็นว่าพวกเราสามารถวัดมันได้อย่างแม่นยำ
08:09
Equationsสมการ were derivedที่ได้มา, graphsกราฟ were producedผลิต,
192
474000
3000
แก้ปัญหาได้ตรงจุด สร้างกราฟขึ้นมา
08:12
and the netสุทธิ resultผล
193
477000
2000
และผลลัพธ์ก็คือ
08:14
is that we find that the bubbleฟอง burstsระเบิด fasterได้เร็วขึ้น and fasterได้เร็วขึ้น
194
479000
3000
พวกเราเรียนรู้ว่ายิ่งนานวันฟองสบู่
08:17
with eachแต่ละ passingที่ผ่านไป yearปี.
195
482000
2000
ก็ยิ่งแตกเร็วขึ้น
08:19
We are losingแพ้ interestดอกเบี้ย in the pastอดีต more rapidlyอย่างรวดเร็ว.
196
484000
5000
พวกเราหยุดสนใจในประเด็นต่างๆเร็วกว่าเมื่อก่อน
08:24
JMJM: Now a little pieceชิ้น of careerอาชีพ adviceคำแนะนำ.
197
489000
2000
JM: ต่อมา ผมขอแนะนำเรื่องการงานซักหน่อย
08:26
So for those of you who seekแสวงหา to be famousมีชื่อเสียง,
198
491000
2000
สำหรับคนที่อยากมีชื่อเสียงนะครับ
08:28
we can learnเรียน from the 25 mostมากที่สุด famousมีชื่อเสียง politicalในทางการเมือง figuresตัวเลข,
199
493000
2000
ผมได้แนวคิดนี้มาจากข้อมูลของนักการเมือง นักเขียน นักแสดงและอาชีพอื่นๆ
08:30
authorsผู้เขียน, actorsนักแสดง and so on.
200
495000
2000
ที่มีชื่อเสียงทั้ง 25 ท่านนี้นะครับ
08:32
So if you want to becomeกลายเป็น famousมีชื่อเสียง earlyตอนต้น on, you should be an actorนักแสดงชาย,
201
497000
3000
หากคุณอยากดังตอนอายุน้อย คุณควรจะเป็นนักแสดง
08:35
because then fameชื่อเสียง startsเริ่มต้น risingที่เพิ่มสูงขึ้น by the endปลาย of your 20s --
202
500000
2000
เพราะความดังจะเพิ่มขึ้นช่วงปลายอายุ 20
08:37
you're still youngหนุ่มสาว, it's really great.
203
502000
2000
เพราะคุณยังหนุ่มยังสาวอยู่
08:39
Now if you can wait a little bitบิต, you should be an authorผู้เขียน,
204
504000
2000
หากคุณรออีกหน่อย คุณก็ยังเป็นนักเขียนได้
08:41
because then you riseลุกขึ้น to very great heightsความสูง,
205
506000
2000
เพราะคุณสามารถไต่เต้าไปได้อีกเยอะ
08:43
like Markเครื่องหมาย Twainทั้งสอง, for instanceตัวอย่าง: extremelyอย่างมาก famousมีชื่อเสียง.
206
508000
2000
อย่างคุณ มาร์ค ทเวน ดังมากเลยครับ
08:45
But if you want to reachมาถึง the very topด้านบน,
207
510000
2000
แต่่หากคุณอยากไต่เต้าไปถึงจุดสูงสุด
08:47
you should delayความล่าช้า gratificationอิฏฐารมณ์
208
512000
2000
คุณควรจะยืดเวลานานอีกซักช่วงหนึ่ง
08:49
and, of courseหลักสูตร, becomeกลายเป็น a politicianนักการเมือง.
209
514000
2000
เพื่อก้าวไปเป็นนักการเมือง
08:51
So here you will becomeกลายเป็น famousมีชื่อเสียง by the endปลาย of your 50s,
210
516000
2000
ฉะนั้น คุณก็จะมีชื่อเสียงมากในช่วงปลายอายุ 50
08:53
and becomeกลายเป็น very, very famousมีชื่อเสียง afterwardภายหลัง.
211
518000
2000
และจะโด่งดังมากหลังจากนั้น
08:55
So scientistsนักวิทยาศาสตร์ alsoด้วย tendมีแนวโน้ม to get famousมีชื่อเสียง when they're much olderเก่ากว่า.
212
520000
3000
เช่นเดียวกับนักวิทยาศาสตร์ที่มีแนวโน้มจะมีชื่อเสียงตอนอายุมากแล้ว
08:58
Like for instanceตัวอย่าง, biologistsนักชีววิทยา and physicsฟิสิกส์
213
523000
2000
ส่วนนักชีววิทยา นักฟิสิกส์
09:00
tendมีแนวโน้ม to be almostเกือบจะ as famousมีชื่อเสียง as actorsนักแสดง.
214
525000
2000
แนวโน้มที่จะโด่งดังเทียบเท่ากับนักแสดง
09:02
One mistakeผิดพลาด you should not do is becomeกลายเป็น a mathematicianนักคณิตศาสตร์.
215
527000
3000
หนึ่งในอาชีพที่ไม่ควรทำก็คือ นักคณิตศาสตร์
09:05
(Laughterเสียงหัวเราะ)
216
530000
2000
(หัวเราะ)
09:07
If you do that,
217
532000
2000
คุณอาจจะมุ่งมั่น
09:09
you mightอาจ think, "Oh great. I'm going to do my bestดีที่สุด work when I'm in my 20s."
218
534000
3000
และคิดในใจว่า "ฉันจะทำให้ดีที่สุดตอนอายุ 20 ต้นๆ"
09:12
But guessเดา what, nobodyไม่มีใคร will really careการดูแล.
219
537000
2000
แต่เชื่อเถอะ ไม่มีใครสนใจหรอก
09:14
(Laughterเสียงหัวเราะ)
220
539000
3000
(หัวเราะ)
09:17
ELAELA: There are more soberingที่ทำให้หรือกลายเป็นไม่เมา notesบันทึก
221
542000
2000
ELA: ในข้อมูลของเรา
09:19
amongในหมู่ the n-gramsn-กรัม.
222
544000
2000
ยังมี n-gram ที่น่าสนใจกว่านั้น
09:21
For instanceตัวอย่าง, here'sนี่คือ the trajectoryเส้นโคจร of Marcมาร์ค ChagallChagall,
223
546000
2000
เช่น กรณีของ มาร์ค ชาร์กาล
09:23
an artistศิลปิน bornโดยกำเนิด in 1887.
224
548000
2000
นักศิลปะที่เกิดในปี 1887
09:25
And this looksรูปลักษณ์ like the normalปกติ trajectoryเส้นโคจร of a famousมีชื่อเสียง personคน.
225
550000
3000
ดูเผินๆเขาก็เหมือนกับคนดังทั่วๆไป
09:28
He getsได้รับ more and more and more famousมีชื่อเสียง,
226
553000
4000
เขาโด่งดังขึ้นมาเรื่อยๆเลยครับ
09:32
exceptยกเว้น if you look in Germanเยอรมัน.
227
557000
2000
ยกเว้นในเยอรมัน
09:34
If you look in Germanเยอรมัน, you see something completelyอย่างสมบูรณ์ bizarreแปลกประหลาด,
228
559000
2000
หากคุณดูข้อมูลในเยอรมัน คุณจะสังเกตเห็นอะไรบางอย่าง
09:36
something you prettyน่ารัก much never see,
229
561000
2000
บางอย่างที่คุณไม่เคยเห็น
09:38
whichที่ is he becomesกลายเป็น extremelyอย่างมาก famousมีชื่อเสียง
230
563000
2000
นั่นคือ เขาโด่งดัังมาก
09:40
and then all of a suddenฉับพลัน plummetsplummets,
231
565000
2000
แล้วความโด่งดังก็ฮวบตกลงอย่างรวดเร็ว
09:42
going throughตลอด a nadirขีดตกต่ำสุด betweenระหว่าง 1933 and 1945,
232
567000
3000
โดยจุดต่ำสุดอยู่ระหว่างปี 1933 ถึง 1945
09:45
before reboundingการตอบสนอง afterwardภายหลัง.
233
570000
3000
และหลังจากนั้นก็กลับขึ้นมาใหม่
09:48
And of courseหลักสูตร, what we're seeingเห็น
234
573000
2000
และสิ่งที่พวกเราพบก็คือ
09:50
is the factความจริง Marcมาร์ค ChagallChagall was a Jewishชาวยิว artistศิลปิน
235
575000
3000
จริงๆแล้ว มาร์ค ชาร์กาล เป็นนักศิลปะชาวยิว
09:53
in Naziนาซี Germanyประเทศเยอรมัน.
236
578000
2000
ในนาซีเยอรมัน
09:55
Now these signalsสัญญาณ
237
580000
2000
ความผิดปกติเหล่านี้
09:57
are actuallyแท้จริง so strongแข็งแรง
238
582000
2000
ค่อนข้างเห็นได้ชัด
09:59
that we don't need to know that someoneบางคน was censoredเซ็นเซอร์.
239
584000
3000
พวกเราไม่จำเป็นต้องรู้มาก่อนว่าใครถูกเซ็นเซอร์
10:02
We can actuallyแท้จริง figureรูป it out
240
587000
2000
เราสามารถสรุปได้จาก
10:04
usingการใช้ really basicขั้นพื้นฐาน signalสัญญาณ processingการประมวลผล.
241
589000
2000
ความผิดปกติพื้นฐานเหล่านี้
10:06
Here'sต่อไปนี้คือ a simpleง่าย way to do it.
242
591000
2000
ซึ่งก็เป็นวิธีที่ง่ายมาก
10:08
Well, a reasonableเหมาะสม expectationความคาดหวัง
243
593000
2000
เอาล่ะครับ ความคาดหวังที่เป็นเหตุเป็นผล
10:10
is that somebody'sใครสักคนที่เป็น fameชื่อเสียง in a givenรับ periodระยะเวลา of time
244
595000
2000
ก็คือชื่อเสียงของใครบางคนในช่วงเวลาหนึ่งๆ
10:12
should be roughlyลวก the averageเฉลี่ย of theirของพวกเขา fameชื่อเสียง before
245
597000
2000
ไม่ควรจะต่างจากช่วงก่อนหน้าหรือ
10:14
and theirของพวกเขา fameชื่อเสียง after.
246
599000
2000
หลังจากนั้นมาก
10:16
So that's sortประเภท of what we expectคาดหวัง.
247
601000
2000
และนั่นเป็นสิ่งที่พวกเราหวังไว้
10:18
And we compareเปรียบเทียบ that to the fameชื่อเสียง that we observeสังเกต.
248
603000
3000
และเราได้ลองเปรียบเทียบคนที่พวกเราเฝ้าสังเกตการณ์
10:21
And we just divideการแบ่ง one by the other
249
606000
2000
ลองแยกแยะข้อมูลอย่างละเอียด
10:23
to produceก่อ something we call a suppressionการปราบปราม indexดัชนี.
250
608000
2000
เพื่อยกประเด็นที่เราเรียกว่า "ดัชนีความต่าง"
10:25
If the suppressionการปราบปราม indexดัชนี is very, very, very smallเล็ก,
251
610000
3000
เมื่อไหร่ที่ดัชนีตัวนั้นอยู่ต่ำมากๆ
10:28
then you very well mightอาจ be beingกำลัง suppressedปราบปราม.
252
613000
2000
หมายความว่าคุณอาจถูกเซ็นเซอร์ไว้
10:30
If it's very largeใหญ่, maybe you're benefitingได้รับประโยชน์ from propagandaการโฆษณาชวนเชื่อ.
253
615000
3000
และเมื่อไหร่ที่มันสูงเกิน หมายถึงคุณอาจได้รับการประชาสัมพันธ์
10:34
JMJM: Now you can actuallyแท้จริง look at
254
619000
2000
JM: จนถึงขณะนี้เชื่อว่่าคุณอาจรู้แล้ว
10:36
the distributionการกระจาย of suppressionการปราบปราม indexesดัชนี over wholeทั้งหมด populationsประชากร.
255
621000
3000
การกระจายอยู่ของดัชนีความต่างของประชากร
10:39
So for instanceตัวอย่าง, here --
256
624000
2000
ตัวอย่างเช่น ในนี้
10:41
this suppressionการปราบปราม indexดัชนี is for 5,000 people
257
626000
2000
ดัชนีนี้เป็นความต่างของผู้คน 5,000 คน
10:43
pickedหยิบ in Englishอังกฤษ booksหนังสือ where there's no knownที่รู้จักกัน suppressionการปราบปราม --
258
628000
2000
ที่หยิบยกมาจากหนังสืออังกฤษที่ไม่ได้ถูกเซ็นเซอร์ใดๆ
10:45
it would be like this, basicallyเป็นพื้น tightlyอย่างแน่นหนา centeredศูนย์กลาง on one.
259
630000
2000
จะอยู่ในแบบที่เกาะกลุ่มเหนียวแน่นตรงกลาง
10:47
What you expectคาดหวัง is basicallyเป็นพื้น what you observeสังเกต.
260
632000
2000
สิ่งที่ึคุณคาดหวังไว้จะเป็นสิ่งที่คุณสังเกตการณ์
10:49
This is distributionการกระจาย as seenเห็น in Germanyประเทศเยอรมัน --
261
634000
2000
นี่เป็นการกระจายตัวในหนังสือเยอรมัน
10:51
very differentต่าง, it's shiftedขยับ to the left.
262
636000
2000
ต่างกันมาก มันโอนเอียงไปทางซ้าย
10:53
People talkedพูดคุย about it twiceสองครั้ง lessน้อยกว่า as it should have been.
263
638000
3000
ผู้คนเอ่ยถึงมันน้้อยกว่าที่เป็นอยู่ประมาณ 2 เท่า
10:56
But much more importantlyที่สำคัญ, the distributionการกระจาย is much widerกว้าง.
264
641000
2000
แต่ที่สำคัญกว่านั้นคือ การกระจายออกเป็นวงกว้าง
10:58
There are manyจำนวนมาก people who endปลาย up on the farห่างไกล left on this distributionการกระจาย
265
643000
3000
มีผู้คนจำนวนไม่น้อยที่ประจำอยู่ฝั่งซ้ายมือ
11:01
who are talkedพูดคุย about 10 timesครั้ง fewerน้อยลง than they should have been.
266
646000
3000
ถูกพูดถึงน้อยกว่าที่ควรจะเป็นกว่าสิบเท่า
11:04
But then alsoด้วย manyจำนวนมาก people on the farห่างไกล right
267
649000
2000
แต่ผู้คนทางฝั่งขวามือ
11:06
who seemดูเหมือน to benefitประโยชน์ from propagandaการโฆษณาชวนเชื่อ.
268
651000
2000
มีแนวโน้มจะได้ประโยชน์จากการประชาสัมพันธ์
11:08
This pictureภาพ is the hallmarkตรา of censorshipเซ็นเซอร์ in the bookหนังสือ recordบันทึก.
269
653000
3000
ภาพนี้เป็นรูปแบบเซ็นเซอร์มาตรฐานในสถิติเรา
11:11
ELAELA: So culturomicsculturomics
270
656000
2000
ELA: ฉะนั้นวัฒนธรรมศาสตร์
11:13
is what we call this methodวิธี.
271
658000
2000
ก็คือชื่อที่เราใช้เรียกวิธีนี้
11:15
It's kindชนิด of like genomicsฟังก์ชั่น.
272
660000
2000
คล้ายๆกับจีโนมศาสตร์
11:17
Exceptยกเว้น genomicsฟังก์ชั่น is a lensเลนส์ on biologyชีววิทยา
273
662000
2000
ต่างกันแค่จีโนมศาสตร์เป็นมุมมองของศาสตร์ชีววิทยา
11:19
throughตลอด the windowหน้าต่าง of the sequenceลำดับ of basesฐาน in the humanเป็นมนุษย์ genomeจีโนม.
274
664000
3000
ในโลกที่เป็นผลจากพื้นฐานของจีโนมมนุษย์
11:22
CulturomicsCulturomics is similarคล้ายคลึงกัน.
275
667000
2000
วัฒนธรรมศาสตร์ก็คล้ายๆกัน
11:24
It's the applicationใบสมัคร of massive-scaleขนาดใหญ่ขนาด dataข้อมูล collectionชุด analysisการวิเคราะห์
276
669000
3000
มันเป็นโปรแกรมวิเคราะห์ชุดข้อมูลขนาดใหญ่
11:27
to the studyศึกษา of humanเป็นมนุษย์ cultureวัฒนธรรม.
277
672000
2000
ที่ใช้ศึกษาวัฒนธรรมมนุษย์
11:29
Here, insteadแทน of throughตลอด the lensเลนส์ of a genomeจีโนม,
278
674000
2000
แทนที่จะเป็นมุมมองทางฝั่งจีโนม
11:31
throughตลอด the lensเลนส์ of digitizedดิจิทัล piecesชิ้น of the historicalประวัติศาสตร์ recordบันทึก.
279
676000
3000
แต่เป็นมุมมองจากข้อมูลบันทึกประวัติศาสตร์ดิจิทัล
11:34
The great thing about culturomicsculturomics
280
679000
2000
วัฒนธรรมศาสตร์ดีตรงที่
11:36
is that everyoneทุกคน can do it.
281
681000
2000
ทุกๆคนสามารถลงมือทำได้เอง
11:38
Why can everyoneทุกคน do it?
282
683000
2000
ทำไมทุกคนถึงทำได้น่ะหรือ?
11:40
Everyoneทุกคน can do it because threeสาม guys,
283
685000
2000
ก็เพราะชายสามคนนี้
11:42
Jonจอน OrwantOrwant, Mattด้าน Grayสีเทา and Will BrockmanBrockman over at GoogleGoogle,
284
687000
3000
"จอน ออร์วอนท์" "แมต เกรย์" และ "วิลล์ บร๊อคแมน" จากกูเกิล
11:45
saw the prototypeแบบเดิม of the NgramNgram Viewerผู้ชม,
285
690000
2000
ได้เล็งเห็นประโยชน์ของตัวช่วย Ngram Viewer
11:47
and they said, "This is so funสนุก.
286
692000
2000
และพวกเขาเห็นตรงกันว่า "มันสนุกสุดยอด
11:49
We have to make this availableใช้ได้ for people."
287
694000
3000
พวกเราต้องทำให้ทุกคนได้ลองใช้บ้าง"
11:52
So in two weeksสัปดาห์ที่ผ่านมา flatแบน -- the two weeksสัปดาห์ที่ผ่านมา before our paperกระดาษ cameมา out --
288
697000
2000
จากนั้นมาสองอาทิตย์ ก่อนที่จะทำรายงานเสร็จ
11:54
they codedรหัส up a versionรุ่น of the NgramNgram Viewerผู้ชม for the generalทั่วไป publicสาธารณะ.
289
699000
3000
พวกเขาเขียนเว็ป Ngram Viewer ในแบบที่ใครก็เข้าใช้ได้
11:57
And so you too can typeชนิด in any wordคำ or phraseวลี that you're interestedสนใจ in
290
702000
3000
ฉะนั้นคุณสามารถพิมพ์คำหรือวลีใดๆก็ได้ที่คุณสนใจ
12:00
and see its n-gramn กรัม immediatelyทันที --
291
705000
2000
และสำรวจ N-gram ของมันได้ทันที
12:02
alsoด้วย browseเรียกดู examplesตัวอย่าง of all the variousต่างๆ booksหนังสือ
292
707000
2000
และสามารถเปิดตัวอย่างของหนังสือทั้งหลาย
12:04
in whichที่ your n-gramn กรัม appearsปรากฏ.
293
709000
2000
ที่มี n-gram ปรากฏอยู่
12:06
JMJM: Now this was used over a millionล้าน timesครั้ง on the first day,
294
711000
2000
JM: ฟังค์ชั่นนี้ถูกใช้เป็นล้านครั้งในวันเปิดตัว
12:08
and this is really the bestดีที่สุด of all the queriesคำสั่ง.
295
713000
2000
และตัวอย่างนี้ถือเป็นหนึ่งในจำนวนคำค้นที่ดีที่สุด
12:10
So people want to be theirของพวกเขา bestดีที่สุด, put theirของพวกเขา bestดีที่สุด footเท้า forwardข้างหน้า.
296
715000
3000
ผู้คนอยากทำตัวเองให้ดีที่สุด เริ่มต้นจากสิ่งดีที่สุด
12:13
But it turnsผลัดกัน out in the 18thTH centuryศตวรรษ, people didn't really careการดูแล about that at all.
297
718000
3000
แต่สำหรับศตวรรษที่ 18 กลับไม่มีใครสนใจคำๆนี้เท่าไหร่
12:16
They didn't want to be theirของพวกเขา bestดีที่สุด, they wanted to be theirของพวกเขา beftbeft.
298
721000
3000
พวกเขาไม่ได้อยาก "Best" ที่สุด พวกเขาอยาก "Beft" ที่สุด
12:19
So what happenedที่เกิดขึ้น is, of courseหลักสูตร, this is just a mistakeผิดพลาด.
299
724000
3000
สิ่งที่เกิดขึ้นก็คือ แน่นอนว่ามันเป็นเพียงแค่ความผิดเล็กๆน้อยๆ
12:22
It's not that stroveStrove for mediocrityความสามัญ,
300
727000
2000
ไม่ใช่ความอยากโดดเด่น
12:24
it's just that the S used to be writtenเขียน differentlyต่างกัน, kindชนิด of like an F.
301
729000
3000
เป็นแค่การเขียนตัว S อีกแบบที่คล้ายกับตัว F
12:27
Now of courseหลักสูตร, GoogleGoogle didn't pickเลือก this up at the time,
302
732000
3000
แต่สำหรับตอนนี้ กูเกิลยังไม่หยิบยกตัวนี้ขึ้นมาจริงจัง
12:30
so we reportedรายงาน this in the scienceวิทยาศาสตร์ articleบทความ that we wroteเขียน.
303
735000
3000
แต่พวกเราได้รายงานเรื่องนี้ในบทความที่พวกเราเขียนขึ้น
12:33
But it turnsผลัดกัน out this is just a reminderการแจ้งเตือน
304
738000
2000
เพื่อเตือนตัวเองเท่านั้น
12:35
that, althoughแม้ว่า this is a lot of funสนุก,
305
740000
2000
ถึงแม้ว่ามันจะสนุกมากก็ตาม
12:37
when you interpretตีความ these graphsกราฟ, you have to be very carefulระมัดระวัง,
306
742000
2000
แต่ตอนที่คุณแปลกราฟเหล่านี้ออกมา คุณต้องระวังให้มาก
12:39
and you have to adoptนำมาใช้ the baseฐาน standardsมาตรฐาน in the sciencesวิทยาศาสตร์.
307
744000
3000
และใช้วิทยาศาสตร์เป็นพื้นฐาน
12:42
ELAELA: People have been usingการใช้ this for all kindsชนิด of funสนุก purposesวัตถุประสงค์.
308
747000
3000
ELA: ผู้คนใช้สิ่งนี้เล่นสนุกในรูปแบบต่างๆ
12:45
(Laughterเสียงหัวเราะ)
309
750000
7000
(หัวเราะ)
12:52
Actuallyแท้จริง, we're not going to have to talk,
310
757000
2000
จริงๆแล้วพวกเราแทบไม่ต้องพูดเลย
12:54
we're just going to showแสดง you all the slidesภาพนิ่ง and remainยังคง silentเงียบ.
311
759000
3000
แค่โชว์สไลด์เหล่านี้แล้วอยู่กันเงียบๆ
12:57
This personคน was interestedสนใจ in the historyประวัติศาสตร์ of frustrationแห้ว.
312
762000
3000
คนๆนี้สนใจเรื่องประวัติศาสตร์ของความไม่พอใจ
13:00
There's variousต่างๆ typesประเภท of frustrationแห้ว.
313
765000
3000
ความไม่พอใจมีหลากหลายประเภท
13:03
If you stubต้นขั้ว your toeนิ้วเท้า, that's a one A "arghโอ๊ะ."
314
768000
3000
หากคุณเดินสะดุด จะอุทานออกมาเป็น "อา" สระ "า" ตัวเดียว
13:06
If the planetดาวเคราะห์ Earthโลก is annihilatedวินาศ by the VogonsVogons
315
771000
2000
แต่ถ้าโลกกำลังจะถูกเอเลี่ยนโวกอนทำลาย
13:08
to make roomห้อง for an interstellarระหว่างดวงดาว bypassทางอ้อม,
316
773000
2000
เพื่อเว้นความห่างระหว่างดวงดาว
13:10
that's an eightแปด A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
คุณจะอุทานเป็น "อาาาาาาาา" สระ "า" 8 ตัว
13:12
This personคน studiesการศึกษา all the "arghsarghs,"
318
777000
2000
คนๆนี้ศึกษาเกี่ยวกับ "อา" ทั้งหลาย
13:14
from one throughตลอด eightแปด A'sเช่น.
319
779000
2000
ตั้งแต่ "า" หนึ่งตัวจนถึงแปดตัว
13:16
And it turnsผลัดกัน out
320
781000
2000
ได้ความว่า
13:18
that the less-frequentน้อยบ่อย "arghsarghs"
321
783000
2000
"อา" ที่ความถี่ที่น้อยกว่า
13:20
are, of courseหลักสูตร, the onesคน that correspondตรงตามลักษณะ to things that are more frustratingที่น่าผิดหวัง --
322
785000
3000
จะเป็นเหตุการณ์ที่กดดันกว่า
13:23
exceptยกเว้น, oddlyอย่างผิดปกติ, in the earlyตอนต้น 80s.
323
788000
3000
ยกเว้นในช่วงต้นศตวรรษ 1980
13:26
We think that mightอาจ have something to do with Reaganเรแกน.
324
791000
2000
พวกเราคิดว่าเรแกนจะต้องมีเอี่ยวกับข้อมูลนี้แน่ๆ
13:28
(Laughterเสียงหัวเราะ)
325
793000
2000
(หัวเราะ)
13:30
JMJM: There are manyจำนวนมาก usagesประเพณี of this dataข้อมูล,
326
795000
3000
JM: มีการใช้ข้อมูลนี้ไม่น้อยทีเดียว
13:33
but the bottomด้านล่าง lineเส้น is that the historicalประวัติศาสตร์ recordบันทึก is beingกำลัง digitizedดิจิทัล.
327
798000
3000
สรุปแล้วตอนนี้ประวัติศาสตร์ได้บันทึกอยู่ในโลกดิจิทัลแล้ว
13:36
GoogleGoogle has startedเริ่มต้น to digitizeรูปแบบดิจิทัล 15 millionล้าน booksหนังสือ.
328
801000
2000
กูเกิลได้เริ่มทำหนังสือเป็นดิจิทัลประมาณ 15 ล้านเล่ม
13:38
That's 12 percentเปอร์เซ็นต์ of all the booksหนังสือ that have ever been publishedการตีพิมพ์.
329
803000
2000
ซึ่งเป็นเพียง 12 เปอร์เซนต์ของหนังสือทั้งหมดที่เคยตีพิมพ์
13:40
It's a sizableใหญ่มาก chunkก้อน of humanเป็นมนุษย์ cultureวัฒนธรรม.
330
805000
3000
เป็นเพียงเสี้ยวหนึ่งของวัฒนธรรมมนุษย์เท่านั้น
13:43
There's much more in cultureวัฒนธรรม: there's manuscriptsต้นฉบับ, there newspapersหนังสือพิมพ์,
331
808000
3000
ในวัฒนธรรมเรายังมีอีกมากมายกว่านี้ ไหนจะมีหนังสือที่เขียนด้วยลายมืออีก ไหนจะหนังสือพิมพ์
13:46
there's things that are not textข้อความ, like artศิลปะ and paintingsภาพวาด.
332
811000
2000
หรือพวกที่ไม่ได้อยู่ในรูปแบบตัวหนังสือ เช่น ศิลปะและรูปภาพต่างๆ
13:48
These all happenเกิดขึ้น to be on our computersคอมพิวเตอร์,
333
813000
2000
สิ่งเหล่านี้จะเกิดขึ้นบนคอมพิวเตอร์ของพวกเรา
13:50
on computersคอมพิวเตอร์ acrossข้าม the worldโลก.
334
815000
2000
คอมพิวเตอร์จากทั่วทุกมุมโลก
13:52
And when that happensที่เกิดขึ้น, that will transformแปลง the way we have
335
817000
3000
และเมื่อมันเกิดขึ้นแล้ว มันจะเปลี่ยนแปลงรูปแบบที่เราเคย
13:55
to understandเข้าใจ our pastอดีต, our presentนำเสนอ and humanเป็นมนุษย์ cultureวัฒนธรรม.
336
820000
2000
ทำความเข้าใจวัฒนธรรมมนุษย์ในอดีต ปัจจุบัน และอนาคต
13:57
Thank you very much.
337
822000
2000
ขอบคุณมากครับ
13:59
(Applauseการปรบมือ)
338
824000
3000
(ปรบมือ)
Translated by Phatra Sae-ting
Reviewed by Sritala Dhanasarnsombut

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com