ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Điều chúng ta đã học từ 5 triệu cuốn sách

Filmed:
2,049,453 views

Bạn đã thử dùng Ngram viewer của Google Labs chưa? Đó là công cụ khiến người ta say mê. Nó cho phép bạn tìm kiếm từ vựng và ý tưởng trong nguồn dữ liệu của 5 triệu cuốn sách từ nhiều thế kỉ. Erez Lierberman Aiden và Jean-Baptiste cho chúng ta thấy nó hoạt động thế nào và một vài điều thú vị mà chúng ta có thể học được từ 500 từ .
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezErez LiebermanLieberman AidenAiden: EveryoneTất cả mọi người knowsbiết
0
0
2000
Erez Lieberman Aiden : Mọi người đều biết
00:17
that a picturehình ảnh is worthgiá trị a thousandnghìn wordstừ ngữ.
1
2000
3000
một bức ảnh đáng giá một nghìn từ.
00:22
But we at HarvardĐại học Harvard
2
7000
2000
Nhưng chúng tôi, tại Harvard
00:24
were wonderingtự hỏi if this was really truethật.
3
9000
3000
luôn thắc mắc liệu điều đó có thật sự đúng.
00:27
(LaughterTiếng cười)
4
12000
2000
(Tiếng cười)
00:29
So we assembledlắp ráp a teamđội of expertsCác chuyên gia,
5
14000
4000
Vì vậy chúng tôi tập hợp một đội những chuyên gia,
00:33
spanningkéo dài HarvardĐại học Harvard, MITMIT,
6
18000
2000
từ khắp Harvard , MIT,
00:35
The AmericanNgười Mỹ HeritageDi sản DictionaryTừ điển, The EncyclopediaViệt BritannicaBritannica
7
20000
3000
Từ điển Di sản Mỹ, Bách khoa toàn thư Britannica
00:38
and even our proudtự hào sponsorsnhà tài trợ,
8
23000
2000
và cả nhà tài trợ tự hào của chúng tôi,
00:40
the GoogleGoogle.
9
25000
3000
Google.
00:43
And we cogitatedcogitated about this
10
28000
2000
Chúng tôi đã ngẫm nghĩ về điều này
00:45
for about fourbốn yearsnăm.
11
30000
2000
trong khoảng bốn năm.
00:47
And we cameđã đến to a startlingstartling conclusionphần kết luận.
12
32000
5000
Và chúng tôi đã đi đến một kết luận đầy sửng sốt.
00:52
LadiesPhụ nữ and gentlemenquý ông, a picturehình ảnh is not worthgiá trị a thousandnghìn wordstừ ngữ.
13
37000
3000
Xin thưa với quí vị rằng, một bức tranh không đáng một nghìn từ.
00:55
In factthực tế, we foundtìm some picturesnhững bức ảnh
14
40000
2000
Thực tế, chúng tôi đã tìm thấy bức tranh
00:57
that are worthgiá trị 500 billiontỷ wordstừ ngữ.
15
42000
5000
đáng giá 500 nghìn triệu từ!
01:02
Jean-BaptisteJean-Baptiste MichelMichel: So how did we get to this conclusionphần kết luận?
16
47000
2000
Jean-Baptiste Michel: Vậy làm thế nào chúng tôi lại đi đến kết luận này?
01:04
So ErezErez and I were thinkingSuy nghĩ about wayscách
17
49000
2000
Erez và tôi đã suy nghĩ cách
01:06
to get a biglớn picturehình ảnh of humanNhân loại culturenền văn hóa
18
51000
2000
nắm bắt được bức tranh toàn cảnh về nền văn hoá nhân loại
01:08
and humanNhân loại historylịch sử: changethay đổi over time.
19
53000
3000
và lịch sử loài người thay đổi qua thời gian.
01:11
So manynhiều bookssách actuallythực ra have been writtenbằng văn bản over the yearsnăm.
20
56000
2000
Có rất nhiều cuốn sách được viết ra trong nhiều năm.
01:13
So we were thinkingSuy nghĩ, well the besttốt way to learnhọc hỏi from them
21
58000
2000
Vậy nên chúng tôi nghĩ rằng, vậy cách tốt nhất để học từ chúng
01:15
is to readđọc all of these millionshàng triệu of bookssách.
22
60000
2000
là đọc hết hàng triệu cuốn sách này.
01:17
Now of coursekhóa học, if there's a scaletỉ lệ for how awesometuyệt vời that is,
23
62000
3000
Tất nhiên, nếu có thang đo về độ hoành tráng của dự án này,
01:20
that has to rankXếp hạng extremelyvô cùng, extremelyvô cùng highcao.
24
65000
3000
thì nó hoàn toàn, hoàn toàn hoành tráng.
01:23
Now the problemvấn đề is there's an X-axisTrục x for that,
25
68000
2000
Nhưng vấn đề là còn có một trục ngang cho việc đánh giá này,
01:25
which is the practicalthiết thực axistrục.
26
70000
2000
đó là đánh giá về mức độ thực tế.
01:27
This is very, very lowthấp.
27
72000
2000
Thì điều này rất rất ít tính thực tế.
01:29
(ApplauseVỗ tay)
28
74000
3000
(Vỗ tay)
01:32
Now people tendcó xu hướng to use an alternativethay thế approachtiếp cận,
29
77000
3000
Thế là người ta có khuynh hướng tìm cách khác,
01:35
which is to take a fewvài sourcesnguồn and readđọc them very carefullycẩn thận.
30
80000
2000
đó là chọn ra một số nguồn sách và đọc chúng thật cẩn thận.
01:37
This is extremelyvô cùng practicalthiết thực, but not so awesometuyệt vời.
31
82000
2000
Cách này cực kì thực tiễn nhưng không hoành tráng cho lắm.
01:39
What you really want to do
32
84000
3000
Điều mà chúng ta muốn thật sự
01:42
is to get to the awesometuyệt vời yetchưa practicalthiết thực partphần of this spacekhông gian.
33
87000
3000
là một cách thức vừa hoành tráng vừa thực tiễn.
01:45
So it turnslượt out there was a companyCông ty acrossbăng qua the rivercon sông calledgọi là GoogleGoogle
34
90000
3000
Và hoá ra có một công ty gọi là Google
01:48
who had startedbắt đầu a digitizationsố hóa projectdự án a fewvài yearsnăm back
35
93000
2000
đã bắt đầu một dự án số hoá từ một vài năm trước
01:50
that mightcó thể just enablecho phép this approachtiếp cận.
36
95000
2000
khiến ta thực hiện được cách thức đó.
01:52
They have digitizedsố hóa millionshàng triệu of bookssách.
37
97000
2000
Họ đã số hoá hàng triệu cuốn sách.
01:54
So what that meanscó nghĩa is, one could use computationaltính toán methodsphương pháp
38
99000
3000
Điều đó có nghĩa là, ta có thể dùng máy móc
01:57
to readđọc all of the bookssách in a clicknhấp chuột of a buttonnút.
39
102000
2000
để đọc tất cả các cuốn sách trong một cú nhấn chuột.
01:59
That's very practicalthiết thực and extremelyvô cùng awesometuyệt vời.
40
104000
3000
Cách này rất thực dụng và cực kì hoành tráng.
02:03
ELAELA: Let me tell you a little bitbit about where bookssách come from.
41
108000
2000
ELA: Để tôi nói cho các bạn biết một chút về nơi những cuốn sách đó bắt nguồn.
02:05
SinceKể từ khi time immemorialxưa, there have been authorstác giả.
42
110000
3000
Từ thời xa xưa đã có những nhà sáng tác.
02:08
These authorstác giả have been strivingphấn đấu to writeviết bookssách.
43
113000
3000
Những nhà sáng tác này nỗ lực viết những cuốn sách.
02:11
And this becameđã trở thành considerablyđáng kể easierdễ dàng hơn
44
116000
2000
Và việc này trở nên khá dễ dàng hơn
02:13
with the developmentphát triển of the printingin pressnhấn some centuriesthế kỉ agotrước.
45
118000
2000
nhờ sự phát triển của công nghệ in ấn vài thế kỉ trước.
02:15
SinceKể từ khi then, the authorstác giả have wonthắng
46
120000
3000
Từ đó, các nhà sáng tác đã có được
02:18
on 129 milliontriệu distinctkhác biệt occasionsdịp,
47
123000
2000
129 triệu cơ hội
02:20
publishingxuất bản bookssách.
48
125000
2000
xuất bản những cuốn sách.
02:22
Now if those bookssách are not lostmất đi to historylịch sử,
49
127000
2000
Bây giờ nếu những cuốn sách đó không lạc vào lịch sử,
02:24
then they are somewheremột vài nơi in a librarythư viện,
50
129000
2000
thì chúng sẽ ở đâu đó trong một thư viện nào đó,
02:26
and manynhiều of those bookssách have been gettingnhận được retrievedLấy from the librariesthư viện
51
131000
3000
và nhiều trong số đó được lưu trữ
02:29
and digitizedsố hóa by GoogleGoogle,
52
134000
2000
và số hoá bởi Google,
02:31
which has scannedquét 15 milliontriệu bookssách to datengày.
53
136000
2000
nơi đến nay đã quét được 15 triệu cuốn sách.
02:33
Now when GoogleGoogle digitizesdigitizes a booksách, they put it into a really nicetốt đẹp formatđịnh dạng.
54
138000
3000
Bây giờ khi Google số hoá một cuốn sách, họ sẽ đưa nó vào một định dạng thật đẹp.
02:36
Now we'vechúng tôi đã got the datadữ liệu, plusthêm we have metadatasiêu dữ liệu.
55
141000
2000
Chúng ta có dữ liệu, thêm vào đó chúng ta có siêu dữ liệu.
02:38
We have informationthông tin about things like where was it publishedđược phát hành,
56
143000
3000
Chúng ta có thông tin về những thứ như là cuốn sách đó được xuất bản khi nào,
02:41
who was the authortác giả, when was it publishedđược phát hành.
57
146000
2000
ai là tác giả, nó được xuất bản khi nào.
02:43
And what we do is go throughxuyên qua all of those recordsHồ sơ
58
148000
3000
Và điều chúng tôi làm là lướt qua tất cả những bộ dữ liệu đó
02:46
and excludeloại trừ everything that's not the highestcao nhất qualityphẩm chất datadữ liệu.
59
151000
4000
và loại bỏ hết những cái không phải là những dữ liệu chất lượng nhất.
02:50
What we're left with
60
155000
2000
Cái còn lại là
02:52
is a collectionbộ sưu tập of fivesố năm milliontriệu bookssách,
61
157000
3000
một tập hợp của 5 triệu cuốn sách.
02:55
500 billiontỷ wordstừ ngữ,
62
160000
3000
500 tỉ từ,
02:58
a stringchuỗi of charactersnhân vật a thousandnghìn timeslần longerlâu hơn
63
163000
2000
một chuỗi kí tự dài hơn hàng ngàn lần
03:00
than the humanNhân loại genomebộ gen --
64
165000
3000
hệ gien con người --
03:03
a textbản văn which, when writtenbằng văn bản out,
65
168000
2000
một bản chữ mà khi viết ra
03:05
would stretchcăng ra from here to the MoonMặt Trăng and back
66
170000
2000
sẽ dài bằng từ đây đi đến mặt trăng rồi vòng lại
03:07
10 timeslần over --
67
172000
2000
hơn 10 lần --
03:09
a veritabletảng thật shardmảnh gương of our culturalvăn hoá genomebộ gen.
68
174000
4000
một mảnh thực của hệ gien văn hoá cuả chúng ta.
03:13
Of coursekhóa học what we did
69
178000
2000
Tất nhiên, điều chúng tôi đã làm
03:15
when facedphải đối mặt with suchnhư là outrageousthái quá hyperbolekhoa trương pháp ...
70
180000
3000
khi đối diện với một sự phóng đại tàn bạo như thế ...
03:18
(LaughterTiếng cười)
71
183000
2000
(Tiếng cười)
03:20
was what any self-respectingtự trọng researchersCác nhà nghiên cứu
72
185000
3000
là điều mà bất kì nhà nghiên cứu đáng kính nào
03:23
would have donelàm xong.
73
188000
3000
cũng sẽ làm.
03:26
We tooklấy a pagetrang out of XKCDXKCD,
74
191000
2000
Chúng tôi trích ra một trang trong chuỗi XKCD
03:28
and we said, "StandĐứng back.
75
193000
2000
và chúng tôi nói "Khoan đã.
03:30
We're going to try sciencekhoa học."
76
195000
2000
Chúng tôi sẽ thử thí nghiệm chúng."
03:32
(LaughterTiếng cười)
77
197000
2000
(Tiếng cười)
03:34
JMJM: Now of coursekhóa học, we were thinkingSuy nghĩ,
78
199000
2000
JM : Tất nhiên, chúng tôi đã nghĩ là
03:36
well let's just first put the datadữ liệu out there
79
201000
2000
trước tiên hãy thử đưa dữ liệu ra
03:38
for people to do sciencekhoa học to it.
80
203000
2000
cho người ta thí nghiệm.
03:40
Now we're thinkingSuy nghĩ, what datadữ liệu can we releasegiải phóng?
81
205000
2000
Và chúng tôi suy nghĩ, dữ liệu nào có thể đem ra đây?
03:42
Well of coursekhóa học, you want to take the bookssách
82
207000
2000
Tất nhiên, các bạn muốn lấy những cuốn sách
03:44
and releasegiải phóng the fullđầy textbản văn of these fivesố năm milliontriệu bookssách.
83
209000
2000
và tung ra hết nguyên bản của 5 triệu cuốn sách.
03:46
Now GoogleGoogle, and JonJon OrwantOrwant in particularcụ thể,
84
211000
2000
Google, cụ thể là Jon Orwant,
03:48
told us a little equationphương trình that we should learnhọc hỏi.
85
213000
2000
đã bảo cho chúng tôi một công thức mà chúng tôi nên nghĩ tới.
03:50
So you have fivesố năm milliontriệu, that is, fivesố năm milliontriệu authorstác giả
86
215000
3000
Chúng tôi có 5 triệu cuốn sách, tức bằng với năm triệu tác giả
03:53
and fivesố năm milliontriệu plaintiffsnguyên đơn is a massiveto lớn lawsuitkiện tụng.
87
218000
3000
và năm triệu đơn kiện cho một cuộc kiện tụng khổng lồ.
03:56
So, althoughmặc dù that would be really, really awesometuyệt vời,
88
221000
2000
Vì thế, dù cách này rất rất hoành tráng,
03:58
again, that's extremelyvô cùng, extremelyvô cùng impracticalkhông thực tế.
89
223000
3000
nhưng một lần nữa lại cực kì cực kì không thực tế.
04:01
(LaughterTiếng cười)
90
226000
2000
(Tiếng cười)
04:03
Now again, we kindloại of cavedcaved in,
91
228000
2000
Một lần nữa chúng tôi lại nhượng bộ
04:05
and we did the very practicalthiết thực approachtiếp cận, which was a bitbit lessít hơn awesometuyệt vời.
92
230000
3000
Chúng tôi đã thử cách thực tế nhất nhưng ít hoành tráng
04:08
We said, well insteadthay thế of releasingphát hành the fullđầy textbản văn,
93
233000
2000
Chúng tôi nói rằng, được rồi, thay vì phát hành nguyên cả văn bản,
04:10
we're going to releasegiải phóng statisticssố liệu thống kê about the bookssách.
94
235000
2000
chúng tôi sẽ tung ra thống kê về những quyển sách đó.
04:12
So take for instanceví dụ "A gleamtia of happinesshạnh phúc."
95
237000
2000
Hãy lấy một ví dụ cụm từ "Tia sáng hạnh phúc"
04:14
It's fourbốn wordstừ ngữ; we call that a four-gram4-gam.
96
239000
2000
Đây là cụm bốn từ; chúng tôi gọi đó là một four-gram.
04:16
We're going to tell you how manynhiều timeslần a particularcụ thể four-gram4-gam
97
241000
2000
Chúng tôi sẽ cho các bạn biết một four-gram sẽ xuất hiện bao nhiêu lần
04:18
appearedxuất hiện in bookssách in 1801, 1802, 1803,
98
243000
2000
trong những cuốn sách năm 1801, 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
cho đến tận năm 2008.
04:22
That givesđưa ra us a time seriesloạt
100
247000
2000
Qua đó chúng ta sẽ có được một chuỗi thời gian
04:24
of how frequentlythường xuyên this particularcụ thể sentencecâu was used over time.
101
249000
2000
cho ta biết một câu nhất định được dùng với tần suất thế nào qua thời gian.
04:26
We do that for all the wordstừ ngữ and phrasescụm từ that appearxuất hiện in those bookssách,
102
251000
3000
Chúng tôi làm như thế với tất cả từ ngữ và nhóm từ trong những cuốn sách đó,
04:29
and that givesđưa ra us a biglớn tablebàn of two billiontỷ linesđường dây
103
254000
3000
kết quả chúng tôi có được một bảng khổng lồ của hai tỉ đường
04:32
that tell us about the way culturenền văn hóa has been changingthay đổi.
104
257000
2000
cho chúng tôi thấy cách nền văn hoá thay đổi qua thời gian.
04:34
ELAELA: So those two billiontỷ linesđường dây,
105
259000
2000
ELA: Chúng tôi gọi hai tỉ đường đó là
04:36
we call them two billiontỷ n-gramsn-gam.
106
261000
2000
hai tỉ n-gram.
04:38
What do they tell us?
107
263000
2000
Chúng cho ta biết điều gì ư?
04:40
Well the individualcá nhân n-gramsn-gam measuređo culturalvăn hoá trendsxu hướng.
108
265000
2000
Đó là mỗi n-gram đo xu hướng của nền văn hoá.
04:42
Let me give you an examplethí dụ.
109
267000
2000
Để tôi cho bạn một ví dụ.
04:44
Let's supposegiả sử that I am thrivingphát triển mạnh,
110
269000
2000
Thử giả định rằng tôi đang phát triển
04:46
then tomorrowNgày mai I want to tell you about how well I did.
111
271000
2000
Mai tôi muốn nói cho các bạn biết tôi đã phát triển thế nào.
04:48
And so I mightcó thể say, "YesterdayHôm qua, I throvethrove."
112
273000
3000
Và có lẽ tôi sẽ nói là "Yesterday, I throve" ("Ngày hôm qua, tôi đã phát triển")
04:51
AlternativelyNgoài ra, I could say, "YesterdayHôm qua, I thrivedphát triển mạnh."
113
276000
3000
Hay nói cách khác rằng " Yesterday, I thrived." ("Ngày hôm qua, tôi đã phát triển")
04:54
Well which one should I use?
114
279000
3000
Tôi nên nói theo cách nào?
04:57
How to know?
115
282000
2000
Làm sao biết được?
04:59
As of about sixsáu monthstháng agotrước,
116
284000
2000
Nếu là sáu tháng trước
05:01
the statetiểu bang of the artnghệ thuật in this fieldcánh đồng
117
286000
2000
tính nghệ thuật trong lĩnh vực này
05:03
is that you would, for instanceví dụ,
118
288000
2000
là chẳng hạn bạn sẽ
05:05
go up to the followingtiếp theo psychologistnhà tâm lý học with fabuloustuyệt vời hairtóc,
119
290000
2000
tìm đến nhà tâm lý học có bộ tóc tuyệt vời này
05:07
and you'dbạn muốn say,
120
292000
2000
và nói rằng,
05:09
"SteveSteve, you're an expertchuyên gia on the irregularkhông thường xuyên verbsđộng từ.
121
294000
3000
"Steve, anh là chuyên gia về động từ bất quy tắc.
05:12
What should I do?"
122
297000
2000
Tôi nên chia động từ đó theo cách nào?"
05:14
And he'danh ấy tell you, "Well mostphần lớn people say thrivedphát triển mạnh,
123
299000
2000
Và ông ta sẽ nói với bạn rằng " Phần lớn người ta chia động từ đó thành "thrived",
05:16
but some people say throvethrove."
124
301000
3000
nhưng một vài người dùng "throve"."
05:19
And you alsocũng thế knewbiết, more or lessít hơn,
125
304000
2000
Ít nhiều bạn cũng biết rằng
05:21
that if you were to go back in time 200 yearsnăm
126
306000
3000
nếu bạn quay ngược lại 200 năm trước
05:24
and askhỏi the followingtiếp theo statesmanchính khách with equallybằng nhau fabuloustuyệt vời hairtóc,
127
309000
3000
và hỏi nhà chính trị có bộ tóc tuyệt vời ngang ngửa này
05:27
(LaughterTiếng cười)
128
312000
3000
(Tiếng cười)
05:30
"TomTom, what should I say?"
129
315000
2000
"Tom, tôi nên nói thế nào?"
05:32
He'dÔng sẽ say, "Well, in my day, mostphần lớn people throvethrove,
130
317000
2000
Ông ta sẽ nói rằng " Ở thời kì của tôi, hầu hết người ta dùng "throve",
05:34
but some thrivedphát triển mạnh."
131
319000
3000
nhưng một số dùng "thrived"."
05:37
So now what I'm just going to showchỉ you is rawthô datadữ liệu.
132
322000
2000
Giờ tôi sẽ cho các bạn xem dữ liệu sống
05:39
Two rowshàng from this tablebàn of two billiontỷ entriesmục.
133
324000
4000
Hai hàng trích ra từ bảng của hai tỷ dữ liệu kia
05:43
What you're seeingthấy is yearnăm by yearnăm frequencytần số
134
328000
2000
Cái bạn đang nhìn thấy là tần số xuất hiện từng năm
05:45
of "thrivedphát triển mạnh" and "throvethrove" over time.
135
330000
3000
của "thrived" và "throve"
05:49
Now this is just two
136
334000
2000
Đây chỉ là hai
05:51
out of two billiontỷ rowshàng.
137
336000
3000
trong số hai tỉ hàng.
05:54
So the entiretoàn bộ datadữ liệu setbộ
138
339000
2000
Vì thế toàn bộ dữ liệu này
05:56
is a billiontỷ timeslần more awesometuyệt vời than this slidetrượt.
139
341000
3000
sẽ hoành tráng hơn cả tỉ lần cái slide này.
05:59
(LaughterTiếng cười)
140
344000
2000
(Tiếng cười)
06:01
(ApplauseVỗ tay)
141
346000
4000
(Vỗ tay)
06:05
JMJM: Now there are manynhiều other picturesnhững bức ảnh that are worthgiá trị 500 billiontỷ wordstừ ngữ.
142
350000
2000
JM: Vậy có bao nhiêu bức tranh khác đáng 500 tỉ từ ngữ.
06:07
For instanceví dụ, this one.
143
352000
2000
Ví dụ như cái này
06:09
If you just take influenzacúm,
144
354000
2000
Nếu bạn chọn dịch cúm,
06:11
you will see peaksđỉnh núi at the time where you knewbiết
145
356000
2000
bạn sẽ thấy những thời điểm cao trào mà bạn biết
06:13
biglớn flucúm epidemicsDịch bệnh were killinggiết chết people around the globequả địa cầu.
146
358000
3000
khi mà những dịch cúm lớn tiêu diệt con người khắp nơi.
06:16
ELAELA: If you were not yetchưa convincedthuyết phục,
147
361000
3000
ELA: Nếu bạn vẫn chưa tin
06:19
seabiển levelscấp are risingtăng lên,
148
364000
2000
mực nước biển đang tăng,
06:21
so is atmospherickhông khí COCO2 and globaltoàn cầu temperaturenhiệt độ.
149
366000
3000
khí CO2 và nhiệt độ trái đất cũng thế.
06:24
JMJM: You mightcó thể alsocũng thế want to have a look at this particularcụ thể n-gramn-gam,
150
369000
3000
JM: Các bạn chắc cũng muốn xem cái n-gram này,
06:27
and that's to tell NietzscheNietzsche that God is not deadđã chết,
151
372000
3000
nó nói cho Nietzsche biết rằng chúa không chết,
06:30
althoughmặc dù you mightcó thể agreeđồng ý that he mightcó thể need a better publicistpublicist.
152
375000
3000
dù bạn có lẽ sẽ đồng ý rằng ông ta cần một nhà báo giỏi hơn.
06:33
(LaughterTiếng cười)
153
378000
2000
(Tiếng cười)
06:35
ELAELA: You can get at some prettyđẹp abstracttrừu tượng conceptscác khái niệm with this sortsắp xếp of thing.
154
380000
3000
ELA : Bạn có thể nắm được một số khái niệm khá trừu tượng đại loại thế này.
06:38
For instanceví dụ, let me tell you the historylịch sử
155
383000
2000
Để tôi kể cho bạn nghe về lịch sử
06:40
of the yearnăm 1950.
156
385000
2000
của năm 1950.
06:42
PrettyXinh đẹp much for the vastrộng lớn majorityđa số of historylịch sử,
157
387000
2000
Phần lớn trong lịch sử
06:44
no one gaveđưa ra a damnchỉ trích about 1950.
158
389000
2000
chẳng ai đếm xỉa gì về năm 1950 cả
06:46
In 1700, in 1800, in 1900,
159
391000
2000
Năm 1700, 1800, 1900,
06:48
no one caredchăm sóc.
160
393000
3000
chẳng ai quan tâm.
06:52
ThroughThông qua the 30s and 40s,
161
397000
2000
Trong suốt những năm 30 và 40,
06:54
no one caredchăm sóc.
162
399000
2000
cũng chẳng ai quan tâm .
06:56
SuddenlyĐột nhiên, in the mid-giữa-40s,
163
401000
2000
Bất ngờ vào giữa những năm 40
06:58
there startedbắt đầu to be a buzzBuzz.
164
403000
2000
bắt đầu có một chút động đậy.
07:00
People realizedthực hiện that 1950 was going to happenxảy ra,
165
405000
2000
Người ta bắt đầu nhận ra 1950 sắp đến
07:02
and it could be biglớn.
166
407000
2000
và có thể nó sẽ rất hoành tráng!
07:04
(LaughterTiếng cười)
167
409000
3000
(Tiếng cười)
07:07
But nothing got people interestedquan tâm in 1950
168
412000
3000
Nhưng không có bất cứ thứ gì có thể làm cho người ta chú ý đến năm 1950
07:10
like the yearnăm 1950.
169
415000
3000
như chính năm 1950.
07:13
(LaughterTiếng cười)
170
418000
3000
(Tiếng cười)
07:16
People were walkingđi dạo around obsessedbị ám ảnh.
171
421000
2000
Người ta đi lại xung quanh, bị ám ảnh.
07:18
They couldn'tkhông thể stop talkingđang nói
172
423000
2000
Họ không thể dừng nói
07:20
about all the things they did in 1950,
173
425000
3000
về tất cả những thứ họ làm trong năm 1950
07:23
all the things they were planninglập kế hoạch to do in 1950,
174
428000
3000
tất cả những thứ họ đang định làm trong năm 1950
07:26
all the dreamsnhững giấc mơ of what they wanted to accomplishhoàn thành in 1950.
175
431000
5000
tất cả những giấc mơ họ muốn đạt được trong năm 1950.
07:31
In factthực tế, 1950 was so fascinatinghấp dẫn
176
436000
2000
Thực tế 1950 tuyệt vời đến nỗi
07:33
that for yearsnăm thereaftersau đó,
177
438000
2000
nhiều năm sau đó,
07:35
people just keptgiữ talkingđang nói about all the amazingkinh ngạc things that happenedđã xảy ra,
178
440000
3000
người ta vẫn cứ nói đến những điều kinh ngạc đã xảy ra.
07:38
in '51, '52, '53.
179
443000
2000
trong năm 51, 52, 53.
07:40
FinallyCuối cùng in 1954,
180
445000
2000
Cuối cùng thì đến năm 1954,
07:42
someonengười nào woketỉnh dậy up and realizedthực hiện
181
447000
2000
có người mới thức tỉnh và nhận ra rằng
07:44
that 1950 had gottennhận somewhatphần nào passvượt quaé.
182
449000
4000
1950 đã qua lâu rồi!
07:48
(LaughterTiếng cười)
183
453000
2000
(Tiếng cười)
07:50
And just like that, the bubblebong bóng burstnổ.
184
455000
2000
Và cứ như thế, bong bóng nổ!
07:52
(LaughterTiếng cười)
185
457000
2000
(Tiếng cười)
07:54
And the storycâu chuyện of 1950
186
459000
2000
Câu chuyện của năm 1950
07:56
is the storycâu chuyện of everymỗi yearnăm that we have on recordghi lại,
187
461000
2000
là câu chuyện của từng năm mà chúng ta lưu lại được,
07:58
with a little twisttwist, because now we'vechúng tôi đã got these nicetốt đẹp chartsbiểu đồ.
188
463000
3000
với một chút sự biến hóa nhỏ bởi giờ chúng ta có những biểu đồ hay ho này
08:01
And because we have these nicetốt đẹp chartsbiểu đồ, we can measuređo things.
189
466000
3000
Và bởi vì chúng ta có những biểu đồ hay ho này, chúng ta có thể đo đạc nhiều thứ
08:04
We can say, "Well how fastNhanh does the bubblebong bóng burstnổ?"
190
469000
2000
Chúng ta có thể hỏi rằng ""Bong bóng nổ" nhanh như thế nào?"
08:06
And it turnslượt out that we can measuređo that very preciselyđúng.
191
471000
3000
Và chúng ta có thể đo đạc điều đó một cách chính xác.
08:09
EquationsPhương trình were derivednguồn gốc, graphsđồ thị were producedsản xuất,
192
474000
3000
Các phương trình được tính toán, các đồ thị được vẽ ra,
08:12
and the netmạng lưới resultkết quả
193
477000
2000
và kết quả cuối cùng
08:14
is that we find that the bubblebong bóng burstsvụ nổ fasternhanh hơn and fasternhanh hơn
194
479000
3000
là chúng ta phát hiện ra "bong bóng nổ" ngày càng nhanh
08:17
with eachmỗi passingđi qua yearnăm.
195
482000
2000
qua từng năm.
08:19
We are losingmất interestquan tâm in the pastquá khứ more rapidlynhanh chóng.
196
484000
5000
Chúng ta mất dần sự quan tâm đến quá khứ một cách nhanh chóng.
08:24
JMJM: Now a little piececái of careernghề nghiệp advicekhuyên bảo.
197
489000
2000
JM: Bây giờ chúng tôi sẽ chia sẻ một vài lời khuyên về sự nghiệp cho bạn.
08:26
So for those of you who seektìm kiếm to be famousnổi danh,
198
491000
2000
Cho những ai muốn nổi tiếng,
08:28
we can learnhọc hỏi from the 25 mostphần lớn famousnổi danh politicalchính trị figuressố liệu,
199
493000
2000
chúng ta có thể học từ 25 hình tượng chính trị gia nổi tiếng nhất,
08:30
authorstác giả, actorsdiễn viên and so on.
200
495000
2000
các nhà sáng tác, diễn viên, v.v.v
08:32
So if you want to becometrở nên famousnổi danh earlysớm on, you should be an actordiễn viên,
201
497000
3000
Vì vậy nếu bạn muốn nổi tiếng sớm, bạn nên làm diễn viên,
08:35
because then famedanh tiếng startsbắt đầu risingtăng lên by the endkết thúc of your 20s --
202
500000
2000
bởi tiếng tăm của bạn sẽ ngày càng tăng cuối những năm 20 của bạn --
08:37
you're still youngtrẻ, it's really great.
203
502000
2000
bạn vẫn còn trẻ, điều đó thật tuyêt.
08:39
Now if you can wait a little bitbit, you should be an authortác giả,
204
504000
2000
Nếu bạn có thể đợi một chút, bạn nên làm tiểu thuyết gia,
08:41
because then you risetăng lên to very great heightsđộ cao,
205
506000
2000
bởi rồi bạn sẽ đầy tiếng tăm
08:43
like MarkMark TwainTwain, for instanceví dụ: extremelyvô cùng famousnổi danh.
206
508000
2000
như Mark Twain, cực kì nổi tiếng.
08:45
But if you want to reachchạm tới the very tophàng đầu,
207
510000
2000
Nhưng nếu bạn muốn vươn đến đỉnh cao nhất,
08:47
you should delaysự chậm trễ gratificationsự hài lòng
208
512000
2000
bạn đừng hài lòng sớm
08:49
and, of coursekhóa học, becometrở nên a politicianchính trị gia.
209
514000
2000
mà hãy trở thành nhà chính trị.
08:51
So here you will becometrở nên famousnổi danh by the endkết thúc of your 50s,
210
516000
2000
Bạn sẽ trở nên nổi tiếng cuối những năm 50 tuổi
08:53
and becometrở nên very, very famousnổi danh afterwardsau đó.
211
518000
2000
và sẽ càng nổi tiếng hơn sau đó
08:55
So scientistscác nhà khoa học alsocũng thế tendcó xu hướng to get famousnổi danh when they're much olderlớn hơn.
212
520000
3000
Những nhà khoa học cũng trở nên nổi tiếng khi họ già đi.
08:58
Like for instanceví dụ, biologistsnhà sinh vật học and physicsvật lý
213
523000
2000
Ví dụ như là nhà sinh học, nhà vật lý học
09:00
tendcó xu hướng to be almosthầu hết as famousnổi danh as actorsdiễn viên.
214
525000
2000
có khuynh hướng nổi tiếng gần bằng diễn viên.
09:02
One mistakesai lầm you should not do is becometrở nên a mathematiciannhà toán học.
215
527000
3000
Có một sai lầm mà bạn không nên phạm phải là trở thành nhà toán học.
09:05
(LaughterTiếng cười)
216
530000
2000
(Tiếng cười)
09:07
If you do that,
217
532000
2000
Nếu bạn làm điều đó
09:09
you mightcó thể think, "Oh great. I'm going to do my besttốt work when I'm in my 20s."
218
534000
3000
bạn có thể sẽ nghĩ rằng "Thật tuyệt. Mìng sẽ cố gắng hết sức trong những năm tuổi 20."
09:12
But guessphỏng đoán what, nobodykhông ai will really carequan tâm.
219
537000
2000
Nhưng đoán thử đi, làm gì có ai quan tâm.
09:14
(LaughterTiếng cười)
220
539000
3000
(Tiếng cười)
09:17
ELAELA: There are more soberingnghiêm túc notesghi chú
221
542000
2000
ELA: Còn có nhiều ghi chú nghiêm túc hơn thế này
09:19
amongtrong số the n-gramsn-gam.
222
544000
2000
trong những n-gram đó.
09:21
For instanceví dụ, here'sđây là the trajectoryquỹ đạo of MarcMarc ChagallChagall,
223
546000
2000
Ví dụ, đây là đường phát triển của Marc Chagall,
09:23
an artisthọa sĩ bornsinh ra in 1887.
224
548000
2000
một nghệ sĩ sinh năm 1887.
09:25
And this looksnhìn like the normalbình thường trajectoryquỹ đạo of a famousnổi danh personngười.
225
550000
3000
Và nó giống con đường phát triển bình thường của một người nổi tiếng.
09:28
He getsđược more and more and more famousnổi danh,
226
553000
4000
Ông ta càng ngày càng nổi tiếng,
09:32
exceptngoại trừ if you look in GermanĐức.
227
557000
2000
trừ khi bạn nhìn vào nước Đức.
09:34
If you look in GermanĐức, you see something completelyhoàn toàn bizarrekỳ lạ,
228
559000
2000
Nếu bạn nhìn vào nước Đức, bạn sẽ thấy một thứ hoàn toàn lạ
09:36
something you prettyđẹp much never see,
229
561000
2000
một thứ bạn chưa bao giờ thấy,
09:38
which is he becomestrở thành extremelyvô cùng famousnổi danh
230
563000
2000
đó là sự cực kì nổi tiếng của ông ấy
09:40
and then all of a suddenđột nhiên plummetsplummets,
231
565000
2000
và rồi bất ngờ tụt dốc thảm hại,
09:42
going throughxuyên qua a nadirThiên để betweengiữa 1933 and 1945,
232
567000
3000
cho đến tận cùng trong những năm 1933 và 1945 ,
09:45
before reboundingrebounding afterwardsau đó.
233
570000
3000
rồi lại hồi phục danh tiếng sau đó.
09:48
And of coursekhóa học, what we're seeingthấy
234
573000
2000
Dĩ nhiên là chúng ta nhận ra rằng
09:50
is the factthực tế MarcMarc ChagallChagall was a JewishDo Thái artisthọa sĩ
235
575000
3000
sự thật thì Marc Chagall là một nghệ sĩ do thái
09:53
in NaziĐức Quốc xã GermanyĐức.
236
578000
2000
của quốc xã Đức.
09:55
Now these signalstín hiệu
237
580000
2000
Bây giờ, những dấu hiệu này
09:57
are actuallythực ra so strongmạnh
238
582000
2000
thực sự rất chuẩn
09:59
that we don't need to know that someonengười nào was censoredkiểm duyệt.
239
584000
3000
đến mức mà chúng ta không cần ai phải kiểm duyệt chúng.
10:02
We can actuallythực ra figurenhân vật it out
240
587000
2000
Chúng ta tự nhận ra sự việc
10:04
usingsử dụng really basiccăn bản signaltín hiệu processingChế biến.
241
589000
2000
bằng cách xử lý những dấu hiệu thật cơ bản.
10:06
Here'sĐây là a simpleđơn giản way to do it.
242
591000
2000
Đây là một trong những cách đơn giản.
10:08
Well, a reasonablehợp lý expectationkỳ vọng
243
593000
2000
Chẳng hạn như một dự đoán hợp lý
10:10
is that somebody'sai đó famedanh tiếng in a givenđược periodgiai đoạn of time
244
595000
2000
rằng danh tiếng trong một khoảng thời gian nhất định
10:12
should be roughlygần the averageTrung bình cộng of theirhọ famedanh tiếng before
245
597000
2000
sẽ bằng trung bình của danh tiếng trước
10:14
and theirhọ famedanh tiếng after.
246
599000
2000
và sau đó chia ra.
10:16
So that's sortsắp xếp of what we expectchờ đợi.
247
601000
2000
Đó là thứ chúng ta dự đoán.
10:18
And we compareso sánh that to the famedanh tiếng that we observequan sát.
248
603000
3000
Rồi chúng ta so sánh nó với mức độ nổi tiếng chúng ta quan sát được.
10:21
And we just dividechia one by the other
249
606000
2000
Chúng ta chia cái nó với mức độ dự đoán kia.
10:23
to producesản xuất something we call a suppressionức chế indexmục lục.
250
608000
2000
để được cái gọi là "mức độ danh tiếng bị kìm hãm"
10:25
If the suppressionức chế indexmục lục is very, very, very smallnhỏ bé,
251
610000
3000
Nếu mức độ danh tiếng bị kìm hãm rất rất nhỏ ,
10:28
then you very well mightcó thể be beingđang suppressedbị đàn áp.
252
613000
2000
thì bạn có lẽ đang bị kìm hãm.
10:30
If it's very largelớn, maybe you're benefitinghưởng lợi from propagandatuyên truyền.
253
615000
3000
Nếu nó rất rất lớn, thì có lẽ bạn đang được lợi từ cơ quan tuyên truyền
10:34
JMJM: Now you can actuallythực ra look at
254
619000
2000
JM: Giờ bạn hãy nhìn vào
10:36
the distributionphân phối of suppressionức chế indexeschỉ số over wholetoàn thể populationsdân số.
255
621000
3000
sự phân phối của mức độ bị kìm hãm trên toàn dân số.
10:39
So for instanceví dụ, here --
256
624000
2000
Ví dụ ở đây --
10:41
this suppressionức chế indexmục lục is for 5,000 people
257
626000
2000
mức độ danh tiếng bị kìm hãm này của 5000 người
10:43
pickedđã chọn in EnglishTiếng Anh bookssách where there's no knownnổi tiếng suppressionức chế --
258
628000
2000
chọn ra trong những cuốn sách tiếng anh không có sự kìm hãm được biết đến --
10:45
it would be like this, basicallyvề cơ bản tightlychặt chẽ centeredTrung tâm on one.
259
630000
2000
nó sẽ như thế này, hầu như gần bằng 1.
10:47
What you expectchờ đợi is basicallyvề cơ bản what you observequan sát.
260
632000
2000
Điều bạn mong muốn đơn giản chính là điều bạn quan sát được.
10:49
This is distributionphân phối as seenđã xem in GermanyĐức --
261
634000
2000
Đây là sự phân phối được thấy ở Đức --
10:51
very differentkhác nhau, it's shiftedchuyển to the left.
262
636000
2000
rất khác, nó được dịch chuyển về bên trái.
10:53
People talkednói chuyện about it twicehai lần lessít hơn as it should have been.
263
638000
3000
Người ta đã nói về nó ít hơn hai lần nó đáng được.
10:56
But much more importantlyquan trọng, the distributionphân phối is much widerrộng hơn.
264
641000
2000
Nhưng quan trọng hơn hết là sự phân phối này trải rộng hơn nhiều .
10:58
There are manynhiều people who endkết thúc up on the farxa left on this distributionphân phối
265
643000
3000
Có nhiều người cuối cùng lại ở xa hơn về phía trái của sự phân phối này
11:01
who are talkednói chuyện about 10 timeslần fewerít hơn than they should have been.
266
646000
3000
những người được ít hơn đến 10 lần danh tiếng mà họ đáng có.
11:04
But then alsocũng thế manynhiều people on the farxa right
267
649000
2000
Nhưng đồng thời cũng có rất nhiều người ở xa phía bên phải
11:06
who seemhình như to benefitlợi ích from propagandatuyên truyền.
268
651000
2000
họ dường như đang hưởng lợi từ giới tuyên truyền.
11:08
This picturehình ảnh is the hallmarkHallmark of censorshipkiểm duyệt in the booksách recordghi lại.
269
653000
3000
Bức tranh này chính là dấu đóng của sự kiểm duyệt sách.
11:11
ELAELA: So culturomicsculturomics
270
656000
2000
ELA: Chúng tôi gọi phương pháp này
11:13
is what we call this methodphương pháp.
271
658000
2000
là văn hoá học.
11:15
It's kindloại of like genomicsbộ gen.
272
660000
2000
Giống như di truyền học.
11:17
ExceptNgoại trừ genomicsbộ gen is a lensống kính on biologysinh học
273
662000
2000
Khác ở chỗ di truyền học là ống kính của sinh học
11:19
throughxuyên qua the windowcửa sổ of the sequencetrình tự of basescăn cứ in the humanNhân loại genomebộ gen.
274
664000
3000
qua cửa sổ nhìn vào chuỗi nền tảng trong hệ gen của con người.
11:22
CulturomicsCulturomics is similargiống.
275
667000
2000
Văn hoá học cũng tương tự.
11:24
It's the applicationứng dụng of massive-scalequy mô lớn datadữ liệu collectionbộ sưu tập analysisphân tích
276
669000
3000
Nó là sự ứng dụng của sự phân tích hàng loạt dữ liệu trên qui mô lớn
11:27
to the studyhọc of humanNhân loại culturenền văn hóa.
277
672000
2000
vào việc nghiên cứu văn hoá con người.
11:29
Here, insteadthay thế of throughxuyên qua the lensống kính of a genomebộ gen,
278
674000
2000
Tại đây, qua ống kính của dữ liệu lịch sử đã được số hoá.
11:31
throughxuyên qua the lensống kính of digitizedsố hóa piecesmiếng of the historicallịch sử recordghi lại.
279
676000
3000
thay vì qua ống kính của hệ gien.
11:34
The great thing about culturomicsculturomics
280
679000
2000
Điều tuyệt vời về văn hoá học
11:36
is that everyonetất cả mọi người can do it.
281
681000
2000
là ai cũng có thể thực hiện được nó.
11:38
Why can everyonetất cả mọi người do it?
282
683000
2000
Tại sao mọi người đều có thể thực hiện?
11:40
EveryoneTất cả mọi người can do it because threesố ba guys,
283
685000
2000
Mọi người đều có thể làm điều đó là nhờ ba người ,
11:42
JonJon OrwantOrwant, MattMatt GrayMàu xám and Will BrockmanBrockman over at GoogleGoogle,
284
687000
3000
Jon Orwant, Matt Gray và Will Brockman của Google
11:45
saw the prototypenguyên mẫu of the NgramNgram ViewerNgười xem,
285
690000
2000
nhìn thấy bản đồ mẫu của Ngram Viewer,
11:47
and they said, "This is so funvui vẻ.
286
692000
2000
và nói rằng "Cái này thật hay!
11:49
We have to make this availablecó sẵn for people."
287
694000
3000
Chúng ta phải làm thứ này cho mọi người dùng."
11:52
So in two weekstuần flatbằng phẳng -- the two weekstuần before our papergiấy cameđã đến out --
288
697000
2000
Thế là trong chỉ hai tuần -- hai tuần trước khi bài luận văn của chúng tôi hoàn thành --
11:54
they codedmã hoá up a versionphiên bản of the NgramNgram ViewerNgười xem for the generalchung publiccông cộng.
289
699000
3000
họ đã lập trình một phiên bản của NGram Viewer cho công chúng.
11:57
And so you too can typekiểu in any wordtừ or phrasecụm từ that you're interestedquan tâm in
290
702000
3000
Bạn có thể đánh một từ nào đó mà bạn thích
12:00
and see its n-gramn-gam immediatelyngay --
291
705000
2000
và xem n-gram của nó ngay lập tức --
12:02
alsocũng thế browsetrình duyệt examplesví dụ of all the variousnhiều bookssách
292
707000
2000
và cũng có thể xem ví dụ của tất cả các cuốn sách khác nhau
12:04
in which your n-gramn-gam appearsxuất hiện.
293
709000
2000
mà n-gram xuất hiện trong đó.
12:06
JMJM: Now this was used over a milliontriệu timeslần on the first day,
294
711000
2000
JM : Nó được sử dụng hơn một triệu lần vào ngày đầu tiên,
12:08
and this is really the besttốt of all the queriestruy vấn.
295
713000
2000
và đây thực sự là câu chất vấn hay nhất.
12:10
So people want to be theirhọ besttốt, put theirhọ besttốt footchân forwardphía trước.
296
715000
3000
Người ta muốn cố gắng hết sức, bước bước chân chắc nhất về phía trước.
12:13
But it turnslượt out in the 18ththứ centurythế kỷ, people didn't really carequan tâm about that at all.
297
718000
3000
Nhưng hoá ra vào thế kỉ 18, người ta không hề thực sự quan tâm đến điều đó .
12:16
They didn't want to be theirhọ besttốt, they wanted to be theirhọ beftbeft.
298
721000
3000
Họ không muốn là "best", họ chỉ muốn là "beft".
12:19
So what happenedđã xảy ra is, of coursekhóa học, this is just a mistakesai lầm.
299
724000
3000
Dĩ nhiên thật ra đó chỉ là một lỗi chính tả.
12:22
It's not that stroveStrove for mediocritytầm thường,
300
727000
2000
không có gì to tát cả,
12:24
it's just that the S used to be writtenbằng văn bản differentlykhác, kindloại of like an F.
301
729000
3000
chỉ là S từng được viết theo cách khác, gần giống chữ F.
12:27
Now of coursekhóa học, GoogleGoogle didn't pickchọn this up at the time,
302
732000
3000
Dĩ nhiên, Google lúc đó đã không để ý đến điều này,
12:30
so we reportedbáo cáo this in the sciencekhoa học articlebài báo that we wroteđã viết.
303
735000
3000
nên chúng tôi đã viết về điều đó trong một bài báo cáo khoa học.
12:33
But it turnslượt out this is just a remindernhắc nhở
304
738000
2000
Nhưng hoá ra đây chỉ là một sự nhắc nhở
12:35
that, althoughmặc dù this is a lot of funvui vẻ,
305
740000
2000
rằng dù có hay đến đâu chăng nữa
12:37
when you interpretgiải thích these graphsđồ thị, you have to be very carefulcẩn thận,
306
742000
2000
thì khi bạn tìm cách hiểu những biểu đồ này, bạn phải vô cùng cẩn thận,
12:39
and you have to adoptthông qua the basecăn cứ standardstiêu chuẩn in the scienceskhoa học.
307
744000
3000
và bạn phải áp dụng những chuẩn mực nền tảng trong khoa học.
12:42
ELAELA: People have been usingsử dụng this for all kindscác loại of funvui vẻ purposesmục đích.
308
747000
3000
ELA : Người ta dùng phương pháp này cho đủ thứ mục đích hài hước.
12:45
(LaughterTiếng cười)
309
750000
7000
(Tiếng cười)
12:52
ActuallyTrên thực tế, we're not going to have to talk,
310
757000
2000
Thực ra chúng tôi không nhất thiết phải nói,
12:54
we're just going to showchỉ you all the slidesslide and remainvẫn còn silentim lặng.
311
759000
3000
chúng tôi sẽ chỉ cho các bạn xem tất cả những bức hình này và giữ yên lặng.
12:57
This personngười was interestedquan tâm in the historylịch sử of frustrationthất vọng.
312
762000
3000
Người này muốn biết về lịch sử của sự giận dữ.
13:00
There's variousnhiều typesloại of frustrationthất vọng.
313
765000
3000
Có rất nhiều loại giận dữ.
13:03
If you stubsơ khai your toengón chân, that's a one A "arghArgh."
314
768000
3000
Nếu bạn bị vấp chân, đó sẽ là một chữ A "argh".
13:06
If the planethành tinh EarthTrái đất is annihilatedtiêu diệt by the VogonsVogons
315
771000
2000
Nếu trái đất bị xâm chiếm bởi người Vogons
13:08
to make roomphòng for an interstellarliên sao bypassbỏ qua,
316
773000
2000
để làm đường giữ thông tin liên lạc giữa các vì sao.
13:10
that's an eighttám A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
đó sẽ là tám chữ A "aaaaaaaarg"
13:12
This personngười studieshọc all the "arghsarghs,"
318
777000
2000
Người này nghiên cứu tất cả "arghs"
13:14
from one throughxuyên qua eighttám A'sA's.
319
779000
2000
từ một cho đến tám chữ "A".
13:16
And it turnslượt out
320
781000
2000
Và kết quả là
13:18
that the less-frequentít thường xuyên "arghsarghs"
321
783000
2000
Từ "arghs" với ít chữ A
13:20
are, of coursekhóa học, the onesnhững người that correspondtương ứng to things that are more frustratingbực bội --
322
785000
3000
tất nhiên tương ứng với những thứ gây nhiều tức giận hơn.
13:23
exceptngoại trừ, oddlykỳ quặc, in the earlysớm 80s.
323
788000
3000
ngoại trừ trong những năm đầu của thập niên 80, thật kì lạ!
13:26
We think that mightcó thể have something to do with ReaganReagan.
324
791000
2000
Chúng tôi cho rằng điều này có lẽ có liên quan đến Reegan.
13:28
(LaughterTiếng cười)
325
793000
2000
(Tiếng cười)
13:30
JMJM: There are manynhiều usagestập quán of this datadữ liệu,
326
795000
3000
JM: Có rất nhiều cách sử dụng dữ liệu này,
13:33
but the bottomđáy linehàng is that the historicallịch sử recordghi lại is beingđang digitizedsố hóa.
327
798000
3000
nhưng điều mấu chốt là hồ sơ lịch sử đang được số hoá.
13:36
GoogleGoogle has startedbắt đầu to digitizesố hoá 15 milliontriệu bookssách.
328
801000
2000
Google đã số hoá 15 triệu cuốn sách.
13:38
That's 12 percentphần trăm of all the bookssách that have ever been publishedđược phát hành.
329
803000
2000
Đó là 12 phần trăm của tất cả những cuốn sách đã từng được xuất bản.
13:40
It's a sizablekhá lớn chunkmảnh of humanNhân loại culturenền văn hóa.
330
805000
3000
Đó là một tảng lớn đáng kể của văn hoá loài người.
13:43
There's much more in culturenền văn hóa: there's manuscriptsbản thảo, there newspapersBáo,
331
808000
3000
Còn rất nhiều của nền văn hoá: nào là những bản viết tay, nào là báo chí,
13:46
there's things that are not textbản văn, like artnghệ thuật and paintingsnhững bức tranh.
332
811000
2000
nào là những thứ không phải là chữ mà là nghệ thuật và những bức tranh.
13:48
These all happenxảy ra to be on our computersmáy vi tính,
333
813000
2000
Những thứ này tình cờ lại có trong máy tính của chúng ta,
13:50
on computersmáy vi tính acrossbăng qua the worldthế giới.
334
815000
2000
trên những chiếc máy tính trên khắp thế giới.
13:52
And when that happensxảy ra, that will transformbiến đổi the way we have
335
817000
3000
Khi điều đó xảy ra, nó sẽ thay đổi cách chúng ta
13:55
to understandhiểu không our pastquá khứ, our presenthiện tại and humanNhân loại culturenền văn hóa.
336
820000
2000
hiểu về quá khứ, hiện tại và nền văn hóa con người.
13:57
Thank you very much.
337
822000
2000
Cảm ơn rất nhiều.
13:59
(ApplauseVỗ tay)
338
824000
3000
(Vỗ tay)
Translated by Ha Thu Hai
Reviewed by Duc Nguyen

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com