ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

5백만권의 책을 통해 우리가 배운 것들

Filmed:
2,049,453 views

구글 실험실의 'Ngram 뷰어' 를 이용해본 적이 있나요? 그것은 사용자가 여러 세기에서 걸친약 5백만권의 데이터베이스에서 단어와 아이디어들을 검색할 수 있게 해주는 중독성있는 도구입니다. 이레즈 리버맨 에이든과 (Erez Lieberman) 장 뱊티스트 미쉘이 (Jean-Baptiste MIchael)이 그것이 어떻게 작동하는지 보여주고 또 5천억이 넘는 단어들을 통해 우리가 배울 수 있는 몇가지 놀라운 점들 알려줍니다.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
Erez에레 즈 Lieberman리버맨 Aiden에이든: Everyone각자 모두 knows알고있다
0
0
2000
이레즈: 누구나 아는
00:17
that a picture그림 is worth가치 a thousand words.
1
2000
3000
'백문이 불여일견'이라는 말이 있습니다.
00:22
But we at Harvard하버드
2
7000
2000
하지만 하버드에서 우리는
00:24
were wondering궁금해하는 if this was really true참된.
3
9000
3000
저 말이 참인지 거짓인지를 논하곤 했죠.
00:27
(Laughter웃음)
4
12000
2000
(웃음)
00:29
So we assembled조립 된 a team of experts전문가,
5
14000
4000
그래서 우리는 하버트와 MIT에 걸쳐
00:33
spanning스패닝 Harvard하버드, MITMIT,
6
18000
2000
전문가들을 모집하고
00:35
The American미국 사람 Heritage세습 재산 Dictionary사전, The Encyclopedia백과 사전 Britannica브리태니커
7
20000
3000
아메리칸 헤리티지 사전, 브리태니커 백과사전
00:38
and even our proud교만한 sponsors후원자,
8
23000
2000
그리고 심지어 우리의 자랑스런 후원,
00:40
the GoogleGoogle.
9
25000
3000
구글까지 포괄하는 팀을 구성했습니다.
00:43
And we cogitatedcogitated about this
10
28000
2000
그리고 우리는 이것에 대해
00:45
for about four years연령.
11
30000
2000
약 4년 동안 깊이있게 연구했죠.
00:47
And we came왔다 to a startling깜짝 놀라게하는 conclusion결론.
12
32000
5000
우리는 놀라운 결론에 도달했습니다.
00:52
Ladies숙녀 and gentlemen신사, a picture그림 is not worth가치 a thousand words.
13
37000
3000
신사 숙녀 여러분, 한 그림은 천 단어의 가치가 없습니다. [역: '일견'이 백문의 가치가 되지 않습니다.]
00:55
In fact, we found녹이다 some pictures영화
14
40000
2000
사실, 우리는 몇 가지 사진들의 경우
00:57
that are worth가치 500 billion십억 words.
15
42000
5000
5천억 단어 정도의 가치가 있음을 발견했죠.
01:02
Jean-Baptiste진 - 밥티스트 Michel미셸: So how did we get to this conclusion결론?
16
47000
2000
미셸 : 어떻게 우리가 이 결론에 도달했을까요?
01:04
So Erez에레 즈 and I were thinking생각 about ways
17
49000
2000
이레즈와 전, 연구 방법에 대해 생각하고 있었습니다.
01:06
to get a big picture그림 of human인간의 culture문화
18
51000
2000
어떻게 하면 인간 문화와 역사의 큰 그림을
01:08
and human인간의 history역사: change변화 over time.
19
53000
3000
얻을 수 있을까: 시간에 따라 변화되는 것을 포함해서
01:11
So many많은 books서적 actually사실은 have been written over the years연령.
20
56000
2000
실제로 수 많은 책들은 지난 수년 동안 기록되었습니다.
01:13
So we were thinking생각, well the best베스트 way to learn배우다 from them
21
58000
2000
그래서 우리가 그들로 부터 배울 수 있는 가장 좋은 방법은
01:15
is to read독서 all of these millions수백만 of books서적.
22
60000
2000
이 수천 수만권의 책들을 다 읽는거라 생각했습니다.
01:17
Now of course코스, if there's a scale규모 for how awesome대단한 that is,
23
62000
3000
물론, 저 일이 얼마나 멋진 일인지 측정할 수 있다면
01:20
that has to rank계급 extremely매우, extremely매우 high높은.
24
65000
3000
저것은 매우, 아주 높은 순위가 매겨질 것입니다.
01:23
Now the problem문제 is there's an X-axisX 축 for that,
25
68000
2000
문제는, 그곳에 x축이 있다는 거죠.
01:25
which어느 is the practical실용적인 axis중심선.
26
70000
2000
실용성을 나타내는 축이죠.
01:27
This is very, very low낮은.
27
72000
2000
이 축에서의 점수는 매우 낮습니다.
01:29
(Applause박수 갈채)
28
74000
3000
(박수)
01:32
Now people tend지키다 to use an alternative대안 approach접근,
29
77000
3000
현재, 사람들은 대안으로 몇 가지 소스들을
01:35
which어느 is to take a few조금 sources원천 and read독서 them very carefully면밀히.
30
80000
2000
선택해서 그것들을 주의깊게 읽어나가죠.
01:37
This is extremely매우 practical실용적인, but not so awesome대단한.
31
82000
2000
이 방식은 매우 실용적이지만 아주 멋지지는 않습니다.
01:39
What you really want to do
32
84000
3000
당신이 정말하고 원하는 것은
01:42
is to get to the awesome대단한 yet아직 practical실용적인 part부품 of this space공간.
33
87000
3000
아주 멋진 일을 아주 실용적으로 하는 거죠.
01:45
So it turns회전 out there was a company회사 across건너서 the river called전화 한 GoogleGoogle
34
90000
3000
그래서 보니 강 건너에 구글이라 불리는 회사가 있더군요.
01:48
who had started시작한 a digitization디지털화 project계획 a few조금 years연령 back
35
93000
2000
몇 년 전에 디지털화 프로젝트를 시작했었던 회사죠.
01:50
that might just enable가능하게하다 this approach접근.
36
95000
2000
그것이 우리의 접근방식을 가능케 할수도 있겠더군요.
01:52
They have digitized디지털화 된 millions수백만 of books서적.
37
97000
2000
그들은 수백만권의 책을 디지털화 했습니다.
01:54
So what that means방법 is, one could use computational전산의 methods행동 양식
38
99000
3000
그것이 무슨 뜻인고 하니, 누군가 원하면 단 하나의 클릭으로
01:57
to read독서 all of the books서적 in a click딸깍 하는 소리 of a button단추.
39
102000
2000
책을 한권을 훑어볼 수 있다는 뜻이죠.
01:59
That's very practical실용적인 and extremely매우 awesome대단한.
40
104000
3000
아주 실용적이이며 극도로 멋진 일이죠.
02:03
ELA영어 연수: Let me tell you a little bit비트 about where books서적 come from.
41
108000
2000
이레즈: 제가 책들이 어디서 왔는지 설명을 좀 하죠.
02:05
Since이후 time immemorial태고의, there have been authors저자.
42
110000
3000
태고적부터, 작가는 늘 존재해 왔습니다.
02:08
These authors저자 have been striving노력하다 to write쓰다 books서적.
43
113000
3000
이 저자들은 책을 쓰기 위해 분투해왔죠.
02:11
And this became되었다 considerably상당히 easier더 쉬운
44
116000
2000
그 일은 점점 쉬워졋습니다.
02:13
with the development개발 of the printing인쇄 press프레스 some centuries세기 ago...전에.
45
118000
2000
몇 세기전의 인쇄기 발달과 함께말이죠.
02:15
Since이후 then, the authors저자 have won
46
120000
3000
그 이후로 부터는 저자들의 승리였죠.
02:18
on 129 million백만 distinct뚜렷한 occasions용무,
47
123000
2000
뚜렷이 1억2천9백만번 동안
02:20
publishing출판 books서적.
48
125000
2000
책을 출판했으니까요
02:22
Now if those books서적 are not lost잃어버린 to history역사,
49
127000
2000
역사 속에 분실되지 않았다면 해당 도서는
02:24
then they are somewhere어딘가에 in a library도서관,
50
129000
2000
지금 어느 도서관 어딘가에 있는 것입니다.
02:26
and many많은 of those books서적 have been getting점점 retrieved검색된 from the libraries도서관
51
131000
3000
그 도서의 대부분이 도서관에서 회수되어져
02:29
and digitized디지털화 된 by GoogleGoogle,
52
134000
2000
구글에 의해 디지털화 되고 있습니다.
02:31
which어느 has scanned스캔 한 15 million백만 books서적 to date날짜.
53
136000
2000
현재까지 천오백만권의 도서를 스캔했습니다.
02:33
Now when GoogleGoogle digitizes디지털화하다 a book도서, they put it into a really nice좋은 format체재.
54
138000
3000
지금 구글이 책을 디지털화하면, 좋은 포맷으로 바꿔두죠.
02:36
Now we've우리는 got the data데이터, plus...을 더한 we have metadata메타 데이터.
55
141000
2000
이제 우리는 데이터가 있고 그에 관한 속성 정보까지 있죠.
02:38
We have information정보 about things like where was it published출판 된,
56
143000
3000
우리에겐 그것이 어디서 출판되었고 누가 썼으며
02:41
who was the author저자, when was it published출판 된.
57
146000
2000
언제 발행되었는지에 관한 정보도 있습니다.
02:43
And what we do is go through...을 통하여 all of those records기록들
58
148000
3000
해서, 우리가 가진 모든 자료들을 훑어서
02:46
and exclude들어오지 못하게 하다 everything that's not the highest제일 높은 quality품질 data데이터.
59
151000
4000
상태가 좋지않은 데이터는 전부 제하여
02:50
What we're left with
60
155000
2000
추려서 남은 것이
02:52
is a collection수집 of five다섯 million백만 books서적,
61
157000
3000
오백만권의 책 입니다.
02:55
500 billion십억 words,
62
160000
3000
5천억개의 단어들,
02:58
a string of characters문자들 a thousand times타임스 longer더 길게
63
163000
2000
일렬로 나열했을 경우
03:00
than the human인간의 genome게놈 --
64
165000
3000
우리 유전자의 총체, 인간 게놈보다 천배 이상 긴 겁니다.
03:03
a text본문 which어느, when written out,
65
168000
2000
이 텍스트들을 모두 모아서
03:05
would stretch뻗기 from here to the Moon and back
66
170000
2000
한 줄로 쓰면 여기서 달까지
03:07
10 times타임스 over --
67
172000
2000
10번 왔다갔다 할 만큼 나오죠.
03:09
a veritable진실의 shard사금파리 of our cultural문화적 genome게놈.
68
174000
4000
진정 우리 문화 게놈의 한 조각이라 할 수 있죠.
03:13
Of course코스 what we did
69
178000
2000
물론 이런 말도 안되는 과장에 직면하게 되면
03:15
when faced직면 한 with such이러한 outrageous터무니없는 hyperbole과장 ...
70
180000
3000
우리가 할 수 있는 일이라곤
03:18
(Laughter웃음)
71
183000
2000
(웃음)
03:20
was what any self-respecting자존심 researchers연구원
72
185000
3000
자존감있는 연구원이라면
03:23
would have done끝난.
73
188000
3000
누구나 했을 법한 일이죠.
03:26
We took~했다 a page페이지 out of XKCDXKCD,
74
191000
2000
XKCD의 한 페이지를 꺼내 들고
03:28
and we said, "Stand back.
75
193000
2000
외치는 거죠. "뒤로 물러나.
03:30
We're going to try science과학."
76
195000
2000
우리는 이제 과학을 시도 할 것이야."
03:32
(Laughter웃음)
77
197000
2000
(웃음) [역: XKCD.com 미국의 유명 웹툰. 웹사이트에서 해당 문구의 티셔츠를 판매하고 있음]
03:34
JMJM: Now of course코스, we were thinking생각,
78
199000
2000
JM은 : 지금은 물론, 우리는 생각하고 있었죠,
03:36
well let's just first put the data데이터 out there
79
201000
2000
물론 그냥 먼저 밖으로 데이터를 넣어 봅시다
03:38
for people to do science과학 to it.
80
203000
2000
그것을 할 과학을 하는 사람들을 위해서말이죠.
03:40
Now we're thinking생각, what data데이터 can we release해제?
81
205000
2000
지금 우리가 생각하고, 우리는 어떤 데이터를 공개할 수 있습니까?
03:42
Well of course코스, you want to take the books서적
82
207000
2000
그럼요, 당신은 책을 취해서
03:44
and release해제 the full완전한 text본문 of these five다섯 million백만 books서적.
83
209000
2000
이러한 오백만 도서의 전체 텍스트를 놓고 싶어합니다.
03:46
Now GoogleGoogle, and Jon OrwantOrwant in particular특별한,
84
211000
2000
특히 이제 Google과 존 Orwant,
03:48
told us a little equation방정식 that we should learn배우다.
85
213000
2000
우리가 배워야할 방정식이 조금있다고 말했습니다.
03:50
So you have five다섯 million백만, that is, five다섯 million백만 authors저자
86
215000
3000
그래서 5 백만 작가, 즉, 5 백만 달러를 가지고
03:53
and five다섯 million백만 plaintiffs원고 is a massive거대한 lawsuit소송.
87
218000
3000
그리고 5 백만 원고측은 대규모의 소송이다.
03:56
So, although이기는 하지만 that would be really, really awesome대단한,
88
221000
2000
그럼, 그건 정말 굉장한 것이긴 하지만
03:58
again, that's extremely매우, extremely매우 impractical비실용적 인.
89
223000
3000
다시말해, 그건 극히, 극히 비실용적입니다.
04:01
(Laughter웃음)
90
226000
2000
(웃음)
04:03
Now again, we kind종류 of caved움푹 들어간 in,
91
228000
2000
이제 다시, 우리는 굴복한것처럼 되어서,
04:05
and we did the very practical실용적인 approach접근, which어느 was a bit비트 less적게 awesome대단한.
92
230000
3000
그리고 약간 덜 굉장하지만, 아주 실용적인 접근을 하게 되었습니다.
04:08
We said, well instead대신에 of releasing풀어주는 the full완전한 text본문,
93
233000
2000
우리가 말하길, "글쎄, 전체 텍스트를 발표하는 대신
04:10
we're going to release해제 statistics통계 about the books서적.
94
235000
2000
우리는 도서에 대한 통계를 공개할거야.
04:12
So take for instance "A gleam번득임 of happiness행복."
95
237000
2000
예를 들어, '행복의 광채"를 봅시다.
04:14
It's four words; we call that a four-gram4 그램.
96
239000
2000
그것은 네 단어입니다; 우리는 4 그램이라고 부릅니다.
04:16
We're going to tell you how many많은 times타임스 a particular특별한 four-gram4 그램
97
241000
2000
우리는 특정 4 그램이 1801, 1802, 1803,
04:18
appeared출연 한 in books서적 in 1801, 1802, 1803,
98
243000
2000
2008년까지 죽 올라가서 책에
04:20
all the way up to 2008.
99
245000
2000
몇번이나 나타나는지 여러분께 말할겁니다.
04:22
That gives주는 us a time series시리즈
100
247000
2000
그것은 우리에게 이 특정 문장은 시간이 지남에 따라 얼마나 자주 사용되었는지
04:24
of how frequently자주 this particular특별한 sentence문장 was used over time.
101
249000
2000
시간 시리즈를 제공합니다.
04:26
We do that for all the words and phrases실없는 말 that appear나타나다 in those books서적,
102
251000
3000
우리가 그 도서에 나타나는 모든 단어와 구문에 대해 그렇게 하면,
04:29
and that gives주는 us a big table of two billion십억 lines윤곽
103
254000
3000
그것은 우리에게 이십억 줄의 큰 테이블을 제공하는데
04:32
that tell us about the way culture문화 has been changing작고 보기 흉한 사람.
104
257000
2000
그것은 방식 문화가 변경되는 방법에 관해서 우리에게 알려줍니다.
04:34
ELA영어 연수: So those two billion십억 lines윤곽,
105
259000
2000
ELA : 그럼 그 이십억 라인,
04:36
we call them two billion십억 n-grams그램.
106
261000
2000
우리는 그들 이십억 N -그램.
04:38
What do they tell us?
107
263000
2000
그들이 우리에게 뭐라고 할까요?
04:40
Well the individual개인 n-grams그램 measure법안 cultural문화적 trends동향.
108
265000
2000
그럼 각각의 N - 그램은 문화동향을 측정합니다.
04:42
Let me give you an example.
109
267000
2000
한가지 예를 들어 드리겠습니다.
04:44
Let's suppose가정하다 that I am thriving번성하는,
110
269000
2000
내가 번성하고 있다고 가정해 봅시다
04:46
then tomorrow내일 I want to tell you about how well I did.
111
271000
2000
그러면 내일은 내가 얼마나 잘했는지 말해주고 싶어요.
04:48
And so I might say, "Yesterday어제, I throve폭음하다."
112
273000
3000
그래서 난 "어제 내가 번성했어요(throve)."말할지도 모릅니다.
04:51
Alternatively또는, I could say, "Yesterday어제, I thrived번성 한."
113
276000
3000
또 저는 "어제, 내가 번창했어요 (thrived)." 라고 할 수 도 있습니다.
04:54
Well which어느 one should I use?
114
279000
3000
글쎄, 어떤것을 사용해야 할까요?
04:57
How to know?
115
282000
2000
어떻게 압니까?
04:59
As of about six months개월 ago...전에,
116
284000
2000
약 6 개월 전의 시기에,
05:01
the state상태 of the art미술 in this field
117
286000
2000
이 분야에서 예술의 상태는
05:03
is that you would, for instance,
118
288000
2000
예를 들어, 당신이,
05:05
go up to the following수행원 psychologist심리학자 with fabulous굉장한 hair머리,
119
290000
2000
멋진 머리를 가진 심리학자를 따라 올라가,
05:07
and you'd당신은 say,
120
292000
2000
당신이 말하길,
05:09
"Steve스티브, you're an expert전문가 on the irregular불규칙한 verbs동사.
121
294000
3000
"스티브, 당신은 불규칙 동사에 관한 전문가입니다.
05:12
What should I do?"
122
297000
2000
제가 어떻게 해야 할까요? "
05:14
And he'd그는 tell you, "Well most가장 people say thrived번성 한,
123
299000
2000
그거면 그는, "글쎄요, 대부분의 사람들이 말하길 번성했다(thrive) 고 했지만,
05:16
but some people say throve폭음하다."
124
301000
3000
몇몇 사람은 번창했다(throve) 라고 했어요."
05:19
And you also또한 knew알고 있었다, more or less적게,
125
304000
2000
그래서 여러분은 당신은 또한 다소는
05:21
that if you were to go back in time 200 years연령
126
306000
3000
만일 이백년전 이전으로 거슬러 올라가서
05:24
and ask청하다 the following수행원 statesman정치가 with equally같이 fabulous굉장한 hair머리,
127
309000
3000
그리고, 똑같이 멋진 머리를 가진 다음의 정치가에게 묻는다면,
05:27
(Laughter웃음)
128
312000
3000
(웃음)
05:30
"Tom남자 이름, what should I say?"
129
315000
2000
"톰, 내가 무슨 말을해야합니까?"
05:32
He'd그는 say, "Well, in my day, most가장 people throve폭음하다,
130
317000
2000
그는 "글쎄, 나의 세대는 대부분의 사람들이 번성했다 (throve) 라고 말했지만
05:34
but some thrived번성 한."
131
319000
3000
몇몇사람은 번창했다 (thrive)라고 말했어요." 할겁니다.
05:37
So now what I'm just going to show보여 주다 you is raw노골적인 data데이터.
132
322000
2000
그래서 제가 여러분에게 그냥 보여드리려고 하는것은 원래의 데이터입니다.
05:39
Two rows from this table of two billion십억 entries항목.
133
324000
4000
이십억 항목의 이 테이블에서 두 줄입니다.
05:43
What you're seeing is year by year frequency회수
134
328000
2000
여러분이 지금보고 계시는 것은 번성했다(throve)와 번창했다(thrive)의
05:45
of "thrived번성 한" and "throve폭음하다" over time.
135
330000
3000
오랜시간에 걸친 각 년도의 빈도입니다.
05:49
Now this is just two
136
334000
2000
이제 이십억 행에서
05:51
out of two billion십억 rows.
137
336000
3000
이 두 개만 있습니다
05:54
So the entire완전한 data데이터 set세트
138
339000
2000
따라서 전체 데이터 세트는
05:56
is a billion십억 times타임스 more awesome대단한 than this slide슬라이드.
139
341000
3000
이 슬라이드보다 억 배 이상 굉장한 것입니다.
05:59
(Laughter웃음)
140
344000
2000
(웃음)
06:01
(Applause박수 갈채)
141
346000
4000
(박수)
06:05
JMJM: Now there are many많은 other pictures영화 that are worth가치 500 billion십억 words.
142
350000
2000
JM : 지금 5 백조개단어의 가치가 있는 많은 다른 그림이 있습니다.
06:07
For instance, this one.
143
352000
2000
예를 들어,이것을 보세요.
06:09
If you just take influenza인플루엔자,
144
354000
2000
여러분이 독감을 취할경우,
06:11
you will see peaks봉우리 at the time where you knew알고 있었다
145
356000
2000
여러분은 큰 독감 전염병이 전세계의 사람을 죽이고 있었던것을
06:13
big flu독감 epidemics전염병 were killing죽이는 people around the globe지구.
146
358000
3000
알았던 지점의 가장 최고점 시간을 볼 수 있습니다.
06:16
ELA영어 연수: If you were not yet아직 convinced납득시키다,
147
361000
3000
ELA : 여러분이 아직도 납득되지 않으셨다면,
06:19
sea바다 levels수준 are rising상승,
148
364000
2000
해수면이 상승하고 있으며,
06:21
so is atmospheric대기의 CO콜로라도 주2 and global글로벌 temperature온도.
149
366000
3000
그래서 대기 CO2와 지구의 온도도 상승하고 있습니다.
06:24
JMJM: You might also또한 want to have a look at this particular특별한 n-gram그램,
150
369000
3000
JM : 당신은 또한,이 특정 N - 그램을 보고싶어할지도 모르고,
06:27
and that's to tell Nietzsche니체 that God is not dead죽은,
151
372000
3000
그것은 니체에게 하나님이 죽은것이 아니라고 말하는 것입니다,
06:30
although이기는 하지만 you might agree동의하다 that he might need a better publicist홍보 담당자.
152
375000
3000
여러분은 니체가 더 나은 홍보가가 필요하다는데 동의할 지 모르지만요.
06:33
(Laughter웃음)
153
378000
2000
(웃음)
06:35
ELA영어 연수: You can get at some pretty예쁜 abstract추상 concepts개념들 with this sort종류 of thing.
154
380000
3000
ELA : 당신은 이런 비슷한것들로 꽤 추상적인 개념을 얻을 수 있습니다.
06:38
For instance, let me tell you the history역사
155
383000
2000
예를 들어, 내가 여러분에게 1950년도의 역사를
06:40
of the year 1950.
156
385000
2000
알려드리겠습니다.
06:42
Pretty예쁜 much for the vast거대한 majority과반수 of history역사,
157
387000
2000
역사의 대부분에 대해서
06:44
no one gave a damn조금도 about 1950.
158
389000
2000
그 누구도 1950에 대해 주의를 기울이지 않았습니다
06:46
In 1700, in 1800, in 1900,
159
391000
2000
1700 년, 1800 년, 1900 년에,
06:48
no one cared관심이있는.
160
393000
3000
그 누구도 신경 쓰지 않았어요.
06:52
Through을 통하여 the 30s and 40s,
161
397000
2000
30년대와 40년대를 통과하며,
06:54
no one cared관심이있는.
162
399000
2000
그 누구도 신경 쓰지 않았어요.
06:56
Suddenly갑자기, in the mid-중간 -40s,
163
401000
2000
갑자기 40 년대 중반에
06:58
there started시작한 to be a buzz버저 소리.
164
403000
2000
얘깃거리가 생기기 시작했습니다.
07:00
People realized깨달은 that 1950 was going to happen우연히 있다,
165
405000
2000
사람들은 1950 년이 일어날 것이라는것과
07:02
and it could be big.
166
407000
2000
그게 큰일일 것이라는 것을 깨닫게 되었지요.
07:04
(Laughter웃음)
167
409000
3000
(웃음)
07:07
But nothing got people interested관심있는 in 1950
168
412000
3000
그러나 아무것도 1950 년과 같이
07:10
like the year 1950.
169
415000
3000
1950년에 사람들에게 관심이있는것은 없었습니다.
07:13
(Laughter웃음)
170
418000
3000
(웃음)
07:16
People were walking보행 around obsessed사로 잡힌.
171
421000
2000
사람들은 집착해서 돌아나녔습니다
07:18
They couldn't할 수 없었다 stop talking말하는
172
423000
2000
그들은 그들이 1950 년 한 모든 것에 대해,
07:20
about all the things they did in 1950,
173
425000
3000
말을 멈출수 없었습니다,
07:23
all the things they were planning계획 to do in 1950,
174
428000
3000
그들이 1950년에 할 준비를 하고있던 모든것들,
07:26
all the dreams of what they wanted to accomplish달하다 in 1950.
175
431000
5000
그들이 1950 년에 달성하고 싶어했던 모든 꿈에 대해.
07:31
In fact, 1950 was so fascinating매혹적인
176
436000
2000
사실 1950 년 정말 매혹적이어서
07:33
that for years연령 thereafter그후에,
177
438000
2000
그 이후 년 동안
07:35
people just kept보관 된 talking말하는 about all the amazing놀랄 만한 things that happened일어난,
178
440000
3000
사람들은 51년, 52년, 53년에
07:38
in '51, '52, '53.
179
443000
2000
일어난 모든 놀라운 일들에 대해 얘기를 계속했습니다.
07:40
Finally마침내 in 1954,
180
445000
2000
결국 1954년에,
07:42
someone어떤 사람 woke깨우다 up and realized깨달은
181
447000
2000
누군가가 잠에 깨어 일어나서는
07:44
that 1950 had gotten얻은 somewhat약간 pass패스é.
182
449000
4000
1950은 다소 지나갔다는것을 깨달았습니다.
07:48
(Laughter웃음)
183
453000
2000
(웃음)
07:50
And just like that, the bubble거품 burst파열.
184
455000
2000
그리고 그냥 그렇게, 그 거품이 터졌지요.
07:52
(Laughter웃음)
185
457000
2000
(웃음)
07:54
And the story이야기 of 1950
186
459000
2000
그리고 1950 년 이야기는
07:56
is the story이야기 of every...마다 year that we have on record기록,
187
461000
2000
우리가 기록을 보유하고 있는 매년의 이야기가
07:58
with a little twist트위스트, because now we've우리는 got these nice좋은 charts차트.
188
463000
3000
지금은 이 좋은 차트를 가지고 있기 때문에 약간 꼬여 있어요.
08:01
And because we have these nice좋은 charts차트, we can measure법안 things.
189
466000
3000
그리고 우리가이 멋진 차트를 가지고 있기 때문에, 우리는 물건을 측정할 수 있습니다.
08:04
We can say, "Well how fast빠른 does the bubble거품 burst파열?"
190
469000
2000
우리는 "글쎄 얼마나 빨리 거품이 터질까?" 라고 말할 수도 있습니다.
08:06
And it turns회전 out that we can measure법안 that very precisely정확하게.
191
471000
3000
그리고 그것은 우리가 매우 정확하게 측정할 수있다는 게 밝혀졌습니다.
08:09
Equations방정식 were derived파생 된, graphs그래프 were produced생산 된,
192
474000
3000
방정식이 도출되었고, 그래프가 만들어졌고,
08:12
and the net그물 result결과
193
477000
2000
그리고 그 실제 결과는
08:14
is that we find that the bubble거품 bursts파열 faster더 빠른 and faster더 빠른
194
479000
3000
우리가 그 거품이 터지는것이 각 지나가는 해와 더불어
08:17
with each마다 passing통과 year.
195
482000
2000
점점 더 빨라지는것을 발견했다는 것입니다.
08:19
We are losing지는 interest관심 in the past과거 more rapidly빠르게.
196
484000
5000
우리는 더 빨리 과거에 흥미를 잃어 가고있습니다.
08:24
JMJM: Now a little piece조각 of career직업 advice조언.
197
489000
2000
JM : 지금 경력 조언의 작은 조각.
08:26
So for those of you who seek목표물 탐색 to be famous유명한,
198
491000
2000
그래서 유명한 사람이 되기를 추구하는 여러분들을 위해,
08:28
we can learn배우다 from the 25 most가장 famous유명한 political주재관 figures인물,
199
493000
2000
우리는 25에서 가장 유명한 정치적 인물들에게서,
08:30
authors저자, actors배우들 and so on.
200
495000
2000
저자, 배우 등등에게서 배울 수 있습니다.
08:32
So if you want to become지다 famous유명한 early이른 on, you should be an actor배우,
201
497000
3000
당신이 빨리 유명해지고 싶다면, 당신은 배우가 되어야합니다
08:35
because then fame명성 starts시작하다 rising상승 by the end종료 of your 20s --
202
500000
2000
그리고 명성이 20대의 마지막에 상승하기 시작하기 때문에 -
08:37
you're still young어린, it's really great.
203
502000
2000
여러분이 아직 어리다면, 정말 좋아요.
08:39
Now if you can wait a little bit비트, you should be an author저자,
204
504000
2000
당신은 조금 기다릴 수있다면, 이제 당신은 저자되어야합니다
08:41
because then you rise오르기 to very great heights높이,
205
506000
2000
다음 아주 좋은 높이로 상승하기 때문인데,
08:43
like Mark Twain, for instance: extremely매우 famous유명한.
206
508000
2000
극히 유명한 사람과 같이 말이죠.
08:45
But if you want to reach범위 the very top상단,
207
510000
2000
하지만 당신이 맨 상위에 도달하려는 경우,
08:47
you should delay지연 gratification보수
208
512000
2000
당신은 만족을 지연해야하고
08:49
and, of course코스, become지다 a politician정치가.
209
514000
2000
그리고, 물론, 정치가가 되야 합니다.
08:51
So here you will become지다 famous유명한 by the end종료 of your 50s,
210
516000
2000
그럼 여기서 당신은 당신의 50 대 말까지 유명 될 것입니다
08:53
and become지다 very, very famous유명한 afterward기후.
211
518000
2000
그리고 그 이후에는 아주 유명하게 됩니다.
08:55
So scientists과학자들 also또한 tend지키다 to get famous유명한 when they're much older더 오래된.
212
520000
3000
그래서 과학자들은 또한 훨씬 나이들었을 때 유명해지는 경향이 있습니다.
08:58
Like for instance, biologists생물 학자 and physics물리학
213
523000
2000
예를 들어, 생물학 및 물리학에 대한 마찬가지로
09:00
tend지키다 to be almost거의 as famous유명한 as actors배우들.
214
525000
2000
배우만큼이나 유명해지는 경향이 있습니다.
09:02
One mistake잘못 you should not do is become지다 a mathematician수학자.
215
527000
3000
당신이 범하지 말아야 할 한가지 실수는 수학자가 되는 것입니다.
09:05
(Laughter웃음)
216
530000
2000
(웃음)
09:07
If you do that,
217
532000
2000
만약 당신이 그렇게한다면,
09:09
you might think, "Oh great. I'm going to do my best베스트 work when I'm in my 20s."
218
534000
3000
당신은 "좋아. 아 내가 내가 20대에 있을 때 내 최고의 작업을 할거야."라고 생각할 수도 있지만
09:12
But guess추측 what, nobody아무도 will really care케어.
219
537000
2000
그러나 짐작해보세요, 아무도 상관하지 않습니다.
09:14
(Laughter웃음)
220
539000
3000
(웃음)
09:17
ELA영어 연수: There are more sobering냉정한 notes노트
221
542000
2000
ELA: N-그램사이에
09:19
among사이에 the n-grams그램.
222
544000
2000
보다 냉정한 노트가 있습니다.
09:21
For instance, here's여기에 the trajectory사선 of Marc마크 Chagall샤갈,
223
546000
2000
예를 들어, 여기, 1887년에 태어난
09:23
an artist예술가 born타고난 in 1887.
224
548000
2000
마크 샤갈의 탄도가 있습니다.
09:25
And this looks외모 like the normal표준 trajectory사선 of a famous유명한 person사람.
225
550000
3000
그리고 이것은 유명한 사람의 정상적인 궤도 같습니다.
09:28
He gets도착 more and more and more famous유명한,
226
553000
4000
그는 점점 더 유명해집니다,
09:32
except if you look in German독일 사람.
227
557000
2000
독일어로 여러분이 보는 경우를 제외하고는요.
09:34
If you look in German독일 사람, you see something completely완전히 bizarre기괴한,
228
559000
2000
당신이 독일어로 보면, 당신은 완전히 이상한 무언가를 봅니다,
09:36
something you pretty예쁜 much never see,
229
561000
2000
당신은 거의 못 볼 것을말이죠,
09:38
which어느 is he becomes된다 extremely매우 famous유명한
230
563000
2000
그것은 그가 극도로 유명하게되고
09:40
and then all of a sudden갑자기 plummets추락하다,
231
565000
2000
그리고 갑자기 곤두박질을 하는것입니다,
09:42
going through...을 통하여 a nadir최하점 between중에서 1933 and 1945,
232
567000
3000
1933과 1945년 사이의 최하점을 겪으면서,
09:45
before rebounding반동 afterward기후.
233
570000
3000
그 이후 복귀하기 전에요.
09:48
And of course코스, what we're seeing
234
573000
2000
그리고 물론, 우리가 보는것은
09:50
is the fact Marc마크 Chagall샤갈 was a Jewish유태인 artist예술가
235
575000
3000
사실 마크 샤갈은 나치 독일에서의
09:53
in Nazi나치 Germany독일.
236
578000
2000
유대인 예술가였다는 사실입니다.
09:55
Now these signals신호들
237
580000
2000
지금 이러한 신호들은
09:57
are actually사실은 so strong강한
238
582000
2000
실제로 대단히 강해서
09:59
that we don't need to know that someone어떤 사람 was censored검열 한.
239
584000
3000
우리는 누군가가 검열 받았는지 알 필요가 없습니다.
10:02
We can actually사실은 figure그림 it out
240
587000
2000
우리는 실제로 기본적인 신호 처리를 사용해서
10:04
using~을 사용하여 really basic기본 signal신호 processing가공.
241
589000
2000
실제로 그것을 알아낼 수 있습니다.
10:06
Here's여기에 a simple단순한 way to do it.
242
591000
2000
여기 그것을하는 간단한 방법이 있습니다.
10:08
Well, a reasonable합리적인 expectation기대
243
593000
2000
음, 합리적인 기대는
10:10
is that somebody's누군가 fame명성 in a given주어진 period기간 of time
244
595000
2000
주어진 시간안에 누군가의 명성은
10:12
should be roughly대충 the average평균 of their그들의 fame명성 before
245
597000
2000
대략 그들의 명성의 이전과 이후의 평균으로
10:14
and their그들의 fame명성 after.
246
599000
2000
되어야 합니다.
10:16
So that's sort종류 of what we expect배고 있다.
247
601000
2000
그래서 그것은 우리가 기대하는 어떤것입니다.
10:18
And we compare비교 that to the fame명성 that we observe관찰하다.
248
603000
3000
그리고 우리는 우리가 관찰하는 명성에 그것을 비교합니다.
10:21
And we just divide분할 one by the other
249
606000
2000
그리고 우리는 다른 것을 1로 나누어서
10:23
to produce생기게 하다 something we call a suppression억압 index색인.
250
608000
2000
우리가 억제 지수라고 부르는 무언가를 생산합니다.
10:25
If the suppression억압 index색인 is very, very, very small작은,
251
610000
3000
만일 그 억제 지수가 매우, 매우, 매우 작으면,
10:28
then you very well might be being존재 suppressed억제 된.
252
613000
2000
그다음에 당신은 잘 억압될 수도 있습니다.
10:30
If it's very large, maybe you're benefiting유익한 from propaganda선전.
253
615000
3000
만일 그것이 매우 크면, 아마 당신이 선전에서 혜택을 받는것일겁니다.
10:34
JMJM: Now you can actually사실은 look at
254
619000
2000
JM이 : 이제 여러분은
10:36
the distribution분포 of suppression억압 indexes색인 over whole완전한 populations인구.
255
621000
3000
전체 인구에 대한 억제 지수의 분포를 실제로 볼 수 있습니다.
10:39
So for instance, here --
256
624000
2000
따라서 예를 들어, 여기에 -
10:41
this suppression억압 index색인 is for 5,000 people
257
626000
2000
이 억제 지수는 알려진 억압이 없는 곳에서
10:43
picked뽑힌 in English영어 books서적 where there's no known알려진 suppression억압 --
258
628000
2000
영어로 쓰여진 도서를 고른 5,000 명에 대한 것인데-
10:45
it would be like this, basically원래 tightly단단히 centered중심에 놓인 on one.
259
630000
2000
그것은 기본적으로 긴밀하게 하나를 중심으로 한 이것과 같은 것입니다.
10:47
What you expect배고 있다 is basically원래 what you observe관찰하다.
260
632000
2000
예상할 수 있는것은 기본적으로 여러분이 관찰하는 것입니다.
10:49
This is distribution분포 as seen in Germany독일 --
261
634000
2000
독일에서 보여진것과 같이 이 배포는 -
10:51
very different다른, it's shifted시프트 된 to the left.
262
636000
2000
매우 다릅니다, 그것은 왼쪽으로 이동되어 있지요.
10:53
People talked말한 about it twice두번 less적게 as it should have been.
263
638000
3000
사람들은 그것이 해 졌어야만 할 것보다 두 번 이하로 얘기했습니다.
10:56
But much more importantly중요하게, the distribution분포 is much wider넓은.
264
641000
2000
그러나 더 중요하게, 그 배포는 훨씬 더 넓다는 것입니다.
10:58
There are many많은 people who end종료 up on the far멀리 left on this distribution분포
265
643000
3000
이 배포판에서 맨 왼쪽에 결국 많은 사람들은
11:01
who are talked말한 about 10 times타임스 fewer적은 than they should have been.
266
646000
3000
그들이 있었어야 할 것보다 10 배 이하로 얘기한 사람들입니다.
11:04
But then also또한 many많은 people on the far멀리 right
267
649000
2000
하지만 그다음에는 선전의 혜택을 받은것처럼 보이는
11:06
who seem보다 to benefit이익 from propaganda선전.
268
651000
2000
맨 오른쪽에도 많은 사람들이있습니다.
11:08
This picture그림 is the hallmark순도 검증 각인 of censorship검열 in the book도서 record기록.
269
653000
3000
이 사진은 책에 기록에 검열의 특징이다.
11:11
ELA영어 연수: So culturomics배양액
270
656000
2000
ELA : 그래서 우리는 이 방법을
11:13
is what we call this method방법.
271
658000
2000
컬쳐로믹스라고 부릅니다.
11:15
It's kind종류 of like genomics유전체학.
272
660000
2000
그것은 같은 게놈의 일종 이죠.
11:17
Except genomics유전체학 is a lens렌즈 on biology생물학
273
662000
2000
게노믹스가 인간 게놈에있는 기반의 순서의 창문을 통한
11:19
through...을 통하여 the window창문 of the sequence순서 of bases기초 in the human인간의 genome게놈.
274
664000
3000
생물학에서는 렌즈라는것을 제외하고는 말입니다.
11:22
CulturomicsCulturomics is similar비슷한.
275
667000
2000
컬쳐로믹스는 비슷합니다.
11:24
It's the application신청 of massive-scale거대한 규모의 data데이터 collection수집 analysis분석
276
669000
3000
그것은 인간 문화의 연구에
11:27
to the study연구 of human인간의 culture문화.
277
672000
2000
거대한 규모의 데이터 수집 분석 응용 프로그램입니다.
11:29
Here, instead대신에 of through...을 통하여 the lens렌즈 of a genome게놈,
278
674000
2000
여기에서는, 게놈의 렌즈를 통하는것을 대신해서,
11:31
through...을 통하여 the lens렌즈 of digitized디지털화 된 pieces조각들 of the historical역사적인 record기록.
279
676000
3000
역사 기록의 디지털화된 조각의 렌즈를 통합니다.
11:34
The great thing about culturomics배양액
280
679000
2000
컬쳐로믹스에 대한 굉장한 점은
11:36
is that everyone각자 모두 can do it.
281
681000
2000
모든 사람이 그것을 할 수 있다는 것 입니다.
11:38
Why can everyone각자 모두 do it?
282
683000
2000
왜 다들 그것을 할 수 있을까요?
11:40
Everyone각자 모두 can do it because three guys,
283
685000
2000
누구나 할 수 있기 때문에 세 남자,
11:42
Jon OrwantOrwant, Matt매트 Gray회색 and Will Brockman브로크 맨 over at GoogleGoogle,
284
687000
3000
존 오르완트, 매트 그레이와 윌 브록만이 구글에서
11:45
saw the prototype원기 of the NgramNgram Viewer뷰어,
285
690000
2000
N 그램의 뷰어의 프로토 타입을 보고,
11:47
and they said, "This is so fun장난.
286
692000
2000
그리고 그들이 말하기를, "이건 정말 재미있네.
11:49
We have to make this available유효한 for people."
287
694000
3000
우리는 사람들이 이걸 사용할 수 있도록해야하겠는걸 "이라고 말했습니다.
11:52
So in two weeks flat플랫 -- the two weeks before our paper종이 came왔다 out --
288
697000
2000
그래서 2 주를 쫙 깔아서-- 우리 신문이 나온 두 주 전에 ---
11:54
they coded코드화 된 up a version번역 of the NgramNgram Viewer뷰어 for the general일반 public공공의.
289
699000
3000
그들은 일반 대중을 위한 N그램 뷰어의 버전을 코드화 했습니다 .
11:57
And so you too can type유형 in any word워드 or phrase that you're interested관심있는 in
290
702000
3000
그래서 당신도 당신이 관심이 있는 어떤 단어 또는 구절이든지 타이프칠 수 있고
12:00
and see its n-gram그램 immediately바로 --
291
705000
2000
그 즉시 N 그램을 볼 수 있고 -
12:02
also또한 browse검색 examples예제들 of all the various여러 books서적
292
707000
2000
또한 여러분의 N그램에 나타나는
12:04
in which어느 your n-gram그램 appears등장하다.
293
709000
2000
다양한 도서의 사례를 탐색할 수 있습니다.
12:06
JMJM: Now this was used over a million백만 times타임스 on the first day,
294
711000
2000
JM : 이제 이것은 첫날에 백만 번 이상 사용되었고,
12:08
and this is really the best베스트 of all the queries쿼리.
295
713000
2000
이것은 정말 모든 질문중 최고입니다.
12:10
So people want to be their그들의 best베스트, put their그들의 best베스트 foot forward앞으로.
296
715000
3000
그래서 사람들은 앞으로 최선의 발차취로 그 자신들의 최고가 되고 싶어합니다.
12:13
But it turns회전 out in the 18th century세기, people didn't really care케어 about that at all.
297
718000
3000
하지만 18 세기에 밝혀졌듯이, 사람들은 전혀 신경 쓰지 않았습니다.
12:16
They didn't want to be their그들의 best베스트, they wanted to be their그들의 beft멍청이.
298
721000
3000
그들은 그들의 최고가 되고 싶지 않아했습니다, 그들은 그들의 방어인들이 되고 싶어했어요.
12:19
So what happened일어난 is, of course코스, this is just a mistake잘못.
299
724000
3000
그래서 무슨 일이 일어났는가 하면, 이건 실수입니다.
12:22
It's not that strove노력하다 for mediocrity평범,
300
727000
2000
이것은, 평범을위한 투지가 아니에요
12:24
it's just that the S used to be written differently다르게, kind종류 of like an F.
301
729000
3000
그것은 S가 F 비슷하게 다르게 쓰여지곤 했다는 것입니다.
12:27
Now of course코스, GoogleGoogle didn't pick선택 this up at the time,
302
732000
3000
지금은 물론, 구글은 당시에 이것을 알아차리지 못했습니다,
12:30
so we reported보고 된 this in the science과학 article that we wrote.
303
735000
3000
그래서 우리는 우리가 쓴 과학 기사에서 이것을 보도했습니다.
12:33
But it turns회전 out this is just a reminder조언
304
738000
2000
그러나 그것은 이것이 단지 이것이 아주 재미있지만,
12:35
that, although이기는 하지만 this is a lot of fun장난,
305
740000
2000
여러분이 이 그래프를 해석할 때,
12:37
when you interpret새기다 these graphs그래프, you have to be very careful꼼꼼한,
306
742000
2000
여러분이 매우 신중해야 한다는 것을,
12:39
and you have to adopt채택하다 the base베이스 standards표준 in the sciences과학.
307
744000
3000
그리고 과학에서 기본 표준을 채택해야만 한다는 것을 상기시켜주는 것입니다.
12:42
ELA영어 연수: People have been using~을 사용하여 this for all kinds종류 of fun장난 purposes목적.
308
747000
3000
ELA : 사람들은 재미 목적인 종류에 이것을 사용하고 있습니다.
12:45
(Laughter웃음)
309
750000
7000
(웃음)
12:52
Actually사실은, we're not going to have to talk,
310
757000
2000
사실, 우리는 얘기를 할 수 없어야만 하는 않을 것입니다,
12:54
we're just going to show보여 주다 you all the slides슬라이드 and remain남아있는 silent조용한.
311
759000
3000
우리는 당신에게 모든 슬라이드를 보여하고 조용히 있을겁니다.
12:57
This person사람 was interested관심있는 in the history역사 of frustration좌절.
312
762000
3000
이 사람은 좌절의 역사에 관심이 있었습니다.
13:00
There's various여러 types유형 of frustration좌절.
313
765000
3000
다양한 종류의 좌절이 있었습니다.
13:03
If you stub그루터기 your toe발가락, that's a one A "argh아아."
314
768000
3000
만일 여러분이 여러분의 발가락을 찌른다면, 그것은 하나의 A "argh."입니다.
13:06
If the planet행성 Earth지구 is annihilated멸종 된 by the Vogons보곤 즈
315
771000
2000
만일 지구가 성간 우회를 위한 공간을 마련하기 위한,
13:08
to make room for an interstellar성간 bypass우회로,
316
773000
2000
보곤에 의해 전멸당하게 되면,
13:10
that's an eight여덟 A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
그것은 여덟개의 A "argh" 입니다.
13:12
This person사람 studies연구 all the "arghs아그,"
318
777000
2000
이 사람은 모든 "argh" 를
13:14
from one through...을 통하여 eight여덟 A's같이.
319
779000
2000
하나에서부터 8 A를 통해서 공부합니다.
13:16
And it turns회전 out
320
781000
2000
그리고 그것은
13:18
that the less-frequent덜 빈번한 "arghs아그"
321
783000
2000
그 "arghs" 가 덜 빈번하게 나올때,
13:20
are, of course코스, the ones그들 that correspond배달 용품 용품 to things that are more frustrating실망한 --
322
785000
3000
물론, 이것들에 해당하는 것들은 더 어렵게됩니다--
13:23
except, oddly이상하게, in the early이른 80s.
323
788000
3000
이상하게도 초기 80 년대에서를 제외하고는요.
13:26
We think that might have something to do with Reagan레이건.
324
791000
2000
우리는 레이건과 뭔가 관련이 있을지 모른다고 생각합니다.£
13:28
(Laughter웃음)
325
793000
2000
(웃음)
13:30
JMJM: There are many많은 usages용도 of this data데이터,
326
795000
3000
JM :이 데이터의 여러 용도가 있습니다,
13:33
but the bottom바닥 line is that the historical역사적인 record기록 is being존재 digitized디지털화 된.
327
798000
3000
하지만 요점은 역사적 기록이 디지털화 되고 있다는 점입니다.
13:36
GoogleGoogle has started시작한 to digitize디지털화하다 15 million백만 books서적.
328
801000
2000
Google은 천오백만권의 책을 디지털화하기 시작했습니다.
13:38
That's 12 percent퍼센트 of all the books서적 that have ever been published출판 된.
329
803000
2000
그것은 사상 출판된 모든 책들의 12 % 입니다.
13:40
It's a sizable꽤 큰 chunk큰 덩어리 of human인간의 culture문화.
330
805000
3000
그것은 인간 문화의 상당한 부분입니다.
13:43
There's much more in culture문화: there's manuscripts원고, there newspapers신문,
331
808000
3000
문화에는 훨씬 더 있습니다: 거기에는 원고, 신문이 있고,
13:46
there's things that are not text본문, like art미술 and paintings그림들.
332
811000
2000
예술과 그림과 같은, 텍스트가 아닌 것들이 있습니다.
13:48
These all happen우연히 있다 to be on our computers컴퓨터들,
333
813000
2000
이것들은 모두 우리의 컴퓨터위에서 일어났습니다,
13:50
on computers컴퓨터들 across건너서 the world세계.
334
815000
2000
전세계에 걸쳐 컴퓨터위에서.
13:52
And when that happens일이, that will transform변환 the way we have
335
817000
3000
그리고 그것이 일어나는 때면, 우리가 우리의 과거, 현재, 그리고 미래를 이해하는
13:55
to understand알다 our past과거, our present선물 and human인간의 culture문화.
336
820000
2000
우리의 과거, 현재 우리의 인간 문화를 이해합니다.
13:57
Thank you very much.
337
822000
2000
정말 감사합니다.
13:59
(Applause박수 갈채)
338
824000
3000
(박수)
Translated by Ji-Hyuk Park
Reviewed by Jeong-Lan Kinser

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com