14:09
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

5百万冊の本から学んだこと

Filmed:

Google LabsのNgram Viewerをいじってみたことはありますか? 何世紀にも渡って書かれてきた5百万という本のデータベースの中から言葉やアイデアを探せるやみつきになるツールです。エレズ・リーバーマン・エイデンとジャン・バプティスト・ミシェルがその仕組みと、5千億語のデータが教えてくれるちょっと驚くようなことを見せてくれます。

- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio

- Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Erez Lieberman Aiden: Everyone knows
(エレズ) ご存じと思いますが
00:15
that a picture is worth a thousand words.
1枚の絵は千の言葉に値すると言います
00:17
But we at Harvard
しかしハーバード大学では
00:22
were wondering if this was really true.
この点について疑問を抱きました
00:24
(Laughter)
(笑)
00:27
So we assembled a team of experts,
それで専門家のチームが編成されました
00:29
spanning Harvard, MIT,
ハーバード大学 MIT
00:33
The American Heritage Dictionary, The Encyclopedia Britannica
アメリカン・ヘリテージ英語辞典 ブリタニカ百科事典
00:35
and even our proud sponsors,
それに我らがスポンサー
00:38
the Google.
Googleも参加しています
00:40
And we cogitated about this
そして4年間に渡って
00:43
for about four years.
詳細な研究が続けられ
00:45
And we came to a startling conclusion.
驚くべき結論が得られました
00:47
Ladies and gentlemen, a picture is not worth a thousand words.
皆さん 1枚の絵は千の言葉に値するのではありません
00:52
In fact, we found some pictures
我々の発見によれば
00:55
that are worth 500 billion words.
1枚の絵は5千億の言葉に値するのです
00:57
Jean-Baptiste Michel: So how did we get to this conclusion?
(ジャン) いかにしてその結論に至ったのか?
01:02
So Erez and I were thinking about ways
エレズと私は 人類の文化と歴史が
01:04
to get a big picture of human culture
時とともにどう遷移してきたのか
01:06
and human history: change over time.
概観できる方法に 考えを巡らせていました
01:08
So many books actually have been written over the years.
長年に渡り多くの本が書かれています
01:11
So we were thinking, well the best way to learn from them
それらの本をすべて読むのが
01:13
is to read all of these millions of books.
最良の方法だろうと考えました
01:15
Now of course, if there's a scale for how awesome that is,
もし「いかしてる」度合いを測る単位があったとしたら
01:17
that has to rank extremely, extremely high.
これは非常に高い値になるでしょう
01:20
Now the problem is there's an X-axis for that,
問題は X軸に
01:23
which is the practical axis.
実現性を取ると
01:25
This is very, very low.
それがごく低くなるということです
01:27
(Applause)
(拍手)
01:29
Now people tend to use an alternative approach,
それで多くの人は違ったアプローチを取っています
01:32
which is to take a few sources and read them very carefully.
一握りの文献を熟読するのです
01:35
This is extremely practical, but not so awesome.
現実的ですが そんなにいかしてはいません
01:37
What you really want to do
本当にやりたいのは
01:39
is to get to the awesome yet practical part of this space.
いかしていながら現実的なことです
01:42
So it turns out there was a company across the river called Google
川向こうのGoogleという会社が それを可能にするような
01:45
who had started a digitization project a few years back
デジタル化プロジェクトを
01:48
that might just enable this approach.
数年前からやっていると聞き及びました
01:50
They have digitized millions of books.
何百万という本がデジタル化され
01:52
So what that means is, one could use computational methods
それらの本をボタンひとつで
01:54
to read all of the books in a click of a button.
コンピュータに読み取らせることができます
01:57
That's very practical and extremely awesome.
これはとても現実的でありながら すごくいかしています
01:59
ELA: Let me tell you a little bit about where books come from.
(エレズ) 本の由来についてお話ししましょう
02:03
Since time immemorial, there have been authors.
大昔から本を書く人々がいて
02:05
These authors have been striving to write books.
著者たちは苦労して本を書いていました
02:08
And this became considerably easier
数世紀前の印刷術の発明により
02:11
with the development of the printing press some centuries ago.
それが格段に容易になりました
02:13
Since then, the authors have won
それ以来行われてきた出版の機会というのは
02:15
on 129 million distinct occasions,
1億2千9百万回にも
02:18
publishing books.
及びます
02:20
Now if those books are not lost to history,
それらの本は 失われていなければ
02:22
then they are somewhere in a library,
どこかの図書館にあります
02:24
and many of those books have been getting retrieved from the libraries
その多くがGoogleにより図書館から借り出され
02:26
and digitized by Google,
デジタルデータ化されました
02:29
which has scanned 15 million books to date.
既に千5百万冊がスキャンされています
02:31
Now when Google digitizes a book, they put it into a really nice format.
Googleはデジタル化された本を有用な形式で保存します
02:33
Now we've got the data, plus we have metadata.
データだけでなく メタデータも手に入ります
02:36
We have information about things like where was it published,
どこで出版されたのか 誰が書いたのか
02:38
who was the author, when was it published.
いつ発行されたのか
02:41
And what we do is go through all of those records
私たちがしたのは それらすべてのレコードをチェックして
02:43
and exclude everything that's not the highest quality data.
クオリティが最高のもの以外除外するということです
02:46
What we're left with
残ったのは
02:50
is a collection of five million books,
5百万冊の本
02:52
500 billion words,
5千億語というデータです
02:55
a string of characters a thousand times longer
ヒトゲノムよりも
02:58
than the human genome --
千倍も長い文字列
03:00
a text which, when written out,
書き出したなら
03:03
would stretch from here to the Moon and back
地球と月の間を10回以上
03:05
10 times over --
往復する—
03:07
a veritable shard of our cultural genome.
紛れもない 我々の文化ゲノムのかけらです
03:09
Of course what we did
そのような
03:13
when faced with such outrageous hyperbole ...
誇大広告に直面して・・・
03:15
(Laughter)
(笑)
03:18
was what any self-respecting researchers
私たちがしたのは もちろん
03:20
would have done.
自尊心ある研究者なら誰でもするであろうことです
03:23
We took a page out of XKCD,
XKCDの漫画の1ページを
03:26
and we said, "Stand back.
引用して言ったのです
03:28
We're going to try science."
「下がれ 我は科学するものなり」
03:30
(Laughter)
(笑)
03:32
JM: Now of course, we were thinking,
(ジャン) 私たちが考えたのは
03:34
well let's just first put the data out there
まずデータをみんなに公開して
03:36
for people to do science to it.
それで科学できるようにしようということです
03:38
Now we're thinking, what data can we release?
どんなデータが公開できるでしょう?
03:40
Well of course, you want to take the books
もちろん5百万冊の本の
03:42
and release the full text of these five million books.
全文を公開したいと思いました
03:44
Now Google, and Jon Orwant in particular,
でもGoogleのジョン・オーワントが
03:46
told us a little equation that we should learn.
ちょっとした方程式を教えてくれました
03:48
So you have five million, that is, five million authors
5百万冊の本 = 5百万人の著者 =
03:50
and five million plaintiffs is a massive lawsuit.
5百万の原告からなる巨大な訴訟
03:53
So, although that would be really, really awesome,
全文公開は
03:56
again, that's extremely, extremely impractical.
ものすごくいかしているにしても 極めて非現実的なのです
03:58
(Laughter)
(笑)
04:01
Now again, we kind of caved in,
それで再び折れて
04:03
and we did the very practical approach, which was a bit less awesome.
いかしている度合いを下げて 現実的なアプローチを取り
04:05
We said, well instead of releasing the full text,
全文の代わりに 本の統計データを
04:08
we're going to release statistics about the books.
公開することにしたのです
04:10
So take for instance "A gleam of happiness."
たとえば “a gleam of happiness”のような
04:12
It's four words; we call that a four-gram.
4語からなる“4-gram”が
04:14
We're going to tell you how many times a particular four-gram
本の中に何度現れるかわかります
04:16
appeared in books in 1801, 1802, 1803,
1801年 1802年 1803年から
04:18
all the way up to 2008.
2008年に至るまで
04:20
That gives us a time series
時とともに そのフレーズが
04:22
of how frequently this particular sentence was used over time.
どれほどの頻度で使われているかわかるのです
04:24
We do that for all the words and phrases that appear in those books,
これを本に現れるあらゆる語やフレーズに対して行い
04:26
and that gives us a big table of two billion lines
20億行からなる膨大な表が得られました
04:29
that tell us about the way culture has been changing.
それは文化がいかに変わってきたか教えてくれます
04:32
ELA: So those two billion lines,
(エレズ) 20億行ですから
04:34
we call them two billion n-grams.
「20億のn-gram」と呼んでいます
04:36
What do they tell us?
それは何を教えてくれるのでしょう?
04:38
Well the individual n-grams measure cultural trends.
個々のn-gramは文化のトレンドを示します
04:40
Let me give you an example.
例を見てみましょう
04:42
Let's suppose that I am thriving,
私が今 “thrive”していて(うまくやっていて)
04:44
then tomorrow I want to tell you about how well I did.
明日そのことを話したいと思ったとしましょう
04:46
And so I might say, "Yesterday, I throve."
私は “Yesterday, I throve.”と言うかもしれません
04:48
Alternatively, I could say, "Yesterday, I thrived."
あるいは “Yesterday, I thrived.”と言うかもしれません
04:51
Well which one should I use?
どちらの形を使うべきでしょう?
04:54
How to know?
どうすればわかるのか?
04:57
As of about six months ago,
半年前であれば
04:59
the state of the art in this field
この分野における最先端の方法は
05:01
is that you would, for instance,
たとえば
05:03
go up to the following psychologist with fabulous hair,
この見事な髪をした心理学者の所に
05:05
and you'd say,
聞きに行くことだったでしょう
05:07
"Steve, you're an expert on the irregular verbs.
「ピンカーさん あなた不規則動詞の専門家ですよね
05:09
What should I do?"
どう言うべきでしょう?」
05:12
And he'd tell you, "Well most people say thrived,
彼は「たいていの人はthrivedと言いますが
05:14
but some people say throve."
throveと言う人もたまにいます」と答えるでしょう
05:16
And you also knew, more or less,
ご存じかもしれませんが
05:19
that if you were to go back in time 200 years
200年ほど遡って
05:21
and ask the following statesman with equally fabulous hair,
この同じように見事な髪をした政治家の所に行って
05:24
(Laughter)
(笑)
05:27
"Tom, what should I say?"
「ジェファーソンさん どう言うべきでしょう?」
05:30
He'd say, "Well, in my day, most people throve,
と聞いたなら「私の頃には 多くの人はthroveと言い
05:32
but some thrived."
たまにthrivedと言う人がいましたね」と言うでしょう
05:34
So now what I'm just going to show you is raw data.
では生のデータをご覧に入れましょう
05:37
Two rows from this table of two billion entries.
20億行の表の中の2つの行です
05:39
What you're seeing is year by year frequency
ご覧いただいているのは
05:43
of "thrived" and "throve" over time.
“thrived”と“throve”の年ごとの使用頻度です
05:45
Now this is just two
これは20億行の中の
05:49
out of two billion rows.
2行に過ぎません
05:51
So the entire data set
ですからデータの全体は
05:54
is a billion times more awesome than this slide.
このスライドの10億倍いかしていると言えるでしょう
05:56
(Laughter)
(笑)
05:59
(Applause)
(拍手)
06:01
JM: Now there are many other pictures that are worth 500 billion words.
(ジャン) 5千億語に値する絵は
06:05
For instance, this one.
他にもあります たとえばこれ
06:07
If you just take influenza,
「インフルエンザ」を取り上げてみると
06:09
you will see peaks at the time where you knew
大きな流行が起きて
06:11
big flu epidemics were killing people around the globe.
世界中でたくさんの人が死んだ年に山があります
06:13
ELA: If you were not yet convinced,
(エレズ) もしまだ信じられないなら
06:16
sea levels are rising,
「海面」「大気中CO2」
06:19
so is atmospheric CO2 and global temperature.
「地球気温」は ご覧のように上昇しています
06:21
JM: You might also want to have a look at this particular n-gram,
(ジャン) このn-gramもご覧になりたいかもしれません
06:24
and that's to tell Nietzsche that God is not dead,
これはニーチェに神は死んでいないことを教えるものです
06:27
although you might agree that he might need a better publicist.
もっとも 神様はもっといい広報担当者を雇うべきかもしれません
06:30
(Laughter)
(笑)
06:33
ELA: You can get at some pretty abstract concepts with this sort of thing.
(エレズ) 抽象概念について見ることもできます
06:35
For instance, let me tell you the history
たとえば「1950年」の
06:38
of the year 1950.
歴史を見てみましょう
06:40
Pretty much for the vast majority of history,
歴史上の大部分の時代において
06:42
no one gave a damn about 1950.
誰も1950年に注意を払ってはいませんでした
06:44
In 1700, in 1800, in 1900,
1700年 1800年 1900年
06:46
no one cared.
誰も関心を持っていません
06:48
Through the 30s and 40s,
1930〜40年代になっても
06:52
no one cared.
誰も関心を持っていません
06:54
Suddenly, in the mid-40s,
40年代半ばになって
06:56
there started to be a buzz.
突然 はやり出します
06:58
People realized that 1950 was going to happen,
みんな1950年はやってきて
07:00
and it could be big.
それがすごいかもしれないと気づいたのです
07:02
(Laughter)
(笑)
07:04
But nothing got people interested in 1950
しかし1950年ほど 1950年への関心の
07:07
like the year 1950.
高かったときはありません
07:10
(Laughter)
(笑)
07:13
People were walking around obsessed.
みんな取り付かれたようです
07:16
They couldn't stop talking
みんな話しやめることができません
07:18
about all the things they did in 1950,
1950年にしたいろんなことや
07:20
all the things they were planning to do in 1950,
1950年にしよう思っているいろんなこと
07:23
all the dreams of what they wanted to accomplish in 1950.
1950年に達成したいと思っているいろんな夢
07:26
In fact, 1950 was so fascinating
実際 1950年はあまりに素晴らしく
07:31
that for years thereafter,
その後何年も人々は
07:33
people just kept talking about all the amazing things that happened,
その年の素晴らしい出来事について話し続けました
07:35
in '51, '52, '53.
51年 52年 53年
07:38
Finally in 1954,
1954年になって
07:40
someone woke up and realized
ようやく目を覚まし
07:42
that 1950 had gotten somewhat passé.
1950年がもう時代遅れなことに気づいたのです
07:44
(Laughter)
(笑)
07:48
And just like that, the bubble burst.
そうやってバブルははじけました
07:50
(Laughter)
(笑)
07:52
And the story of 1950
同じことが 記録のある
07:54
is the story of every year that we have on record,
他のすべての年についても見られます
07:56
with a little twist, because now we've got these nice charts.
このような素敵なチャートを描くことができ
07:58
And because we have these nice charts, we can measure things.
このチャートから様々なことを測定できます
08:01
We can say, "Well how fast does the bubble burst?"
「バブルがはじけるのにどれくらいかかるか?」
08:04
And it turns out that we can measure that very precisely.
実際非常に正確に測れることがわかります
08:06
Equations were derived, graphs were produced,
方程式を導出し グラフを描いて
08:09
and the net result
結果として
08:12
is that we find that the bubble bursts faster and faster
バブルがはじけるまでの時間は
08:14
with each passing year.
年々短くなっていることがわかります
08:17
We are losing interest in the past more rapidly.
私たちは過去への興味を失うのが早くなっているのです
08:19
JM: Now a little piece of career advice.
(ジャン) キャリアについてひとつアドバイスしましょう
08:24
So for those of you who seek to be famous,
有名になりたいという人は
08:26
we can learn from the 25 most famous political figures,
25人の最も有名な政治家 作家
08:28
authors, actors and so on.
俳優 といった人々から学べます
08:30
So if you want to become famous early on, you should be an actor,
若いときに有名になりたいなら 俳優(紫)になるべきです
08:32
because then fame starts rising by the end of your 20s --
20代が終わる前に名声が上がっていきます
08:35
you're still young, it's really great.
まだまだ若く 素敵なことです
08:37
Now if you can wait a little bit, you should be an author,
もう少し待てるのなら 作家(青)がおすすめです
08:39
because then you rise to very great heights,
すごい高みまで行くことができます
08:41
like Mark Twain, for instance: extremely famous.
マーク・トウェインなんてすごく有名ですよね
08:43
But if you want to reach the very top,
しかし本当の高みにまで行く気なら
08:45
you should delay gratification
ご褒美は遅らせて
08:47
and, of course, become a politician.
政治家(赤)になるべきでしょう
08:49
So here you will become famous by the end of your 50s,
有名になるのは50代の終わりですが
08:51
and become very, very famous afterward.
その後はものすごく有名になります
08:53
So scientists also tend to get famous when they're much older.
科学者も一般に年を取ってから有名になる傾向があります
08:55
Like for instance, biologists and physics
生物学者(緑)や物理学者(灰)は
08:58
tend to be almost as famous as actors.
俳優と同じくらい有名になります
09:00
One mistake you should not do is become a mathematician.
避けるべき誤りは 数学者(黄)になることです
09:02
(Laughter)
(笑)
09:05
If you do that,
「20代で最高の仕事をしてやるんだ」と
09:07
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
意気込んでいるかもしれませんが
09:09
But guess what, nobody will really care.
誰も関心を持ってくれないのです
09:12
(Laughter)
(笑)
09:14
ELA: There are more sobering notes
(エレズ) n-gramについては
09:17
among the n-grams.
もっと暗い話もあります
09:19
For instance, here's the trajectory of Marc Chagall,
これは1887年生まれの画家
09:21
an artist born in 1887.
「マルク・シャガール」の曲線です
09:23
And this looks like the normal trajectory of a famous person.
有名人に典型的な曲線に見えます
09:25
He gets more and more and more famous,
年を追うごとに有名になっていきますが
09:28
except if you look in German.
ドイツ語圏は例外です
09:32
If you look in German, you see something completely bizarre,
まったく奇妙なことが起きています
09:34
something you pretty much never see,
見たことのないようなことです
09:36
which is he becomes extremely famous
非常に有名になった後
09:38
and then all of a sudden plummets,
突如としてどん底まで下落します
09:40
going through a nadir between 1933 and 1945,
1933年から1945年まで落ちていて
09:42
before rebounding afterward.
その後復帰します
09:45
And of course, what we're seeing
お察しの通り
09:48
is the fact Marc Chagall was a Jewish artist
マルク・シャガールは ナチスドイツ下の
09:50
in Nazi Germany.
ユダヤ人画家だったということです
09:53
Now these signals
このシグナルは
09:55
are actually so strong
あまりに強いので
09:57
that we don't need to know that someone was censored.
誰か検閲していたのかと訝るまでもないでしょう
09:59
We can actually figure it out
実際ごく基本的な信号処理で
10:02
using really basic signal processing.
そのことを示せます
10:04
Here's a simple way to do it.
どうやるのかというと
10:06
Well, a reasonable expectation
ある期間における
10:08
is that somebody's fame in a given period of time
誰かの有名度の期待値は
10:10
should be roughly the average of their fame before
大まかに言って その前後における
10:12
and their fame after.
有名度の平均になります
10:14
So that's sort of what we expect.
それが予想される値です
10:16
And we compare that to the fame that we observe.
その値を 実際の観測値と比較します
10:18
And we just divide one by the other
その2つの比は
10:21
to produce something we call a suppression index.
いわば「弾圧指数」とでも言うべきものです
10:23
If the suppression index is very, very, very small,
弾圧指数がごく小さいなら
10:25
then you very well might be being suppressed.
弾圧されている可能性が高く
10:28
If it's very large, maybe you're benefiting from propaganda.
逆に大きい場合には プロパガンダに助けられているのかもしれません
10:30
JM: Now you can actually look at
(ジャン) あらゆる人の
10:34
the distribution of suppression indexes over whole populations.
弾圧指数の分布を見ることもできます
10:36
So for instance, here --
たとえばこれは
10:39
this suppression index is for 5,000 people
英語で書かれた本から選んだ
10:41
picked in English books where there's no known suppression --
弾圧の形跡のない5千人の弾圧指数です
10:43
it would be like this, basically tightly centered on one.
中心にまとまったグラフになり
10:45
What you expect is basically what you observe.
期待値と観察値がほぼ一致します
10:47
This is distribution as seen in Germany --
こちらはドイツ語での分布ですが
10:49
very different, it's shifted to the left.
非常に異なっており 左に寄っています
10:51
People talked about it twice less as it should have been.
本来よりも半分しか話題になっていません
10:53
But much more importantly, the distribution is much wider.
しかも分布が横に広がっています
10:56
There are many people who end up on the far left on this distribution
本来の十分の一しか取り上げられていない
10:58
who are talked about 10 times fewer than they should have been.
ずっと左の方に来ている人がたくさんいます
11:01
But then also many people on the far right
一方でプロパガンダの恩恵を受けているらしい
11:04
who seem to benefit from propaganda.
ずっと右の方にいる人もいます
11:06
This picture is the hallmark of censorship in the book record.
この図は本における検閲の存在を明らかに示しています
11:08
ELA: So culturomics
(エレズ) この手法を
11:11
is what we call this method.
カルチュロミクス(culturomics)と呼んでいます
11:13
It's kind of like genomics.
ゲノミクスみたいなものです
11:15
Except genomics is a lens on biology
ゲノミクスは
11:17
through the window of the sequence of bases in the human genome.
ゲノムの塩基配列を通して生物学を見るレンズですが
11:19
Culturomics is similar.
カルチュロミクスは同様に
11:22
It's the application of massive-scale data collection analysis
人間の文化を研究するための
11:24
to the study of human culture.
大規模データ分析の応用です
11:27
Here, instead of through the lens of a genome,
ゲノムのレンズの代わりに
11:29
through the lens of digitized pieces of the historical record.
デジタル化された歴史記録のレンズを使うのです
11:31
The great thing about culturomics
カルチュロミクスの素晴らしいところは
11:34
is that everyone can do it.
誰でもできるということです
11:36
Why can everyone do it?
なぜかというと
11:38
Everyone can do it because three guys,
Googleの3人
11:40
Jon Orwant, Matt Gray and Will Brockman over at Google,
ジョン・オーワント マット・グレイ ウィル・ブロックマンが
11:42
saw the prototype of the Ngram Viewer,
開発中のNgram Viewerを見て
11:45
and they said, "This is so fun.
「これは楽しい みんな使えるようにすべきだ」
11:47
We have to make this available for people."
と考えたからです
11:49
So in two weeks flat -- the two weeks before our paper came out --
私たちの論文が出版される2週間前に
11:52
they coded up a version of the Ngram Viewer for the general public.
彼らは一般の人も使えるNgram Viewerを作り上げました
11:54
And so you too can type in any word or phrase that you're interested in
だから皆さんも興味のある言葉を打ち込んで
11:57
and see its n-gram immediately --
そのn-gramを即座に見ることができます
12:00
also browse examples of all the various books
そのn-gramが現れる様々な文献の
12:02
in which your n-gram appears.
例を見ることもできます
12:04
JM: Now this was used over a million times on the first day,
(ジャン) 公開初日に百万回以上使われましたが
12:06
and this is really the best of all the queries.
これは中でもbestなクエリです
12:08
So people want to be their best, put their best foot forward.
みんなbestでありたい 向上したいと思っています
12:10
But it turns out in the 18th century, people didn't really care about that at all.
しかし18世紀には誰もそんなこと気にかけていなかったようです
12:13
They didn't want to be their best, they wanted to be their beft.
彼らはbestであろうとはせず beftであろうとしていたのです
12:16
So what happened is, of course, this is just a mistake.
もっともこれは単なる間違いです
12:19
It's not that strove for mediocrity,
みんな月並みでいいと思っていたわけではなく
12:22
it's just that the S used to be written differently, kind of like an F.
かつては s が違った形で書かれていて f に見えたのです
12:24
Now of course, Google didn't pick this up at the time,
Googleは以前そのことに気づいておらず
12:27
so we reported this in the science article that we wrote.
私たちは科学記事の中でそのことを報告しました
12:30
But it turns out this is just a reminder
しかしこれはまた
12:33
that, although this is a lot of fun,
使うのがいかに楽しいにせよ
12:35
when you interpret these graphs, you have to be very careful,
グラフを解釈するときには十分注意を払い
12:37
and you have to adopt the base standards in the sciences.
科学的方法の基本に従う必要があることを思い起こさせてくれます
12:39
ELA: People have been using this for all kinds of fun purposes.
(エレズ) みんなこれをあらゆる楽しいことに使っています
12:42
(Laughter)
(「ウガー^n!」のグラフ) (笑)
12:45
Actually, we're not going to have to talk,
説明するまでもありませんね
12:52
we're just going to show you all the slides and remain silent.
スライドを出して黙っていましょうか
12:54
This person was interested in the history of frustration.
この人はフラストレーションの歴史に興味があるようです
12:57
There's various types of frustration.
フラストレーションにもいろいろ種類があります
13:00
If you stub your toe, that's a one A "argh."
つま先をぶつけた時は a が1つの“argh”です
13:03
If the planet Earth is annihilated by the Vogons
星間バイパスの邪魔になるからと
13:06
to make room for an interstellar bypass,
地球がヴォゴン星人に滅ぼされたときは
13:08
that's an eight A "aaaaaaaargh."
a が8つの“aaaaaaaargh”です
13:10
This person studies all the "arghs,"
この人は a が1~8個の
13:12
from one through eight A's.
“argh”を調べていて
13:14
And it turns out
それでわかるのは
13:16
that the less-frequent "arghs"
よりフラトレーションの強い“argh”の方が
13:18
are, of course, the ones that correspond to things that are more frustrating --
使われる頻度が少ないということですが
13:20
except, oddly, in the early 80s.
80年代初期には例外が見られます
13:23
We think that might have something to do with Reagan.
これは何かレーガンが関係していると
13:26
(Laughter)
考えられます (笑)
13:28
JM: There are many usages of this data,
(ジャン) このデータは様々な使い方ができますが
13:30
but the bottom line is that the historical record is being digitized.
重要なのは歴史の記録がデジタル化されたということです
13:33
Google has started to digitize 15 million books.
Googleは千5百万冊デジタル化しました
13:36
That's 12 percent of all the books that have ever been published.
かつて出版された本の12%に相当します
13:38
It's a sizable chunk of human culture.
人類の文化の大きな塊です
13:40
There's much more in culture: there's manuscripts, there newspapers,
文化には違った形のものとして 手稿や新聞があり
13:43
there's things that are not text, like art and paintings.
テキストではない芸術作品や絵画があります
13:46
These all happen to be on our computers,
これらすべてが 世界中のコンピュータの
13:48
on computers across the world.
中にあるところを考えてください
13:50
And when that happens, that will transform the way we have
そうなったとき 私たちが過去 現在 未来や
13:52
to understand our past, our present and human culture.
文化について理解する方法は変わるでしょう
13:55
Thank you very much.
どうもありがとうございました
13:57
(Applause)
(拍手)
13:59
Translated by Yasushi Aoki
Reviewed by Yuki Okada

▲Back to top

About the Speakers:

Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com