sponsored links
TED2015

Fei-Fei Li: How we're teaching computers to understand pictures

フェイフェイ・リー: コンピュータが写真を理解するようになるまで

March 17, 2015

小さな子供は写真を見て「ネコ」や「本」や「椅子」のような簡単な要素を識別できます。今やコンピュータも同じことができるくらいに賢くなりました。次は何でしょう? この胸躍る講演で、コンピュータビジョンの専門家であるフェイフェイ・リーが、写真を理解できるようコンピュータに「教える」ために構築された1500万の画像データベースをはじめとする、この分野の最先端と今後について語ります。

Fei-Fei Li - Computer scientist
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio

sponsored links
Double-click the English subtitles below to play the video.
Let me show you something.
まずこのビデオを
ご覧ください
00:14
(Video) Girl: Okay, that's a cat
sitting in a bed.
(女の子の声) ネコがベッドに座ってる
00:17
The boy is petting the elephant.
男の子が象をなでてる
00:22
Those are people
that are going on an airplane.
飛行機へ行く人たち
00:26
That's a big airplane.
大きな飛行機よ
00:30
Fei-Fei Li: This is
a three-year-old child
(講演者) これは3歳児が
00:33
describing what she sees
in a series of photos.
見た写真を
説明しているところです
00:35
She might still have a lot
to learn about this world,
彼女にはこの世界で学ぶことが
まだまだあるかもしれませんが
00:39
but she's already an expert
at one very important task:
ひとつの重要な作業については
すでにエキスパートです
00:42
to make sense of what she sees.
見たものを理解する
ということです
00:46
Our society is more
technologically advanced than ever.
私たちの社会は技術的に
かつてなく進歩しています
00:50
We send people to the moon,
we make phones that talk to us
月へと人を送り込み
人に話しかける電話を作り
00:54
or customize radio stations
that can play only music we like.
自分の好きな曲だけがかかるように
ラジオをカスタマイズしています
00:57
Yet, our most advanced
machines and computers
しかしながら最先端の
コンピュータでも
01:02
still struggle at this task.
まだこの作業には
手こずっているんです
01:06
So I'm here today
to give you a progress report
私は今日コンピュータビジョンの
01:09
on the latest advances
in our research in computer vision,
最新動向について
お伝えするために来ました
01:13
one of the most frontier
and potentially revolutionary
これはコンピュータサイエンスの中でも
先端にあって
01:17
technologies in computer science.
画期的なものになる
可能性のある技術です
01:21
Yes, we have prototyped cars
that can drive by themselves,
自分で運転する車の
プロトタイプが作られていますが
01:24
but without smart vision,
they cannot really tell the difference
知的な視覚処理能力がなかったら
01:29
between a crumpled paper bag
on the road, which can be run over,
踏みつぶしても問題のない
道路上の丸めた紙袋と
01:33
and a rock that size,
which should be avoided.
避けて通るべき同じ大きさの石とを
見分けることもできません
01:37
We have made fabulous megapixel cameras,
すごいメガピクセルの
カメラが作られていますが
01:41
but we have not delivered
sight to the blind.
盲目の人に視力を与えることは
できていません
01:44
Drones can fly over massive land,
無人機を広大な土地の上に
飛ばすことはできても
01:48
but don't have enough vision technology
熱帯雨林の変化を
追跡できるだけの
01:51
to help us to track
the changes of the rainforests.
画像技術はまだありません
01:53
Security cameras are everywhere,
監視カメラが至る所に
設置されていますが
01:57
but they do not alert us when a child
is drowning in a swimming pool.
プールで溺れている子がいても
警告してはくれません
02:00
Photos and videos are becoming
an integral part of global life.
写真やビデオは世界において
生活に不可欠な一部をなしています
02:05
They're being generated at a pace
that's far beyond what any human,
どんな個人であれ チームであれ
見切れないほどのペースで
02:11
or teams of humans, could hope to view,
映像が量産されています
02:15
and you and I are contributing
to that at this TED.
そして私たちも ここTEDで
それに貢献しています
02:18
Yet our most advanced software
is still struggling at understanding
しかし最も進んだ
ソフトウェアでさえ
02:22
and managing this enormous content.
この膨大な映像を理解し管理するのに
手こずっています
02:27
So in other words,
collectively as a society,
言ってみれば
02:31
we're very much blind,
私たちの社会は
集合的に盲目であり
02:36
because our smartest
machines are still blind.
それは最も知的な機械が
いまだ盲目だからです
02:38
"Why is this so hard?" you may ask.
なぜそんなに難しいのかと
思うかもしれません
02:43
Cameras can take pictures like this one
カメラはこのような写真を撮って
02:46
by converting lights into
a two-dimensional array of numbers
光をピクセルと呼ばれる
02:48
known as pixels,
数字の2次元配列へと
変換しますが
02:52
but these are just lifeless numbers.
これは死んだ数字の列に
過ぎません
02:54
They do not carry meaning in themselves.
数字自体に意味はありません
02:56
Just like to hear is not
the same as to listen,
単に音が耳に入ってくるのと
「聴く」のとは違うように
02:59
to take pictures is not
the same as to see,
「写真を撮る」のと「見る」のとは
同じではありません
03:04
and by seeing,
we really mean understanding.
「見る」ということには
理解することが含まれているのです
03:08
In fact, it took Mother Nature
540 million years of hard work
実際この仕事を
成し遂げられるようにするために
03:13
to do this task,
母なる自然は 5億4千万年という
長い歳月を必要としたのです
03:19
and much of that effort
そしてその努力の多くは
03:21
went into developing the visual
processing apparatus of our brains,
目そのものではなく
03:23
not the eyes themselves.
脳の視覚処理能力を発達させるために
費やされました
03:28
So vision begins with the eyes,
視覚というのは
目から始まりますが
03:31
but it truly takes place in the brain.
それが本当に起きているのは
脳の中なのです
03:33
So for 15 years now, starting
from my Ph.D. at Caltech
これまで15年間
カリフォルニア工科大学の博士課程の頃から
03:38
and then leading Stanford's Vision Lab,
スタンフォード大でコンピュータビジョン研究室を
率いている今に到るまで
03:43
I've been working with my mentors,
collaborators and students
私は指導教官や共同研究者や
学生達とともに
03:46
to teach computers to see.
コンピュータに見ることを
教えようとしてきました
03:50
Our research field is called
computer vision and machine learning.
私たちの研究領域は
コンピュータビジョンと機械学習で
03:54
It's part of the general field
of artificial intelligence.
これは人工知能の分野の一部です
03:57
So ultimately, we want to teach
the machines to see just like we do:
最終的に私たちがしたいのは
機械も人間のようにものを見られるようにすることです
04:02
naming objects, identifying people,
inferring 3D geometry of things,
物が何か言い当て 人を識別し
3次元的な配置を推量し
04:08
understanding relations, emotions,
actions and intentions.
関係や感情や行動や意図を
理解するということです
04:13
You and I weave together entire stories
of people, places and things
私たち人間は一目見ただけで
04:19
the moment we lay our gaze on them.
人 場所 物の織りなす物語全体を
捉えることができます
04:25
The first step towards this goal
is to teach a computer to see objects,
この目標に向けた第一歩は
04:28
the building block of the visual world.
コンピュータに視覚世界の構成要素である物を
見られるようにすることです
04:34
In its simplest terms,
imagine this teaching process
簡単に言うと
04:37
as showing the computers
some training images
ネコのような特定の物の
04:42
of a particular object, let's say cats,
訓練用画像を
コンピュータに与えて
04:45
and designing a model that learns
from these training images.
それらの画像から学習する
モデルを設計するんです
04:48
How hard can this be?
簡単そうに聞こえますよね?
04:53
After all, a cat is just
a collection of shapes and colors,
ネコの画像は色と形の
集まりに過ぎません
04:55
and this is what we did
in the early days of object modeling.
これは初期のオブジェクト・モデリングで
私たちがやっていたことでした
04:59
We'd tell the computer algorithm
in a mathematical language
数学的な言語を使って
コンピュータアルゴリズムに
05:03
that a cat has a round face,
a chubby body,
ネコには 丸い顔と
ぽっちゃりした体と
05:07
two pointy ears, and a long tail,
2つのとがった耳と
長いしっぽがあると教え
05:10
and that looked all fine.
それでうまくいきそうでした
05:12
But what about this cat?
でもこのネコはどうでしょう?
05:14
(Laughter)
(笑)
05:16
It's all curled up.
体がすっかり反り返っています
05:17
Now you have to add another shape
and viewpoint to the object model.
オブジェクトモデルに新しい形と視点を
追加する必要があります
05:19
But what if cats are hidden?
でもネコが一部隠れていたら
どうでしょう?
05:24
What about these silly cats?
このおかしなネコたちはどうでしょう?
05:26
Now you get my point.
言いたいこと分かりますよね?
05:30
Even something as simple
as a household pet
身近なペットのネコという
シンプルなものでさえ
05:33
can present an infinite number
of variations to the object model,
オブジェクトモデルに
無数のバリエーションを定義する必要があり
05:36
and that's just one object.
しかもこれは沢山あるものの
1つに過ぎないんです
05:41
So about eight years ago,
8年ほど前
05:44
a very simple and profound observation
changed my thinking.
とてもシンプルながら本質的なある観察が
私の考え方を変えました
05:46
No one tells a child how to see,
子供は教えられなくても
05:53
especially in the early years.
成長の初期に
ものの見方を身に付けるということです
05:55
They learn this through
real-world experiences and examples.
子供は現実の世界における
経験と例を通して学ぶのです
05:58
If you consider a child's eyes
子供の目が
生きたカメラで
06:03
as a pair of biological cameras,
200ミリ秒ごとに1枚
06:05
they take one picture
about every 200 milliseconds,
写真を撮っていると
考えてみましょう
06:08
the average time an eye movement is made.
これは目が動く
平均時間です
06:12
So by age three, a child would have seen
hundreds of millions of pictures
すると子供は3歳になるまでに
何億枚という
06:15
of the real world.
現実世界の写真を
見ていることになります
06:21
That's a lot of training examples.
膨大な量の訓練例です
06:23
So instead of focusing solely
on better and better algorithms,
それで気が付いたのは
アルゴリズムの改良ばかりに集中するのではなく
06:26
my insight was to give the algorithms
the kind of training data
子供が経験を通じて
受け取るような
06:32
that a child was given through experiences
量と質の訓練データを
06:37
in both quantity and quality.
アルゴリズムに与えてはどうか
ということでした
06:40
Once we know this,
このことに気付いた時
06:44
we knew we needed to collect a data set
私たちが持っているよりも
遙かに多くの画像データを
06:46
that has far more images
than we have ever had before,
集めなければならないことが
明らかでした
06:49
perhaps thousands of times more,
何千倍も必要です
06:53
and together with Professor
Kai Li at Princeton University,
それで私はプリンストン大学の
カイ・リー教授と一緒に
06:56
we launched the ImageNet project in 2007.
2007年にImageNetプロジェクトを
立ち上げました
07:00
Luckily, we didn't have to mount
a camera on our head
幸い私たちは
頭にカメラを付けて
07:05
and wait for many years.
何年も歩き回る必要は
ありませんでした
07:09
We went to the Internet,
人類がかつて作った
最大の画像の宝庫
07:10
the biggest treasure trove of pictures
that humans have ever created.
インターネットに
向かったのです
07:12
We downloaded nearly a billion images
私たちは10億枚近い画像を
ダウンロードし
07:16
and used crowdsourcing technology
like the Amazon Mechanical Turk platform
アマゾン・メカニカル・タークのような
クラウドソーシング技術を使って
07:19
to help us to label these images.
それらの画像に
ラベル付けをしました
07:25
At its peak, ImageNet was one of
the biggest employers
最盛期にはImageNetは
アマゾン・メカニカル・ターク作業者の
07:28
of the Amazon Mechanical Turk workers:
最大の雇用者の1つに
なっていました
07:33
together, almost 50,000 workers
167カ国の
07:36
from 167 countries around the world
5万人近い作業者が
07:39
helped us to clean, sort and label
10億枚近い画像を
整理しラベル付けする作業に
07:43
nearly a billion candidate images.
携わりました
07:47
That was how much effort it took
子供がその成長の初期に
受け取るのに
07:52
to capture even a fraction
of the imagery
匹敵する量の画像を
用意するためには
07:55
a child's mind takes in
in the early developmental years.
それほどの労力が
必要だったのです
07:58
In hindsight, this idea of using big data
コンピュータアルゴリズムの訓練に
ビッグデータを使うというアイデアは
08:03
to train computer algorithms
may seem obvious now,
今からすると
自明なものに見えるでしょうが
08:07
but back in 2007, it was not so obvious.
2007年当時は
そうではありませんでした
08:12
We were fairly alone on this journey
for quite a while.
かなり長い間 こんなことをやっている人は
私たち以外にいませんでした
08:16
Some very friendly colleagues advised me
to do something more useful for my tenure,
親切な同僚が将来の職のためにもう少し有用なことを
した方がいいとアドバイスしてくれたくらいです
08:20
and we were constantly struggling
for research funding.
研究資金には
いつも困っていました
08:25
Once, I even joked to my graduate students
ImageNetの資金調達のために
クリーニング屋をまた開こうかしらと
08:29
that I would just reopen
my dry cleaner's shop to fund ImageNet.
学生に冗談で言ったくらいです
08:32
After all, that's how I funded
my college years.
私が学生の頃 学費のために
やっていたことです
08:36
So we carried on.
私たちは進み続け
08:41
In 2009, the ImageNet project delivered
2009年に
ImageNetプロジェクトは
08:42
a database of 15 million images
日常的な英語を使って
2万2千のカテゴリに分類した
08:46
across 22,000 classes
of objects and things
1500万枚の画像の
データベースを
08:50
organized by everyday English words.
完成させました
08:55
In both quantity and quality,
これは量という点でも
質という点でも
08:58
this was an unprecedented scale.
かつてないスケールのものでした
09:01
As an example, in the case of cats,
一例を挙げると
09:04
we have more than 62,000 cats
ネコの画像は
6万2千点以上あって
09:08
of all kinds of looks and poses
様々な見かけや
ポーズのネコがいて
09:10
and across all species
of domestic and wild cats.
飼い猫から山猫まで
あらゆる種類を網羅しています
09:15
We were thrilled
to have put together ImageNet,
私たちはImageNetが
できあがったことを喜び
09:20
and we wanted the whole research world
to benefit from it,
世界の研究者にも
その恩恵を受けて欲しいと思い
09:23
so in the TED fashion,
we opened up the entire data set
TEDの流儀で
データセットをまるごと
09:27
to the worldwide
research community for free.
無償で世界の研究者コミュニティに
公開しました
09:31
(Applause)
(拍手)
09:36
Now that we have the data
to nourish our computer brain,
こうしてコンピュータの脳を
育てるためのデータができ
09:41
we're ready to come back
to the algorithms themselves.
アルゴリズムに取り組む
用意が整いました
09:45
As it turned out, the wealth
of information provided by ImageNet
それで分かったのは
ImageNetが提供する豊かな情報に適した
09:49
was a perfect match to a particular class
of machine learning algorithms
機械学習アルゴリズムがあることです
09:54
called convolutional neural network,
畳み込みニューラルネットワークと言って
09:59
pioneered by Kunihiko Fukushima,
Geoff Hinton, and Yann LeCun
福島邦彦 ジェフリー・ヒントン
ヤン・ルカンといった人たちが
10:01
back in the 1970s and '80s.
1970年代から1980年代にかけて
開拓した領域です
10:07
Just like the brain consists
of billions of highly connected neurons,
脳が何十億という高度に結合し合った
ニューロンからできているように
10:10
a basic operating unit in a neural network
ニューラルネットワークの
基本要素となっているのは
10:16
is a neuron-like node.
ニューロンのようなノードです
10:20
It takes input from other nodes
他のノードからの入力を受けて
10:22
and sends output to others.
他のノードへ出力を渡します
10:25
Moreover, these hundreds of thousands
or even millions of nodes
何十万 何百万という
このようなノードが
10:27
are organized in hierarchical layers,
これも脳と同様に
10:32
also similar to the brain.
階層的に組織化されています
10:35
In a typical neural network we use
to train our object recognition model,
物を認識するモデルを訓練するために
私たちが通常使うニューラルネットワークには
10:38
it has 24 million nodes,
2千4百万のノード
10:43
140 million parameters,
1億4千万のパラメータ
10:46
and 15 billion connections.
150億の結合があります
10:49
That's an enormous model.
ものすごく大きなモデルです
10:52
Powered by the massive data from ImageNet
ImageNetの膨大なデータと
10:54
and the modern CPUs and GPUs
to train such a humongous model,
現代のCPUやGPUの性能を使って
このような巨大なモデルを訓練することで
10:58
the convolutional neural network
畳み込みニューラルネットワークは
11:04
blossomed in a way that no one expected.
誰も予想しなかったくらいに
大きく花開きました
11:06
It became the winning architecture
これは物の認識において
目覚ましい結果を出す
11:10
to generate exciting new results
in object recognition.
大当たりのアーキテクチャとなっています
11:12
This is a computer telling us
ここではコンピュータが
11:17
this picture contains a cat
写真の中にネコがいることと
11:20
and where the cat is.
その場所を示しています
11:22
Of course there are more things than cats,
もちろんネコ以外のものも
認識できます
11:24
so here's a computer algorithm telling us
こちらではコンピュータアルゴリズムが
11:27
the picture contains
a boy and a teddy bear;
写真の中に男の子とテディベアが
写っていることを教えています
11:29
a dog, a person, and a small kite
in the background;
犬と 人物と 後方に小さな凧が
あることを示しています
11:32
or a picture of very busy things
とても沢山のものが
写った写真から
11:37
like a man, a skateboard,
railings, a lampost, and so on.
男性 スケートボード 手すり
街灯などを見分けています
11:40
Sometimes, when the computer
is not so confident about what it sees,
写っているものが何なのか コンピュータが
そんなに自信を持てない場合もあります [動物]
11:44
we have taught it to be smart enough
コンピュータには
当て推量をするよりは
11:51
to give us a safe answer
instead of committing too much,
確かなところを答えるよう
教えています
11:53
just like we would do,
ちょうど私たち自身がするように
11:57
but other times our computer algorithm
is remarkable at telling us
一方で何が写っているかについて
コンピュータアルゴリズムが
12:00
what exactly the objects are,
驚くほど正確に
言い当てることもあります
12:04
like the make, model, year of the cars.
たとえば自動車の車種や
モデルや年式のような
12:07
We applied this algorithm to millions
of Google Street View images
このアルゴリズムを
アメリカの数百都市の
12:10
across hundreds of American cities,
何百万という
Googleストリートビュー画像に適用した結果
12:16
and we have learned something
really interesting:
面白い発見がありました
12:19
first, it confirmed our common wisdom
まず 車の値段は
12:22
that car prices correlate very well
家計収入とよく相関しているという
12:25
with household incomes.
予想が裏付けられました
12:28
But surprisingly, car prices
also correlate well
でも驚いたことに
車の値段は
12:31
with crime rates in cities,
街の犯罪率とも
よく相関していたんです
12:35
or voting patterns by zip codes.
それはまた郵便番号区域ごとの
投票傾向とも相関しています
12:38
So wait a minute. Is that it?
それでは コンピュータは
12:43
Has the computer already matched
or even surpassed human capabilities?
既に人間の能力に追いつき
追い越しているのでしょうか?
12:46
Not so fast.
結論を急がないで
12:51
So far, we have just taught
the computer to see objects.
これまでのところ 私たちは
コンピュータに物の見方を教えただけです
12:53
This is like a small child
learning to utter a few nouns.
小さな子供が名詞をいくつか
言えるようになったようなものです
12:58
It's an incredible accomplishment,
ものすごい成果ですが
13:02
but it's only the first step.
まだ第一歩にすぎず
13:05
Soon, another developmental
milestone will be hit,
次の開発目標があります
13:08
and children begin
to communicate in sentences.
子供は文章でコミュニケーションを
するようになります
13:11
So instead of saying
this is a cat in the picture,
だから写真を見て小さな女の子が
単にネコと言わずに
13:15
you already heard the little girl
telling us this is a cat lying on a bed.
ネコがベッドに座っていると
言うのを聞いたわけです
13:19
So to teach a computer
to see a picture and generate sentences,
コンピュータが写真を見て
文章を作れるよう教えるために
13:24
the marriage between big data
and machine learning algorithm
このビッグデータと
機械学習の結びつきが
13:30
has to take another step.
新たなステップを
踏む必要があります
13:34
Now, the computer has to learn
from both pictures
コンピュータは
写真だけでなく
13:36
as well as natural language sentences
人が発する自然言語の文章も
13:40
generated by humans.
学ぶ必要があります
13:43
Just like the brain integrates
vision and language,
脳が視覚と言語を
結びつけるように
13:46
we developed a model
that connects parts of visual things
画像の断片のような
視覚的なものの一部と
13:50
like visual snippets
文章の中の単語やフレーズを
繋ぎ合わせるモデルを
13:55
with words and phrases in sentences.
私たちは開発しました
13:57
About four months ago,
4ヶ月ほど前
14:02
we finally tied all this together
ついに私たちは
すべてをまとめ
14:04
and produced one of the first
computer vision models
初めて見た写真について
14:07
that is capable of generating
a human-like sentence
人が書いたような
記述文を生成できる
14:11
when it sees a picture for the first time.
最初のコンピュータ・ビジョン・
モデルを作り上げました
14:15
Now, I'm ready to show you
what the computer says
冒頭で小さな女の子が説明したのと
同じ写真を見て
14:18
when it sees the picture
そのコンピュータが何と言ったか
14:23
that the little girl saw
at the beginning of this talk.
お見せしましょう
14:25
(Video) Computer: A man is standing
next to an elephant.
「ゾウの横に立っている男」
14:31
A large airplane sitting on top
of an airport runway.
「空港の滑走路にいる大きな飛行機」
14:36
FFL: Of course, we're still working hard
to improve our algorithms,
私たちは今もアルゴリズムを改良しようと
熱心に取り組んでいて
14:40
and it still has a lot to learn.
学ぶべきことは
まだまだあります
14:45
(Applause)
(拍手)
14:47
And the computer still makes mistakes.
コンピュータは
まだ間違いを犯します
14:51
(Video) Computer: A cat lying
on a bed in a blanket.
「ベッドの上の毛布の中のネコ」
14:54
FFL: So of course, when it sees
too many cats,
ネコを沢山見過ぎたせいで
14:58
it thinks everything
might look like a cat.
何でもネコみたいに
見えるのかもしれません
15:00
(Video) Computer: A young boy
is holding a baseball bat.
「野球バットを持つ小さな男の子」
15:05
(Laughter)
(笑)
15:08
FFL: Or, if it hasn't seen a toothbrush,
it confuses it with a baseball bat.
歯ブラシを見たことがないと
野球バットと混同してしまいます
15:09
(Video) Computer: A man riding a horse
down a street next to a building.
「建物脇の道を馬に乗って行く男」
15:15
(Laughter)
(笑)
15:18
FFL: We haven't taught Art 101
to the computers.
美術はまだコンピュータに
教えていませんでした
15:20
(Video) Computer: A zebra standing
in a field of grass.
「草原に立つシマウマ」
15:25
FFL: And it hasn't learned to appreciate
the stunning beauty of nature
私たちのように
自然の美を慈しむことは
15:28
like you and I do.
まだ学んでいません
15:31
So it has been a long journey.
長い道のりでした
15:34
To get from age zero to three was hard.
0歳から3歳まで行くのは
大変でした
15:37
The real challenge is to go
from three to 13 and far beyond.
でも本当の挑戦は3歳から13歳
さらにその先へと行くことです
15:41
Let me remind you with this picture
of the boy and the cake again.
あの男の子とケーキの写真を
もう一度見てみましょう
15:46
So far, we have taught
the computer to see objects
私たちはコンピュータに
物を識別することを教え
15:51
or even tell us a simple story
when seeing a picture.
写真を簡単に説明することさえ
教えました
15:55
(Video) Computer: A person sitting
at a table with a cake.
「ケーキのあるテーブルにつく人」
15:59
FFL: But there's so much more
to this picture
しかしこの写真には
単に人とケーキというよりも
16:03
than just a person and a cake.
遙かに多くのものがあります
16:06
What the computer doesn't see
is that this is a special Italian cake
コンピュータが見なかったのは
このケーキが特別なイタリアのケーキで
16:08
that's only served during Easter time.
イースターの時に
食べるものだということです
16:12
The boy is wearing his favorite t-shirt
男の子が着ているのは
お気に入りのTシャツで
16:15
given to him as a gift by his father
after a trip to Sydney,
お父さんがシドニー旅行の
おみやげにくれたものだということ
16:19
and you and I can all tell how happy he is
私たちはみんな
この男の子がどんなに喜んでいるか
16:23
and what's exactly on his mind
at that moment.
何を思っているかが分かります
16:26
This is my son Leo.
これは息子のレオです
16:31
On my quest for visual intelligence,
視覚的な知性を
追い求める探求の中で
16:34
I think of Leo constantly
私はいつもレオのことや
16:36
and the future world he will live in.
レオが住むであろう
未来の世界のことを考えています
16:39
When machines can see,
機械に見ることが
できるようになれば
16:42
doctors and nurses will have
extra pairs of tireless eyes
医師や看護師は疲れを知らない
別の目を手に入れて
16:44
to help them to diagnose
and take care of patients.
患者の診断や世話に
役立てられるでしょう
16:48
Cars will run smarter
and safer on the road.
自動車は道路をより賢明に
安全に走行するようになるでしょう
16:52
Robots, not just humans,
人間だけでなくロボットも
16:57
will help us to brave the disaster zones
to save the trapped and wounded.
災害地域に取り残され負傷した人々を救出する
手助けができるようになるでしょう
16:59
We will discover new species,
better materials,
私たちは機械の助けを借りて
新種の生物やより優れた素材を発見し
17:05
and explore unseen frontiers
with the help of the machines.
未だ見ぬフロンティアを
探検するようになるでしょう
17:09
Little by little, we're giving sight
to the machines.
私たちは少しずつ機械に
視覚を与えています
17:14
First, we teach them to see.
最初に私たちが
機械に見ることを教え
17:19
Then, they help us to see better.
それから機械が より良く見られるよう
私たちを助けてくれることでしょう
17:21
For the first time, human eyes
won't be the only ones
歴史上初めて
人間以外の目が
17:24
pondering and exploring our world.
世界について考察し
探求するようになるのです
17:28
We will not only use the machines
for their intelligence,
私たちは機械の知性を
利用するだけでなく
17:31
we will also collaborate with them
in ways that we cannot even imagine.
想像もできないような方法で
機械と人間が協力し合うようになるでしょう
17:35
This is my quest:
私が追い求めているのは
17:41
to give computers visual intelligence
コンピュータに視覚的な知性を与え
17:43
and to create a better future
for Leo and for the world.
レオや世界のために
より良い未来を作り出すということです
17:46
Thank you.
ありがとうございました
17:51
(Applause)
(拍手)
17:53
Translator:Yasushi Aoki
Reviewer:Tadashi Koyama

sponsored links

Fei-Fei Li - Computer scientist
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.

Why you should listen

Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.

Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.

Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers

sponsored links

If you need translations, you can install "Google Translate" extension into your Chrome Browser.
Furthermore, you can change playback rate by installing "Video Speed Controller" extension.

Data provided by TED.

This website is owned and operated by Tokyo English Network.
The developer's blog is here.