Fei-Fei Li: How we're teaching computers to understand pictures
フェイフェイ・リー: コンピュータが写真を理解するようになるまで
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
ご覧ください
sitting in a bed.
that are going on an airplane.
a three-year-old child
in a series of photos.
説明しているところです
to learn about this world,
まだまだあるかもしれませんが
at one very important task:
すでにエキスパートです
ということです
technologically advanced than ever.
かつてなく進歩しています
we make phones that talk to us
人に話しかける電話を作り
that can play only music we like.
ラジオをカスタマイズしています
machines and computers
コンピュータでも
手こずっているんです
to give you a progress report
in our research in computer vision,
お伝えするために来ました
and potentially revolutionary
先端にあって
可能性のある技術です
that can drive by themselves,
プロトタイプが作られていますが
they cannot really tell the difference
on the road, which can be run over,
道路上の丸めた紙袋と
which should be avoided.
見分けることもできません
カメラが作られていますが
sight to the blind.
できていません
飛ばすことはできても
追跡できるだけの
the changes of the rainforests.
設置されていますが
is drowning in a swimming pool.
警告してはくれません
an integral part of global life.
生活に不可欠な一部をなしています
見切れないほどのペースで
that's far beyond what any human,
to that at this TED.
それに貢献しています
is still struggling at understanding
ソフトウェアでさえ
手こずっています
collectively as a society,
集合的に盲目であり
いまだ盲目だからです
machines are still blind.
思うかもしれません
a two-dimensional array of numbers
変換しますが
過ぎません
「聴く」のとは違うように
the same as to listen,
the same as to see,
同じではありません
we really mean understanding.
理解することが含まれているのです
540 million years of hard work
成し遂げられるようにするために
長い歳月を必要としたのです
processing apparatus of our brains,
費やされました
目から始まりますが
脳の中なのです
from my Ph.D. at Caltech
カリフォルニア工科大学の博士課程の頃から
率いている今に到るまで
collaborators and students
学生達とともに
教えようとしてきました
computer vision and machine learning.
コンピュータビジョンと機械学習で
of artificial intelligence.
the machines to see just like we do:
機械も人間のようにものを見られるようにすることです
inferring 3D geometry of things,
3次元的な配置を推量し
actions and intentions.
理解するということです
of people, places and things
捉えることができます
is to teach a computer to see objects,
見られるようにすることです
imagine this teaching process
some training images
コンピュータに与えて
from these training images.
モデルを設計するんです
a collection of shapes and colors,
集まりに過ぎません
in the early days of object modeling.
私たちがやっていたことでした
in a mathematical language
コンピュータアルゴリズムに
a chubby body,
ぽっちゃりした体と
長いしっぽがあると教え
and viewpoint to the object model.
追加する必要があります
どうでしょう?
as a household pet
シンプルなものでさえ
of variations to the object model,
無数のバリエーションを定義する必要があり
1つに過ぎないんです
changed my thinking.
私の考え方を変えました
ものの見方を身に付けるということです
real-world experiences and examples.
経験と例を通して学ぶのです
生きたカメラで
about every 200 milliseconds,
考えてみましょう
平均時間です
hundreds of millions of pictures
何億枚という
見ていることになります
on better and better algorithms,
アルゴリズムの改良ばかりに集中するのではなく
the kind of training data
受け取るような
ということでした
遙かに多くの画像データを
than we have ever had before,
明らかでした
Kai Li at Princeton University,
カイ・リー教授と一緒に
立ち上げました
a camera on our head
頭にカメラを付けて
ありませんでした
最大の画像の宝庫
that humans have ever created.
向かったのです
ダウンロードし
like the Amazon Mechanical Turk platform
クラウドソーシング技術を使って
ラベル付けをしました
the biggest employers
アマゾン・メカニカル・ターク作業者の
なっていました
整理しラベル付けする作業に
受け取るのに
of the imagery
用意するためには
in the early developmental years.
必要だったのです
ビッグデータを使うというアイデアは
may seem obvious now,
自明なものに見えるでしょうが
そうではありませんでした
for quite a while.
私たち以外にいませんでした
to do something more useful for my tenure,
した方がいいとアドバイスしてくれたくらいです
for research funding.
いつも困っていました
クリーニング屋をまた開こうかしらと
my dry cleaner's shop to fund ImageNet.
my college years.
やっていたことです
ImageNetプロジェクトは
2万2千のカテゴリに分類した
of objects and things
データベースを
質という点でも
6万2千点以上あって
ポーズのネコがいて
of domestic and wild cats.
あらゆる種類を網羅しています
to have put together ImageNet,
できあがったことを喜び
to benefit from it,
その恩恵を受けて欲しいと思い
we opened up the entire data set
データセットをまるごと
research community for free.
公開しました
to nourish our computer brain,
育てるためのデータができ
to the algorithms themselves.
用意が整いました
of information provided by ImageNet
ImageNetが提供する豊かな情報に適した
of machine learning algorithms
Geoff Hinton, and Yann LeCun
ヤン・ルカンといった人たちが
開拓した領域です
of billions of highly connected neurons,
ニューロンからできているように
基本要素となっているのは
or even millions of nodes
このようなノードが
to train our object recognition model,
私たちが通常使うニューラルネットワークには
to train such a humongous model,
このような巨大なモデルを訓練することで
大きく花開きました
目覚ましい結果を出す
in object recognition.
認識できます
a boy and a teddy bear;
写っていることを教えています
in the background;
あることを示しています
写った写真から
railings, a lampost, and so on.
街灯などを見分けています
is not so confident about what it sees,
そんなに自信を持てない場合もあります [動物]
当て推量をするよりは
instead of committing too much,
教えています
is remarkable at telling us
コンピュータアルゴリズムが
言い当てることもあります
モデルや年式のような
of Google Street View images
アメリカの数百都市の
Googleストリートビュー画像に適用した結果
really interesting:
also correlate well
車の値段は
よく相関していたんです
投票傾向とも相関しています
or even surpassed human capabilities?
追い越しているのでしょうか?
the computer to see objects.
コンピュータに物の見方を教えただけです
learning to utter a few nouns.
言えるようになったようなものです
milestone will be hit,
to communicate in sentences.
するようになります
this is a cat in the picture,
単にネコと言わずに
telling us this is a cat lying on a bed.
言うのを聞いたわけです
to see a picture and generate sentences,
文章を作れるよう教えるために
and machine learning algorithm
機械学習の結びつきが
踏む必要があります
from both pictures
写真だけでなく
vision and language,
結びつけるように
that connects parts of visual things
視覚的なものの一部と
繋ぎ合わせるモデルを
すべてをまとめ
computer vision models
記述文を生成できる
a human-like sentence
モデルを作り上げました
what the computer says
同じ写真を見て
at the beginning of this talk.
next to an elephant.
of an airport runway.
to improve our algorithms,
熱心に取り組んでいて
まだまだあります
まだ間違いを犯します
on a bed in a blanket.
too many cats,
might look like a cat.
見えるのかもしれません
is holding a baseball bat.
it confuses it with a baseball bat.
野球バットと混同してしまいます
down a street next to a building.
to the computers.
教えていませんでした
in a field of grass.
the stunning beauty of nature
自然の美を慈しむことは
大変でした
from three to 13 and far beyond.
さらにその先へと行くことです
of the boy and the cake again.
もう一度見てみましょう
the computer to see objects
物を識別することを教え
when seeing a picture.
教えました
at a table with a cake.
to this picture
単に人とケーキというよりも
is that this is a special Italian cake
このケーキが特別なイタリアのケーキで
食べるものだということです
お気に入りのTシャツで
after a trip to Sydney,
おみやげにくれたものだということ
この男の子がどんなに喜んでいるか
at that moment.
追い求める探求の中で
未来の世界のことを考えています
できるようになれば
extra pairs of tireless eyes
別の目を手に入れて
and take care of patients.
役立てられるでしょう
and safer on the road.
安全に走行するようになるでしょう
to save the trapped and wounded.
手助けができるようになるでしょう
better materials,
新種の生物やより優れた素材を発見し
with the help of the machines.
探検するようになるでしょう
to the machines.
視覚を与えています
機械に見ることを教え
私たちを助けてくれることでしょう
won't be the only ones
人間以外の目が
探求するようになるのです
for their intelligence,
利用するだけでなく
in ways that we cannot even imagine.
機械と人間が協力し合うようになるでしょう
for Leo and for the world.
より良い未来を作り出すということです
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com