Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Jak učíme počítače chápat obrázky
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sedící na posteli.
sitting in a bed.
that are going on an airplane.
a three-year-old child
in a series of photos.
to learn about this world,
at one very important task:
důležitou věc:
vyvinutá než kdy předtím.
technologically advanced than ever.
we make phones that talk to us
vyrábíme telefony, co na nás mluví,
that can play only music we like.
hrálo jenom hudbu, kterou chceme.
machines and computers
a počítače
to give you a progress report
o vývoji
in our research in computer vision,
počítačového zraku,
and potentially revolutionary
potencionálně revolučních
that can drive by themselves,
která sama řídí,
they cannot really tell the difference
nerozeznají
on the road, which can be run over,
který se může přejet,
which should be avoided.
který by bylo lepší objet.
sight to the blind.
vizuální technologie,
the changes of the rainforests.
v deštných pralesech.
is drowning in a swimming pool.
topí v bazénu.
an integral part of global life.
součástí života.
mnohem vyšší
that's far beyond what any human,
to that at this TED.
is still struggling at understanding
programy stále zápasí s porozuměním
collectively as a society,
jsou slepé.
machines are still blind.
a two-dimensional array of numbers
soustavy
the same as to listen,
jako poslouchat,
the same as to see,
we really mean understanding.
540 million years of hard work
540 milionů let tvrdé práce,
processing apparatus of our brains,
aparátu v našem mozku,
from my Ph.D. at Caltech
na Caltechu
Stanford's Vision,
collaborators and students
a studenty na tom,
a učení strojů.
computer vision and machine learning.
of artificial intelligence.
o umělé inteligenci.
the machines to see just like we do:
aby viděly jako my:
inferring 3D geometry of things,
odvozovat 3D geometrii věcí,
actions and intentions.
of people, places and things
lidí, míst a věcí
is to teach a computer to see objects,
je naučit počítače vidět objekty,
imagine this teaching process
proces učení
some training images
tréninkové obrázky
from these training images.
tréninkových obrázků.
a collection of shapes and colors,
in the early days of object modeling.
v začátcích objektového modelování.
in a mathematical language
v matematickém jazyce,
a chubby body,
zaoblené tělo,
pohled danému modelu.
and viewpoint to the object model.
as a household pet
domácí mazlíček
of variations to the object model,
variací objektovému modelu,
changed my thinking.
změnil mé myšlení.
real-world experiences and examples.
životních zkušeností a příkladů.
about every 200 milliseconds,
200 milisekund,
se oko pohne.
hundreds of millions of pictures
vidělo stovky milionů obrázků
on better and better algorithms,
the kind of training data
tréninková data,
sadu dat,
than we have ever had before,
než jsme kdy měli,
Kai Li at Princeton University,
na Princetonské univerzitě,
projekt ImageNet.
a camera on our head
kameru na hlavu
that humans have ever created.
kterou jsme jako lidé vytvořili.
like the Amazon Mechanical Turk platform
jako Amazon Mechanical Turk,
the biggest employers
z největších zaměstnavatelů
of the imagery
in the early developmental years.
během svých počátečních vývojových let.
velkého množství dat
may seem obvious now,
se nyní může zdát samozřejmý,
for quite a while.
na této cestě sami.
to do something more useful for my tenure,
abych dělala něco užitečnějšího,
for research funding.
pro náš výzkum.
studenty,
my dry cleaner's shop to fund ImageNet.
zaplatila ImageNet.
my college years.
studia na univerzitě.
of objects and things
anglických slov.
of domestic and wild cats.
to have put together ImageNet,
dát ImageNet dohromady
to benefit from it,
celý výzkumný svět,
we opened up the entire data set
otevřeli
research community for free.
zadarmo.
to nourish our computer brain,
krmit náš počítačový mozek,
to the algorithms themselves.
k algoritmům jako takovým.
of information provided by ImageNet
z ImageNetu
of machine learning algorithms
algoritmů pro učení strojů, které
Geoff Hinton, and Yann LeCun
Geoffem Hintonem a Yannem LeCunem
of billions of highly connected neurons,
vzájemně propojených neuronů,
v neuronové síti
or even millions of nodes
miliony uzlů
vrstvách,
to train our object recognition model,
používáme,
rozpoznávání objektů
z ImageNet
to train such a humongous model,
takto velkého modelu,
in object recognition.
v rozpoznávání objektů.
jen kočky,
který říká,
a boy and a teddy bear;
in the background;
railings, a lampost, and so on.
lampa atd.
is not so confident about what it sees,
co vidí,
aby byl dostatečně chytrý,
instead of committing too much,
než aby se k něčemu zavázal,
is remarkable at telling us
znamenitě vysvětlí,
of Google Street View images
miliony obrázků z Google Street View
really interesting:
also correlate well
jsou také závislé
or even surpassed human capabilities?
nebo je snad dokonce přesáhly?
the computer to see objects.
vidět věci.
learning to utter a few nouns.
vyslovit pár slov.
milestone will be hit,
dosažen,
to communicate in sentences.
this is a cat in the picture,
telling us this is a cat lying on a bed.
leží na posteli.
to see a picture and generate sentences,
a vytořit věty,
and machine learning algorithm
algoritmem učení strojů
from both pictures
vision and language,
that connects parts of visual things
části zraku,
computer vision models
počítačového zraku,
a human-like sentence
what the computer says
at the beginning of this talk.
next to an elephant.
of an airport runway.
to improve our algorithms,
na zlepšení našich algoritmů
on a bed in a blanket.
pod dekou.
too many cats,
might look like a cat.
kočka.
is holding a baseball bat.
baseballovou pálku.
it confuses it with a baseball bat.
splete si ho s basebalkou.
down a street next to a building.
vedle budovy.
to the computers.
základy umění.
in a field of grass.
the stunning beauty of nature
from three to 13 and far beyond.
ke 13 a dál.
of the boy and the cake again.
chlapce s dortem.
the computer to see objects
when seeing a picture.
at a table with a cake.
s dortem.
to this picture
o tolik více
is that this is a special Italian cake
italský dort,
tričko,
after a trip to Sydney,
at that moment.
extra pairs of tireless eyes
pár neúnavných očí,
and take care of patients.
a starat se o pacienty.
and safer on the road.
bezpečněji.
to save the trapped and wounded.
aby zachránili uvězněné a zraněné.
better materials,
lepší materiály,
with the help of the machines.
když nám stroje pomohou.
to the machines.
won't be the only ones
for their intelligence,
kvůli jejich inteligenci,
in ways that we cannot even imagine.
které si ani neumíme představit.
for Leo and for the world.
pro Lea a svět.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com