Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Hoe we computers leren om foto's te begrijpen
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
die in bed zit.
sitting in a bed.
that are going on an airplane.
die met het vliegtuig gaan.
a three-year-old child
op een serie foto's.
in a series of photos.
to learn about this world,
at one very important task:
in iets heel belangrijks:
verder dan ooit.
technologically advanced than ever.
maken telefoons die tegen ons praten,
we make phones that talk to us
muziek uitzenden die we mooi vinden.
that can play only music we like.
machines and computers
en computers met deze taak.
de voortgang te laten zien
to give you a progress report
in ons onderzoek naar computervisie,
in our research in computer vision,
en mogelijk revolutionaire technologieën
and potentially revolutionary
die zelf kunnen rijden,
that can drive by themselves,
zien ze het verschil niet
they cannot really tell the difference
on the road, which can be run over,
op de weg, waar je overheen kan rijden,
which should be avoided.
waar je omheen moet rijden.
megapixelcamera's gemaakt,
sight to the blind.
nog niet laten zien.
the changes of the rainforests.
in het regenwoud.
is drowning in a swimming pool.
als een kind verdrinkt in een zwembad.
van ons leven geworden.
an integral part of global life.
that's far beyond what any human,
to that at this TED.
op deze TED.
is still struggling at understanding
heeft nog steeds moeite met het begrijpen
collectively as a society,
we zijn met z'n allen heel erg blind,
ook nog blind zijn.
machines are still blind.
waarom het zo moeilijk is.
naar een 2-dimensionale serie getallen,
a two-dimensional array of numbers
the same as to listen,
the same as to see,
bedoelen we echt begrijpen.
we really mean understanding.
540 miljoen jaar hard werken
540 million years of hard work
van het verwerkingsgedeelte in ons brein.
processing apparatus of our brains,
in de hersenen.
from my Ph.D. at Caltech
promoveren aan Caltech,
van het Stanford Vision Lab,
medewerkers en studenten
collaborators and students
computervisie en machine-leren.
computer vision and machine learning.
of artificial intelligence.
gebied van kunstmatige intelligentie.
aanleren wat wijzelf ook doen:
the machines to see just like we do:
ruimtelijke vormen afleiden,
inferring 3D geometry of things,
actions and intentions.
emoties, acties en bedoelingen.
of people, places and things
van mensen, plaatsen en dingen,
voorwerpen te zien,
is to teach a computer to see objects,
stel je dit leerproces voor
imagine this teaching process
some training images
van oefenplaatjes
bijvoorbeeld katten,
from these training images.
van deze oefenplaatjes.
een verzameling vormen en kleuren.
a collection of shapes and colors,
in the early days of object modeling.
van het modelleren van voorwerpen.
algoritmes leren in een wiskundige taal,
in a mathematical language
a chubby body,
een mollig lijf,
toevoegen aan je model.
and viewpoint to the object model.
as a household pet
of variations to the object model,
variaties van het model.
changed my thinking.
en grondige observatie mijn denken.
hoe het moet kijken.
uit het echte leven.
real-world experiences and examples.
about every 200 milliseconds,
honderden miljoenen beelden gezien
hundreds of millions of pictures
steeds betere algoritmes,
on better and better algorithms,
de oefengegevens moest geven
the kind of training data
gegevens moesten maken
than we have ever had before,
dan wij ooit hebben gehad.
Kai Li at Princeton University,
aan de Princeton Universiteit,
het ImageNet-project.
a camera on our head
op ons hoofd te zetten
that humans have ever created.
die de mens ooit heeft gemaakt.
meer dan een miljard plaatjes
like the Amazon Mechanical Turk platform
zoals met de Amazon Mechanische Turk
the biggest employers
een van de grootste werkgevers
Mechanische Turk-werknemers:
sorteren en markeren
mogelijk bruikbare plaatjes.
of the imagery
van de beelden te verwerken
in zijn eerste jaren.
in the early developmental years.
om big data te gebruiken
may seem obvious now,
nogal logisch,
op deze weg.
for quite a while.
raadden me aan wat nuttigers te gaan doen,
to do something more useful for my tenure,
for research funding.
om onderzoeksgeld bij elkaar te krijgen.
my dry cleaner's shop to fund ImageNet.
om ImageNet te sponsoren.
my college years.
een database op
van voorwerpen en dingen
of objects and things
in het geval van de katten,
of domestic and wild cats.
toen we ImageNet in elkaar hadden gezet
to have put together ImageNet,
to benefit from it,
er plezier van had.
gratis de hele verzameling beschikbaar
we opened up the entire data set
research community for free.
om het computerbrein te voeden,
to nourish our computer brain,
op de algoritmes zelf.
to the algorithms themselves.
die ImageNet gaf,
of information provided by ImageNet
algoritme voor machineleren.
of machine learning algorithms
Geoff Hinton, and Yann LeCun
Fukushima, Geoff Hinton en Yann LeCun,
of billions of highly connected neurons,
goedverbonden neuronen,
van een neuraal netwerk
van andere knooppunten
of zelfs miljoenen knooppunten
or even millions of nodes
in hiërarchische lagen georganiseerd.
om voorwerpherkenning te trainen,
to train our object recognition model,
hoeveelheid gegevens van IMageNet
to train such a humongous model,
om zo'n gigantisch model te trainen,
neuraal netwerk tot bloei,
nieuwe resultaten leverde
in object recognition.
a boy and a teddy bear;
een jongen met teddybeer staat,
in the background;
en een vliegertje op de achtergrond,
railings, a lampost, and so on.
een hek, een lantaarnpaal, enzovoort.
is not so confident about what it sees,
niet helemaal zeker weet,
slim genoeg te zijn
instead of committing too much,
in plaats van te veel prijs te geven,
wat het computeralgoritme ons vertelt
is remarkable at telling us
en bouwjaar van de auto.
of Google Street View images
Google Street View-beelden
really interesting:
dat autoprijzen ook gelijk op gaan
also correlate well
or even surpassed human capabilities?
of zelfs al beter?
the computer to see objects.
alleen geleerd voorwerpen te bekijken.
zelfstandige naamwoorden te zeggen.
learning to utter a few nouns.
milestone will be hit,
gehaald worden:
te communiceren in zinnen.
to communicate in sentences.
this is a cat in the picture,
op het plaatje,
telling us this is a cat lying on a bed.
dat de kat op een bed ligt.
to see a picture and generate sentences,
om een plaatje te zien en zinnen te maken,
and machine learning algorithm
en machineleren
from both pictures
van plaatjes
vision and language,
die beeld en taal integreren,
that connects parts of visual things
dat delen van zichtbare dingen,
computervisie-modellen
computer vision models
zinnen te maken
a human-like sentence
een plaatje ziet.
what the computer says
wat de computer zegt
at the beginning of this talk.
van de talk hebt gezien.
naast de olifant.
next to an elephant.
op een startbaan.
of an airport runway.
to improve our algorithms,
aan het verbeteren van de algoritmes
on a bed in a blanket.
ligt op een bed in een laken.
too many cats,
might look like a cat.
is holding a baseball bat.
heeft een honkbalknuppel vast.
heeft gezien, raakt hij in de war.
it confuses it with a baseball bat.
door een straat langs een gebouw.
down a street next to a building.
aan de computer geleerd.
to the computers.
staat in een grasveld.
in a field of grass.
de prachtige natuur te waarderen,
the stunning beauty of nature
om van nul naar drie jaar te komen
is helemaal een grote uitdaging.
from three to 13 and far beyond.
of the boy and the cake again.
van de jongen en de taart.
om voorwerpen te zien
the computer to see objects
when seeing a picture.
te vertellen bij het zien van een plaatje.
zit aan tafel met een taart.
at a table with a cake.
to this picture
een speciale Italiaanse taart is
is that this is a special Italian cake
na een reis naar Sydney,
after a trip to Sydney,
at that moment.
op dat moment.
naar visuele intelligentie
extra pairs of tireless eyes
een extra paar onvermoeibare ogen hebben
and take care of patients.
en om voor de patiënten te zorgen.
and safer on the road.
en veiliger over de weg rijden..
om ingeslotenen en gewonden te redden.
to save the trapped and wounded.
en betere materialen,
better materials,
with the help of the machines.
met behulp van machines.
gezichtsvermogen.
to the machines.
won't be the only ones
niet de enige
en haar verkennen.
vanwege hun intelligentie gebruiken,
for their intelligence,
in ways that we cannot even imagine.
niet kunnen voorstellen.
for Leo and for the world.
aan Leo en aan de wereld.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com