Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Comment apprendre aux ordinateurs à comprendre des images
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
that are going on an airplane.
a three-year-old child
in a series of photos.
to learn about this world,
beaucoup à apprendre,
at one very important task:
dans un domaine très important :
technologically advanced than ever.
plus avancée que jamais.
we make phones that talk to us
on fait des téléphones qui nous parlent,
that can play only music we like.
qui ne passent que ce qu'on aime.
machines and computers
les plus avancés
to give you a progress report
où nous en sommes,
in our research in computer vision,
sur la vision par ordinateur,
and potentially revolutionary
et potentiellement révolutionnaires
that can drive by themselves,
qui conduisent toutes seules,
they cannot really tell the difference
elles ne font pas la différence
on the road, which can be run over,
que l'on peut écraser,
which should be avoided.
à mégapixels incroyables,
sight to the blind.
la vue aux aveugles.
de grandes distances
n'est pas assez avancée
the changes of the rainforests.
des forêts tropicales.
is drowning in a swimming pool.
quand un enfant se noie dans une piscine.
an integral part of global life.
font partie de notre vie.
that's far beyond what any human,
qu'aucun humain
to that at this TED.
avec cette conférence TED.
is still struggling at understanding
ont du mal à comprendre
collectively as a society,
machines are still blind.
machines sont encore aveugles.
pourriez-vous demander.
comme celle-ci,
a two-dimensional array of numbers
en tableaux bidimensionnels
the same as to listen,
n'est pas la même chose qu'écouter,
the same as to see,
ce n'est pas comme voir,
we really mean understanding.
540 million years of hard work
540 millions d'années
processing apparatus of our brains,
qui produit la vision dans notre cerveau,
from my Ph.D. at Caltech
collaborators and students
collaborateurs et étudiants
computer vision and machine learning.
d'apprentissage machine.
of artificial intelligence.
l'intelligence artificielle.
the machines to see just like we do:
à voir comme nous :
inferring 3D geometry of things,
déduire des formes géométriques 3D,
actions and intentions.
les actions et les intentions.
of people, places and things
de gens, d'endroits, de choses
is to teach a computer to see objects,
à l'ordinateur à voir des objets,
imagine this teaching process
que ce processus d'apprentissage
some training images
par exemple des chats,
from these training images.
qui puisse apprendre avec ces images.
a collection of shapes and colors,
de formes et de couleurs.
in the early days of object modeling.
c'est ce que nous avons fait.
in a mathematical language
en langage mathématique
a chubby body,
un corps un peu dodu,
and viewpoint to the object model.
et points de vue au modèle objet.
as a household pet
qu'un animal domestique
of variations to the object model,
du modèle objet.
changed my thinking.
a changé ma manière de penser.
real-world experiences and examples.
par des exemples quotidiens.
about every 200 milliseconds,
chaque 200 millisecondes,
hundreds of millions of pictures
des centaines de millions de photos
on better and better algorithms,
sur l'amélioration des algorithmes,
the kind of training data
avec le genre de données
un ensemble de données
than we have ever had before,
que jamais auparavant,
Kai Li at Princeton University,
de l'Université de Princeton,
le projet ImageNet en 2007.
a camera on our head
de se mettre une caméra sur la tête
that humans have ever created.
que l'humain ait jamais créée.
près d'un milliard d'images.
like the Amazon Mechanical Turk platform
comme le Turc Mécanique d'Amazon
the biggest employers
l'un des plus gros employeurs
à nettoyer, trier, étiqueter
of the imagery
in the early developmental years.
pendant ses premières années.
d'utiliser ces masses de données
may seem obvious now,
peut paraître évidente,
for quite a while.
to do something more useful for my tenure,
autre chose pour devenir titulaire,
for research funding.
pour trouver des crédits de recherche.
my dry cleaner's shop to fund ImageNet.
pour financer ImageNet.
my college years.
grâce à elle.
de 15 millions d'images,
of objects and things
du quotidien.
était une première.
of domestic and wild cats.
domestiques et sauvages.
to have put together ImageNet,
to benefit from it,
le monde de la recherche.
we opened up the entire data set
nous avons donné l'accès aux données
research community for free.
et dans le monde entier.
to nourish our computer brain,
pour nourrir notre cerveau informatique,
to the algorithms themselves.
of information provided by ImageNet
désormais dans ImageNet
of machine learning algorithms
un certain type d'algorithmes,
Geoff Hinton, and Yann LeCun
Geoff Hinton et Yann LeCun
of billions of highly connected neurons,
de milliards de neurones connectés,
or even millions of nodes
voire millions de nœuds
to train our object recognition model,
que nous utilisons,
to train such a humongous model,
pour traiter cet énorme modèle,
in object recognition.
en reconnaissance d'objets.
autre chose que des chats.
a boy and a teddy bear;
et un ours en peluche,
in the background;
et un cerf-volant en arrière-plan.
railings, a lampost, and so on.
un lampadaire, etc.
is not so confident about what it sees,
assez intelligent
instead of committing too much,
sans trop s'engager,
is remarkable at telling us
a la capacité incroyable
ce qu'est l'objet :
of Google Street View images
des millions d'images Google Street View,
really interesting:
quelque chose de très intéressant.
also correlate well
sont également liés,
géographique des votes.
or even surpassed human capabilities?
voire surpasse, les capacités humaines ?
the computer to see objects.
aux ordinateurs à voir des objets,
learning to utter a few nouns.
à prononcer quelques noms.
milestone will be hit,
to communicate in sentences.
this is a cat in the picture,
c'est un chat sur la photo,
telling us this is a cat lying on a bed.
tout à l'heure.
to see a picture and generate sentences,
des phrases à partir d'une photo,
and machine learning algorithm
et l'algorithme d'apprentissage
from both pictures
à partir des photos,
en langage naturel
vision and language,
combine vision et langage,
that connects parts of visual things
les parties de choses visuelles,
pour en faire des phrases.
computer vision models
modèles de vision artificielle
a human-like sentence
comme un être humain
what the computer says
ce que dit l'ordinateur
at the beginning of this talk.
next to an elephant.
Un homme est debout à coté d'un éléphant.
of an airport runway.
sur une piste d'aéroport.
to improve our algorithms,
beaucoup de travail sur les algorithmes,
beaucoup à apprendre,
on a bed in a blanket.
sur un lit dans une couverture.
too many cats,
might look like a cat.
est peut-être un chat.
is holding a baseball bat.
tient une batte de base-ball.
it confuses it with a baseball bat.
de brosse à dents, elle devient une batte.
down a street next to a building.
à cheval près d'un bâtiment.
to the computers.
l'histoire de l'art à l'ordinateur.
in a field of grass.
se trouve dans un pré.
the stunning beauty of nature
la beauté de la nature
from three to 13 and far beyond.
et bien au-delà.
of the boy and the cake again.
the computer to see objects
à l'ordinateur à voir des objets
when seeing a picture.
d'après une photo.
at a table with a cake.
assise à une table avec un gâteau.
to this picture
is that this is a special Italian cake
est que c'est un gâteau italien spécial
after a trip to Sydney,
après un voyage à Sydney,
à quel point il est heureux
at that moment.
de l'intelligence visuelle,
extra pairs of tireless eyes
une paire d'yeux infatigables en plus
and take care of patients.
et au soin des patients.
and safer on the road.
et plus sûres.
to save the trapped and wounded.
dans des zones sinistrées.
better materials,
de meilleurs matériaux,
with the help of the machines.
avec l'aide des machines.
to the machines.
aux machines.
qui nous aident à mieux voir.
won't be the only ones
ne seront pas les seuls
for their intelligence,
pour leur intelligence,
in ways that we cannot even imagine.
de manière inédite.
l'intelligence visuelle
for Leo and for the world.
pour Léo et pour le monde.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com