Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Cum învățăm computerele să înțeleagă imagini
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
that are going on an airplane.
care intră într-un avion.
a three-year-old child
care descrie ce vede în nişte poze.
in a series of photos.
to learn about this world,
despre lumea asta,
at one very important task:
foarte importantă:
technologically advanced than ever.
e mai avansată tehnologic ca niciodată.
we make phones that talk to us
facem telefoane care ne vorbesc
that can play only music we like.
care pun doar muzica preferată.
machines and computers
mașinării și computere
to give you a progress report
recunoașterii computerizate a imaginilor,
in our research in computer vision,
and potentially revolutionary
din tehnologia şi ştiinţa calculatoarelor.
that can drive by themselves,
care conduc singure,
they cannot really tell the difference
o pungă de hârtie mototolită pe stradă,
on the road, which can be run over,
which should be avoided.
care ar trebui evitată.
dar n-am redat vederea orbilor.
sight to the blind.
dar n-au destulă tehnologie vizuală
the changes of the rainforests.
schimbările pădurii tropicale.
is drowning in a swimming pool.
când un copil se îneacă într-o piscină.
an integral part of global life.
devin o parte integrală a vieții globale.
that's far beyond what any human,
ce speră să vadă un om sau un grup,
to that at this TED.
is still struggling at understanding
să le înțeleagă și să le administreze.
collectively as a society,
suntem orbi,
machines are still blind.
sunt încă oarbe.
a two-dimensional array of numbers
de numere bidimensionale – pixeli.
Nu au un înțeles în sine.
the same as to listen,
„a face poze” nu e la fel cu „a vedea”,
the same as to see,
we really mean understanding.
540 million years of hard work
540 mil. ani de muncă grea pentru asta,
processing apparatus of our brains,
pentru procesarea vederii, nu a ochlor.
dar de fapt are loc în creier.
from my Ph.D. at Caltech
la Caltech,
Laboratorul Vizual din Stanford,
collaborators and students
colaboratorii și studenții mei
imaginilor și învățarea automată.
computer vision and machine learning.
of artificial intelligence.
a inteligenței artificiale.
the machines to see just like we do:
să vadă ca noi:
inferring 3D geometry of things,
să deducă geometria 3D a lucrurilor,
actions and intentions.
acțiuni și intenții.
of people, places and things
despre oameni, locuri și lucruri
is to teach a computer to see objects,
să învățăm computerele să vadă obiectele,
imagine this teaching process
imaginați-vă acest proces de învățare
some training images
câteva imagini de antrenament
from these training images.
care învață după aceste imagini.
a collection of shapes and colors,
e doar o colecție de forme și culori,
in the early days of object modeling.
la începutul modelării obiectelor.
in a mathematical language
într-un limbaj matematic
a chubby body,
un corp durduliu,
and viewpoint to the object model.
și punct de vedere modelului.
as a household pet
of variations to the object model,
de variații ale modelului,
changed my thinking.
mi-a schimbat gândirea.
mai ales la început.
real-world experiences and examples.
din lumea reală.
ca o pereche de camere biologice,
about every 200 milliseconds,
la fiecare 200 milisecunde,
hundreds of millions of pictures
sute de milioane de poze cu lumea reală.
on better and better algorithms,
pe algoritmi din ce în ce mai buni,
the kind of training data
tipul de date
atât cantitativ cât și calitativ.
să construim o bază de date
than we have ever had before,
decât am avut înainte,
Kai Li at Princeton University,
de la Princeton University
a camera on our head
ne montăm o cameră pe cap
that humans have ever created.
creat vreodată de oameni.
like the Amazon Mechanical Turk platform
Amazon Mechanical Turk
the biggest employers
unul dintre cei mai mari angajatori
să triem și să etichetăm
of the imagery
din imaginile
in the early developmental years.
în primii ani ai dezvoltării.
de a folosi date mari
may seem obvious now,
poate părea evidentă acum,
for quite a while.
în această călătorie pentru multă vreme.
to do something more useful for my tenure,
să fac ceva mai folositor ca ocupație
for research funding.
my dry cleaner's shop to fund ImageNet.
pentru a susține ImageNet.
my college years.
anii de studenție.
o bază de date de 15 milioane de imagini
of objects and things
organizate după cuvinte englezești uzuale.
era la o scală fără precedent.
avem mai mult de 62.000 de pisici
of domestic and wild cats.
domestice și sălbatice.
to have put together ImageNet,
to benefit from it,
să poată beneficia,
we opened up the entire data set
am deschis întreaga bază de date
research community for free.
de cercetători.
to nourish our computer brain,
creierul computerelor,
to the algorithms themselves.
of information provided by ImageNet
furnizate de ImageNet
of machine learning algorithms
de algoritmi de învățare automată
Geoff Hinton, and Yann LeCun
Geoff Hinton și Yann LeCun
of billions of highly connected neurons,
de neuroni interconectați,
dintr-o rețea neuronală
și trimite impulsuri altora.
or even millions of nodes
sau chiar milioane de noduri
şi ele similare creierului.
to train our object recognition model,
antrenarea recunoașterii obiectelor
140 de milioane de parametri
to train such a humongous model,
pentru a antrena un asemenea model imens,
într-un mod neașteptat.
in object recognition.
în recunoașterea obiectelor.
că e poza unei pisici și unde e pisica.
așa că iată un computer spunându-ne
și un urs de pluș,
a boy and a teddy bear;
in the background;
și un mic zmeu în fundal;
railings, a lampost, and so on.
balustrade, un felinar și tot așa.
is not so confident about what it sees,
nu este foarte sigur de ce vede,
instead of committing too much,
în loc să se chinuie prea mult,
is remarkable at telling us
spunându-ne exact ce sunt obiectele,
anul de fabricație al mașinilor.
of Google Street View images
pe milioane de imagini Google Street View
și am aflat ceva foarte interesant.
really interesting:
cunoștințele generale
cu venitul familiilor.
also correlate well
și cu rata criminalității în orașe
or even surpassed human capabilities?
sau a întrecut abilităţile umane?
the computer to see objects.
ca un copil care pronunță câteva cuvinte.
learning to utter a few nouns.
dar e doar primul pas.
milestone will be hit,
iar copiii vor comunica în propoziții.
to communicate in sentences.
this is a cat in the picture,
că „asta e o pisică în poză”,
telling us this is a cat lying on a bed.
că e „o pisică întinsă pe pat”.
to see a picture and generate sentences,
și să genereze propoziții,
and machine learning algorithm
și algoritmii de învățare automată
from both pictures
dar și din propozițile rostite de oameni.
vision and language,
viziunea și limbajul,
that connects parts of visual things
ce conectează părți vizuale,
cu cuvinte și propoziții în fraze.
am pus totul cap-la-cap,
computer vision models
computere ce recunosc imaginile
a human-like sentence
propoziții similare celor umane
what the computer says
pe care a văzut-o fetița la început.
at the beginning of this talk.
next to an elephant.
of an airport runway.
stă pe pista unui aeroport.”
to improve our algorithms,
să îmbunătățim algoritmii
on a bed in a blanket.
too many cats,
crede că totul arată ca o pisică.
might look like a cat.
is holding a baseball bat.
it confuses it with a baseball bat.
o confundă cu o bâtă de baseball.
down a street next to a building.
pe o stradă lângă o clădire.”
to the computers.
in a field of grass.
frumusețea naturii ca şi noi.
the stunning beauty of nature
de la 0 la 3 ani a fost greu.
să trecem de la 3 la 13 și mai departe.
from three to 13 and far beyond.
poza asta cu băiatul și tortul.
of the boy and the cake again.
the computer to see objects
să vadă obiecte
when seeing a picture.
când vede poza.
at a table with a cake.
to this picture
decât o persoană și un tort.
că acesta e un tort italian special
is that this is a special Italian cake
after a trip to Sydney,
după o excursie în Sydney,
și ce are de gând.
at that moment.
și la lumea în care va trăi.
extra pairs of tireless eyes
alte perechi de ochi neobosiți
and take care of patients.
și să aibă grijă de pacienți.
and safer on the road.
și mai sigur pe drum.
to save the trapped and wounded.
pentru a-i salva pe captivi și răniți.
better materials,
materiale mai bune
with the help of the machines.
cu ajutorul mașinăriilor.
to the machines.
won't be the only ones
vor analiza şi explora lumea.
pentru inteligența lor
for their intelligence,
in ways that we cannot even imagine.
în moduri în care nici nu ne imaginăm.
să ofer computerelor inteligența vizuală
for Leo and for the world.
pentru Leo și pentru lume.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com