Fei-Fei Li: How we're teaching computers to understand pictures
Φέι-Φέι Λι: Πώς μαθαίνουμε στους υπολογιστές να καταλαβαίνουν εικόνες
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
ΟΚ, μια γάτα που κάθεται στο κρεβάτι.
that are going on an airplane.
a three-year-old child
Αυτό είναι ένα τρίχρονο κορίτσι
in a series of photos.
από φωτογραφίες.
to learn about this world,
πολλά ακόμα για τον κόσμο,
at one very important task:
σε μια πολύ σημαντική εργασία:
είναι πιο προηγμένη από ποτέ.
technologically advanced than ever.
we make phones that talk to us
έχουμε τηλέφωνα που μας μιλάνε
that can play only music we like.
να παίζουν μόνο τη μουσική που μας αρέσει.
machines and computers
και υπολογιστές μας
to give you a progress report
για να σας δώσω μια αναφορά προόδου
in our research in computer vision,
στον τομέα της μηχανικής όρασης,
and potentially revolutionary
και πιθανότατα επαναστατικές
that can drive by themselves,
που οδηγούν αυτόνομα,
they cannot really tell the difference
δεν μπορούν να καταλάβουν τη διαφορά
on the road, which can be run over,
στο δρόμο, που μπορούν να «πατήσουν»,
which should be avoided.
που πρέπει να αποφύγουν.
με ανάλυση μεγαπίξελ,
sight to the blind.
να πετάξουν πάνω από τεράστια εδάφη
the changes of the rainforests.
τις αλλαγές στα τροπικά δάση.
is drowning in a swimming pool.
όταν ένα παιδί πνίγεται στην πισίνα.
an integral part of global life.
πιο σημαντικό κομμάτι της παγκόσμιας ζωής.
that's far beyond what any human,
που είναι πέρα απ' ότι ένας άνθρωπος
to that at this TED.
εδώ στο TED.
is still struggling at understanding
δυσκολεύεται ακόμα να καταλάβει
ποσότητες περιεχομένου.
collectively as a society,
machines are still blind.
είναι ακόμα τυφλές.
μπορεί να ρωτήσετε.
φωτογραφίες όπως αυτή
a two-dimensional array of numbers
σε δισδιάστατους πίνακες αριθμών
the same as to listen,
δεν είναι σαν να τον καταλαβαίνεις,
the same as to see,
δεν είναι το ίδιο με το να βλέπεις,
we really mean understanding.
εννοούμε «καταλαβαίνω».
540 million years of hard work
540 εκατομμύρια χρόνια σκληρής δουλειάς
processing apparatus of our brains,
μηχανισμού του εγκεφάλου μας
στον εγκέφαλο.
from my Ph.D. at Caltech
στο Πανεπιστήμιο της Καλιφόρνια
του κέντρου όρασης του Στάνφορντ,
collaborators and students
συνεργάτες και φοιτητές μου
τους υπολογιστές να βλέπουν.
υπολογιστική όραση και μηχανική μάθηση.
computer vision and machine learning.
of artificial intelligence.
της τεχνητής νοημοσύνης.
the machines to see just like we do:
να δουν ακριβώς όπως εμείς:
inferring 3D geometry of things,
ανθρώπους και αντικείμενα στον χώρο,
δράσεις και προθέσεις.
actions and intentions.
ιστορίες ανθρώπων, τόπων και πραγμάτων
of people, places and things
is to teach a computer to see objects,
να μάθουμε τον υπολογιστή να δει πράγματα,
imagine this teaching process
την εκπαιδευτική διαδικασία ως εξής:
some training images
μερικές εικόνες εκμάθησης
ας πούμε γάτες,
from these training images.
που μαθαίνει από αυτές τις εικόνες.
a collection of shapes and colors,
μια συλλογή από σχήματα και χρώματα,
in the early days of object modeling.
της μοντελοποίησης αντικειμένων.
in a mathematical language
σε μαθηματική γλώσσα,
a chubby body,
ένα παχουλό σώμα,
and viewpoint to the object model.
και άλλη μια άποψη στο μοντέλο μας.
as a household pet
όσο ένα κατοικίδιο
of variations to the object model,
παραλλαγών στο μοντέλο,
changed my thinking.
άλλαξε τον τρόπο σκέψης μου.
real-world experiences and examples.
παραδείγματα του πραγματικού κόσμου.
about every 200 milliseconds,
κάθε 200 χιλιοστά του δευτερολέπτου,
για μια κίνηση του ματιού.
hundreds of millions of pictures
εκατοντάδες εκατομμύρια φωτογραφίες
on better and better algorithms,
ολοένα και καλύτερους αλγόριθμους,
the kind of training data
το είδος των εκπαιδευτικών δεδομένων
ένα σετ δεδομένων
than we have ever had before,
από όσες είχαμε προηγουμένως,
Kai Li at Princeton University,
στο Πανεπιστήμιο του Πρίνστον
a camera on our head
να φορέσουμε κάμερες στο κεφάλι μας
that humans have ever created.
που έχουν ποτέ κατασκευάσει οι άνθρωποι.
ένα δισεκατομμύριο εικόνες
like the Amazon Mechanical Turk platform
πλήθους» όπως η πλατφόρμα της Άμαζον
αυτές τις εικόνες.
the biggest employers
ένας από τους μεγαλύτερους εργοδότες
να κατατάξουμε και να ονομάσουμε
υποψήφιες φωτογραφίες.
of the imagery
ένα ψήγμα των παραστάσεων
in the early developmental years.
στα πρώτα χρόνια της ανάπτυξης.
μαζικών δεδομένων
may seem obvious now,
μπορεί να μοιάζει προφανής,
for quite a while.
για αρκετό καιρό.
to do something more useful for my tenure,
κάτι πιο χρήσιμο για να πάρω μονιμότητα,
for research funding.
προβλήματα χρηματοδότησης.
στους μεταπτυχιακούς φοιτητές μου
my dry cleaner's shop to fund ImageNet.
για να χρηματοδοτήσω το ImageNet.
my college years.
έτσι χρηματοδότησα τις σπουδές μου.
με 15 εκατομμύρια φωτογραφίες
of objects and things
αντικειμένων και πραγμάτων
με καθημερινές αγγλικές λέξεις.
of domestic and wild cats.
to have put together ImageNet,
που ολοκληρώσαμε το ImageNet,
to benefit from it,
όλος ο ερευνητικός κόσμος,
we opened up the entire data set
διαθέσαμε ολόκληρη τη βάση δεδομένων
research community for free.
δωρεάν.
to nourish our computer brain,
καλλιεργήσουμε το υπολογιστικό μας μυαλό,
to the algorithms themselves.
στους αλγόριθμους.
of information provided by ImageNet
που παρέχεται από το ImageNet
of machine learning algorithms
κλάση αλγόριθμων μηχανικής μάθησης
νευρωνικά δίκτυα,
Geoff Hinton, and Yann LeCun
Κουνιχίκο Φουκοσίμα και Γιάν ΛεΚούν
of billions of highly connected neurons,
δισεκατομμύρια διασυνδεδεμένους νευρώνες,
σε ένα νευρωνικό δίκτυο
or even millions of nodes
ή εκατομμύρια κόμβοι
to train our object recognition model,
που χρησιμοποιούμε για να εκπαιδεύσουμε
έχει 24 εκατομμύρια κόμβους,
του ImageNet
to train such a humongous model,
για την εκμάθηση αυτού του μοντέλου,
in object recognition.
στην αναγνώριση αντικειμένων.
εκτός από γάτες,
a boy and a teddy bear;
και ένα αρκουδάκι,
in the background;
και έναν μικρό χαρταετό στο βάθος,
railings, a lampost, and so on.
κάγκελα, μια κολώνα και λοιπά.
is not so confident about what it sees,
είναι και τόσο σίγουρος για το τι βλέπει,
instead of committing too much,
αντί να δεσμευτεί σε κάτι συγκεκριμένο,
is remarkable at telling us
είναι τόσο ικανός στο να μας λέει
και τη χρονιά των αυτοκινήτων.
of Google Street View images
εκατομμύρια εικόνες του Google Street View
really interesting:
κάτι που ήταν κοινώς γνωστό
συσχετίζονται πολύ καλά
also correlate well
επίσης συσχετίζονται καλά
ανά ταχυδρομικό κώδικα.
or even surpassed human capabilities?
τις ανθρώπινες δυνατότητες;
the computer to see objects.
μόνο να βλέπει αντικείμενα.
learning to utter a few nouns.
να προφέρει μερικά ουσιαστικά.
milestone will be hit,
της ανάπτυξης,
to communicate in sentences.
να επικοινωνούν με προτάσεις.
this is a cat in the picture,
telling us this is a cat lying on a bed.
ότι η γάτα είναι ξαπλωμένη στο κρεβάτι.
to see a picture and generate sentences,
μια εικόνα και να παράγει προτάσεις,
and machine learning algorithm
και των αλγόριθμων μηχανικής μάθησης
from both pictures
πρέπει να μάθει από εικόνες
vision and language,
όραση και γλώσσα,
that connects parts of visual things
που συνδέει μέρη οπτικών αντικειμένων,
computer vision models
υπολογιστικής όρασης
a human-like sentence
what the computer says
τι λέει ο υπολογιστής
at the beginning of this talk.
δίπλα σε έναν ελέφαντα.
next to an elephant.
of an airport runway.
πάνω σε έναν αεροδιάδρομο.
to improve our algorithms,
για να βελτιώσουμε τον αλγόριθμό μας,
ξαπλωμένη στο κρεβάτι με μια κουβέρτα.
on a bed in a blanket.
too many cats,
τόσες πολλές γάτες,
might look like a cat.
ένα ρόπαλο του μπέιζμπολ.
is holding a baseball bat.
it confuses it with a baseball bat.
τις μπερδεύει με ρόπαλα του μπέιζμπολ.
ένα άλογο στο δρόμο δίπλα σε ένα κτίριο.
down a street next to a building.
to the computers.
υπολογιστές τα βασικά για τις τέχνες.
in a field of grass.
σε ένα λιβάδι.
την εκπληκτική ομορφιά της φύσης
the stunning beauty of nature
ήταν δύσκολο.
από τα 3 στα 13 και παραπέρα.
from three to 13 and far beyond.
of the boy and the cake again.
του παιδιού και της τούρτας.
the computer to see objects
να βλέπει αντικείμενα
when seeing a picture.
όταν βλέπει μια εικόνα.
at a table with a cake.
σε ένα τραπέζι με ένα κέικ.
to this picture
πράγματα σε αυτή την εικόνα
is that this is a special Italian cake
ότι αυτό είναι ένα ειδικό ιταλικό κέικ
του Πάσχα.
after a trip to Sydney,
από ένα ταξίδι στο Σίδνεϊ,
πόσο χαρούμενο είναι
at that moment.
στον οποίο θα ζήσει.
extra pairs of tireless eyes
ένα ζευγάρι ακούραστα μάτια
and take care of patients.
και να φροντίσουν τους ασθενείς τους.
and safer on the road.
και πιο ασφαλή στο δρόμο.
to save the trapped and wounded.
να σώσουμε εγκλωβισμένους και τραυματίες.
καλύτερα υλικά,
better materials,
with the help of the machines.
με τη βοήθεια των μηχανών.
to the machines.
won't be the only ones
δεν θα είναι τα μόνα
for their intelligence,
μόνο για τη νοημοσύνη τους,
in ways that we cannot even imagine.
που δεν μπορούμε να φανταστούμε.
for Leo and for the world.
για τον Λέο και για τον κόσμο.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com