Fei-Fei Li: How we're teaching computers to understand pictures
פיי-פיי לי: איך אנחנו מלמדים מחשבים להבין תמונות
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
שיושב על מיטה.
that are going on an airplane.
a three-year-old child
in a series of photos.
to learn about this world,
at one very important task:
במשימה אחת מאוד חשובה:
technologically advanced than ever.
מתקדמת טכנולוגית מאי פעם.
we make phones that talk to us
אנחנו מייצרים טלפונים שמדברים אלינו
that can play only music we like.
שינגנו רק מוסיקה שאנחנו אוהבים.
machines and computers
המתקדמים ביותר שלנו
to give you a progress report
in our research in computer vision,
על ראיית מחשב,
and potentially revolutionary
that can drive by themselves,
שיכולות לנסוע בעצמן,
they cannot really tell the difference
הן לא יכולות באמת להבדיל
on the road, which can be run over,
שאפשר לנסוע עליה,
which should be avoided.
שצריך להימנע ממנה.
sight to the blind.
the changes of the rainforests.
אחרי השינויים ביערות הגשם.
is drowning in a swimming pool.
an integral part of global life.
מהחיים הגלובליים.
that's far beyond what any human,
יכולים לקוות לצפות בהם,
to that at this TED.
is still struggling at understanding
מתמודדת בלהבין
collectively as a society,
machines are still blind.
עדיין עיוורות.
"למה זה כל כך קשה?"
a two-dimensional array of numbers
the same as to listen,
the same as to see,
we really mean understanding.
540 million years of hard work
540 מיליון שנים של עבודה קשה
processing apparatus of our brains,
העיבוד החזותי של המוח שלנו,
from my Ph.D. at Caltech
מהדוקטורט שלי במכון הטכנולוגי של קליפורניה
collaborators and students
משתפי פעולה וסטודנטים,
computer vision and machine learning.
ראייה ממוחשבת ולמידת מכונה.
of artificial intelligence.
של אינטלגנציה מלאכותית.
the machines to see just like we do:
ללמד את המכונות לראות כמו שאנחנו רואים:
inferring 3D geometry of things,
להסיק גיאומטרית תלת מימדית של דברים,
actions and intentions.
of people, places and things
סיפורים שלמים של אנשים, מקומות ודברים
is to teach a computer to see objects,
הוא ללמד מחשב לראות חפצים,
imagine this teaching process
דמיינו את תהליך הלמידה הזה
some training images
כמה תמונות אימון של אובייקט מסוים,
from these training images.
a collection of shapes and colors,
אוסף של צורות וצבעים,
in the early days of object modeling.
של שימוש כמודל תיאורטי באובייקטים.
in a mathematical language
בשפה מתמטית
a chubby body,
גוף שמנמן,
and viewpoint to the object model.
למודל האובייקט.
as a household pet
of variations to the object model,
changed my thinking.
שינתה את המחשבה שלי.
real-world experiences and examples.
בעולם האמיתי ודוגמאות.
about every 200 milliseconds,
בערך כל 200 אלפיות השנייה,
hundreds of millions of pictures
מאות מיליוני תמונות
on better and better algorithms,
טובים יותר ויותר,
the kind of training data
את סוג מידע האימון
than we have ever had before,
ממה שהיו לנו אי פעם,
Kai Li at Princeton University,
מאוניברסיטת פרינסטון,
a camera on our head
מצלמה על ראשינו
that humans have ever created.
שהאדם יצר אי פעם.
like the Amazon Mechanical Turk platform
כמו הפלטפורמת המכניקל טורק של אמזון
the biggest employers
of the imagery
in the early developmental years.
בשנות ההתפתחות המוקדמות.
may seem obvious now,
נראה אולי ברור עכשיו,
for quite a while.
to do something more useful for my tenure,
שימושי יותר בשביל הקביעות שלי,
for research funding.
עם הסטודנטים שלי לתואר שני
my dry cleaner's shop to fund ImageNet.
לניקוי יבש שלי כדי לממן את אימג'נט.
my college years.
of objects and things
of domestic and wild cats.
חתולים ביתיים ופראיים.
to have put together ImageNet,
to benefit from it,
we opened up the entire data set
מערכת הנתונים שלנו
research community for free.
to nourish our computer brain,
במוח הממוחשב שלנו,
to the algorithms themselves.
of information provided by ImageNet
שסופק על ידי אימג'נט
of machine learning algorithms
של אלגוריתמים ללמידת מכונה
Geoff Hinton, and Yann LeCun
קוניהיקו פוקושימה, ג'ף הינטון ויאן לה-קון
of billions of highly connected neurons,
המחוברים היטב,
or even millions of nodes
או אולי אפילו מיליוני הצמתים
to train our object recognition model,
כדי לאמן את המודל זיהוי האובייקטים שלנו,
to train such a humongous model,
לאימון מודל כזה כביר,
in object recognition.
בזיהוי אובייקטים.
a boy and a teddy bear;
in the background;
railings, a lampost, and so on.
עמוד תאורה וכן הלאה.
is not so confident about what it sees,
במה שהוא רואה,
instead of committing too much,
במקום להתחייב יותר מדי,
is remarkable at telling us
מצויין בלהגיד לנו
of Google Street View images
של מפת הרחובות של גוגל
really interesting:
also correlate well
נמצאים בקשר ישיר
or even surpassed human capabilities?
את היכולות האנושיות?
the computer to see objects.
לראות אובייקטים.
learning to utter a few nouns.
שמות עצם.
milestone will be hit,
to communicate in sentences.
this is a cat in the picture,
telling us this is a cat lying on a bed.
שזה חתול ששוכב על מיטה.
to see a picture and generate sentences,
ולייצר משפטים,
and machine learning algorithm
לאלגוריתם לימוד מכונה
from both pictures
vision and language,
that connects parts of visual things
של דברים ויזואלים
computer vision models
הראייה הממוחשבת הראשונים
a human-like sentence
what the computer says
מה המחשב אומר
at the beginning of this talk.
next to an elephant.
of an airport runway.
to improve our algorithms,
כדי לשפר את האלגוריתמים שלנו,
on a bed in a blanket.
too many cats,
יותר מדי חתולים,
might look like a cat.
is holding a baseball bat.
it confuses it with a baseball bat.
הוא מבלבל את זה עם אלת בייסבול.
down a street next to a building.
במורד הרחוב ליד בניין.
to the computers.
מבוא לאומנות.
in a field of grass.
the stunning beauty of nature
את היופי המדהים של הטבע
from three to 13 and far beyond.
משלוש לשלוש עשרה ומעבר לזה.
of the boy and the cake again.
של הילד והעוגה שוב.
the computer to see objects
when seeing a picture.
כשהוא רואה תמונה.
at a table with a cake.
to this picture
is that this is a special Italian cake
עוגה איטלקית מיוחדת
after a trip to Sydney,
at that moment.
extra pairs of tireless eyes
שלא מתעייפות
and take care of patients.
and safer on the road.
בצורה חכמה יותר ובטוחה יותר בדרכים.
to save the trapped and wounded.
ולהציל את הלכודים והפצועים.
better materials,
חומרים טובים יותר,
with the help of the machines.
עם עזרה של המכונות.
to the machines.
won't be the only ones
לא יהיו העיניים היחידות
for their intelligence,
בשביל האינטליגנציה שלהם,
in ways that we cannot even imagine.
שאנחנו אפילו לא יכולים לדמיין.
for Leo and for the world.
בשביל ליאו ובשביל העולם.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com