Fei-Fei Li: How we're teaching computers to understand pictures
فی-فی لی: چطور به کامپیوترها فهمیدن عکسها را میاموزیم
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
آن گربه روی یک تخت خواب نشسته است.
that are going on an airplane.
در حال سوار شدن به هواپیما.
a three-year-old child
in a series of photos.
از عکسها میبیند را توصیف میکند.
to learn about this world,
برای یادگیری درباره این جهان داشته باشد.
at one very important task:
مهم دیگه تخصص دارد:
technologically advanced than ever.
از هر زمان دیگر پیشرفتهتر است.
we make phones that talk to us
تلفنهایی ساختیم که با ما صحبت میکنند
that can play only music we like.
که می توانند فقط موسیقی را که دوست داریم پخش کنند.
machines and computers
پیشرفته ترین ماشینها و رایانههای ما
مشکل دارند.
to give you a progress report
که یک گزارش پیشرفت به شما بدهم
in our research in computer vision,
در تحقیق ما بر روی بینایی رایانهای،
and potentially revolutionary
بصورت بالقوه انقلابیترین
that can drive by themselves,
که خودشان میتوانند رانندگی کنند،
they cannot really tell the difference
نمی توانند فرق بگذارند
on the road, which can be run over,
که میشه از روش با ماشین رد شد.
which should be avoided.
نباید از روش رد شد
عالی ساخته ایم،
sight to the blind.
که برفراز زمینهای وسیع پرواز کنند،
the changes of the rainforests.
نداریم.
is drowning in a swimming pool.
در حال غرق شدن است به ما هشدار نمیدهند.
an integral part of global life.
جز مهمی از زندگی جهانی هستند.
that's far beyond what any human,
یا گروهی از انسانها،
تولید میشوند،
to that at this TED.
یعنی تولید تصاویر مشارکت میکنیم.
is still struggling at understanding
نرم افزارها همچنان
collectively as a society,
به عنوان جامعه
machines are still blind.
ماشینهای ما هنوز نابینا هستند.
مثل این را بگیرند:
a two-dimensional array of numbers
آرایه دو بعدی اعداد
the same as to listen,
شنیدن با گوش کردن یکی نیستند،
the same as to see,
we really mean understanding.
540 million years of hard work
processing apparatus of our brains,
from my Ph.D. at Caltech
collaborators and students
تلاش کرده ام
computer vision and machine learning.
بینایی رایانه ای و آموزش ماشین هست.
of artificial intelligence.
the machines to see just like we do:
یاد بدهیم که ببینند همانند ما:
inferring 3D geometry of things,
، استنباط سه بعدی از اشیا
actions and intentions.
of people, places and things
و اشیا میافتد
is to teach a computer to see objects,
که به رایانهها یاد بدهیم تا اشیا را ببینند؛
imagine this teaching process
را مانند نشان دادن تعدادی
some training images
from these training images.
که ازدیدن این عکسها یاد میگیرد.
a collection of shapes and colors,
از شکل ها و رنگها،
in the early days of object modeling.
طراحی اشیا انجام میدادیم.
in a mathematical language
a chubby body,
بدن تپل دارد،
and viewpoint to the object model.
زاویه دید دیگه به مدل شی اضافه کنید
as a household pet
of variations to the object model,
گونه گون از مدل شی را ارائه کند،
changed my thinking.
طرز فکر من را تغییر داد.
real-world experiences and examples.
دنیای واقعی یاد میگیرند.
about every 200 milliseconds,
یک تصویر میگیرند،
حرکت چشم صورت میگیرد.
hundreds of millions of pictures
صدها میلیون تصویر
on better and better algorithms,
بهتر و بهتر
the kind of training data
ـآن دسته از دادههای آموزشی
متوجه شدیم که
than we have ever had before,
عکس داشته باشد،
Kai Li at Princeton University,
در دانشگاه پرینستون
در سال ۲۰۰۷ راه اندازی کردیم.
a camera on our head
که یک دوربین روی سرمان نصب کنیم
that humans have ever created.
که انسانها تاکنون آفریده اند.
like the Amazon Mechanical Turk platform
همانند Amazon Mechanical Turk platform
عکسها به ما کمک کند.
the biggest employers
از بزرگترین کارفرماهای
نزدیک به یک میلیارد عکس منتخب را
of the imagery
in the early developmental years.
تکامل خود انجام میدهد.
ایده استفاده از حجم عظیم دادهها
may seem obvious now,
شاید الان بدیهی بنظر برسد،
for quite a while.
to do something more useful for my tenure,
که برای استخدام قطعی من کار مفیدتری بکنم
for research funding.
شوخی کردم که
my dry cleaner's shop to fund ImageNet.
حشکشوییام را دوباره باز کنم.
my college years.
پول تحصیلام را در آورده بودم.
of objects and things
تحویل داد.
of domestic and wild cats.
to have put together ImageNet,
هیجان زده بودیم و
to benefit from it,
از آن بهره ببرند
we opened up the entire data set
تمام مجموعه داده را
research community for free.
باز کردیم.
to nourish our computer brain,
رایانه هایمان داریم،
to the algorithms themselves.
خود الگوریتم ها.
of information provided by ImageNet
وفور اطلاعات تهیه شده توسط ImageNet
of machine learning algorithms
یادگیری ماشینی
تطابق داشت،
Geoff Hinton, and Yann LeCun
جف هینتون و یان لیکان
of billions of highly connected neurons,
نورون پیوسته تشکیل شده
or even millions of nodes
میلیونها گره
to train our object recognition model,
مدل تشخیص اشیا،
از ImageNet
to train such a humongous model,
برای آموزش چنین مدل یکدستی،
شکوفا شد.
in object recognition.
در تشخیص اشیا.
هست که به ما میگوید
a boy and a teddy bear;
و یک عروسک خرس؛
in the background;
در پس زمینه؛
railings, a lampost, and so on.
تیر چراغ برق و چیزهای دیگر.
is not so confident about what it sees,
از چیزی که به آن نگاه میکند،
instead of committing too much,
به ما بدهد،
is remarkable at telling us
در گفتن اینکه
of Google Street View images
در صدها شهر آمریکا اعمال کردیم
really interesting:
also correlate well
بستگی زیادی هم به
کدپستی دارد.
or even surpassed human capabilities?
مطابقت دارد یا از آن پیشی گرفته؟
the computer to see objects.
که اشیا را ببیند.
learning to utter a few nouns.
یاد بگیرد چند اسم بگوید.
milestone will be hit,
to communicate in sentences.
تا بصورت گفتن جمله ارتباط برقرار کنند.
this is a cat in the picture,
این یک گربه در این عکس است که قبلا شنیدید
telling us this is a cat lying on a bed.
یک گربه خوابیده روی تخت است.
to see a picture and generate sentences,
ببیند و جملاتی تولید کند،
and machine learning algorithm
الگوریتم آموزش ماشین
from both pictures
vision and language,
زبان را به هم میآمیزد
that connects parts of visual things
اجسام بصری
computer vision models
a human-like sentence
همانند انسانها هست تولید کردیم.
what the computer says
که یک رایانه وقتی تصویری که
at the beginning of this talk.
next to an elephant.
ایستاده است.
of an airport runway.
باند پروازفرودگاه نشسته.
to improve our algorithms,
میکنیم که الگوریتممان را بهتر کنیم،
on a bed in a blanket.
دراز کشیده روی تخت.
too many cats,
تعداد زیادی گربه میبیند
might look like a cat.
is holding a baseball bat.
یک چوب بیسبال در دست دارد.
it confuses it with a baseball bat.
آن را با چوب بیسبال اشتباه میگیرد.
down a street next to a building.
کنار یک ساختمان اسب سواری میکند.
to the computers.
هنر پایه تدریس نکردیم.
in a field of grass.
در زمینی پوشیده از علف.
the stunning beauty of nature
زیبایی مسحور کننده طبیعت
دشوار بود.
from three to 13 and far beyond.
۱۳ سالگی و فراتر هست.
of the boy and the cake again.
پسر و کیک یادآوری کنم.
the computer to see objects
که اجسام را ببیند
when seeing a picture.
یک داستان ساده به ما بگوید.
at a table with a cake.
با یک کیک.
to this picture
خیلی چیزهای دیگر غیر از یک
is that this is a special Italian cake
این یک کیک مخصوص ایتالیایی
هست.
after a trip to Sydney,
به سیدنی به او داده شده.
که چقدر خوشحال هست
at that moment.
extra pairs of tireless eyes
خستگی ناپذیراضافه خواهند داشت
and take care of patients.
و مراقبت از بیماران.
and safer on the road.
در جادهها حرکت خواهند کرد.
to save the trapped and wounded.
نجات مصدومان و زخمیها کمک خواهند کرد.
better materials,
مواد بهتر،
with the help of the machines.
اکتشاف خواهیم کرد.
to the machines.
won't be the only ones
تنها چشمانی نخواهند بود
for their intelligence,
هوش آنها استفاده میکنیم،
in ways that we cannot even imagine.
نمیتوانیم تصور کنیم همکاری خواهیم کرد.
for Leo and for the world.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com