Fei-Fei Li: How we're teaching computers to understand pictures
فاي-فاي لي: كيف نقوم بتعليم الحواسيب لكي تفهم الصور
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
تجلس في السرير
that are going on an airplane.
على متن الطائرة
a three-year-old child
عمرها ثلاثة أعوام
in a series of photos.
مجموعة من الصور
to learn about this world,
لتتعلمه عن هذا العالم
at one very important task:
مهمة ضرورية جدًا
technologically advanced than ever.
بشكل لم يسبق له مثيل
we make phones that talk to us
أونجعل هواتفنا تتحدث إلينا
that can play only music we like.
تعزف الموسيقى التي نحبها فقط
machines and computers
الأكثر تطورًا
لتنفيذ هذه المهمة
to give you a progress report
لأعطيكم تقريرًا مرحليًا
in our research in computer vision,
في مجال الإبصار الحاسوبي،
and potentially revolutionary
بل وربما الثورية
that can drive by themselves,
تستطيع أن تقود نفسها بنفسها
they cannot really tell the difference
لن تستطيع تلك السيارات أن تميز الفرق بدقة
on the road, which can be run over,
بحيث يمكنها أن تمر فوقه
which should be avoided.
ينبغي عليها تجاوزها
تقاس دقتها بالميجا بكسل
sight to the blind.
أن تحلق فوق مساحات شاسعة
the changes of the rainforests.
في الغابات المطيرة
is drowning in a swimming pool.
طفل على الغرق في بركة سباحة
an integral part of global life.
جزءًا متكاملا مع الحياة على مستوى العالم
that's far beyond what any human,
بكثير مما كان أي إنسان
to that at this TED.
في مؤتمر TED هذا
is still struggling at understanding
تواجه مشكلة في استيعاب
collectively as a society,
نحن كمجتمع، بصورة جمعية
machines are still blind.
"لِمَ ذلك من الصعوبة بمكان؟"
a two-dimensional array of numbers
مصفوفة أرقام ثنائية البعد
the same as to listen,
the same as to see,
we really mean understanding.
نعني الفهم
540 million years of hard work
540 مليون سنة من العمل المُضني
processing apparatus of our brains,
بصرية في أدمغتنا
from my Ph.D. at Caltech
الدكتوراه في معهد كاليفورنيا للتكنولوجيا
مختبر الإبصار في ستانفورد
collaborators and students
ومعاونيّ وتلامذتي
computer vision and machine learning.
الإبصار الحاسوبي وتعليم الحواسيب
of artificial intelligence.
في الذكاء الصناعي
the machines to see just like we do:
الآلات لكي تبصر مثلنا تمامًا
inferring 3D geometry of things,
وتستدل على الأبعاد الثلاثية للأسطح
actions and intentions.
والأفعال والنوايا
of people, places and things
عن الناس والأماكن والأشياء
is to teach a computer to see objects,
هي أن نلقن الحاسوب كيف يرى الأشياء
imagine this teaching process
هذه العملية التلقينية
some training images
الصور التدريبية
from these training images.
من هذه الصور التدريبية
a collection of shapes and colors,
مجموعة أشكال وألوان
in the early days of object modeling.
لعملية نَمْذجة الأشياء
in a mathematical language
بلغة رياضية
a chubby body,
وجسم مُكْتَنِز
وذيل طويل
and viewpoint to the object model.
ومنظورًا آخرين للنموذج
as a household pet
كحيوان أليف
of variations to the object model,
من المتغيرات للنموذج
changed my thinking.
غيرت تفكيري
real-world experiences and examples.
والأمثلة في العالم الحقيقي
about every 200 milliseconds,
كل 200 ميللي ثانية تقريبًا
hundreds of millions of pictures
قد رأى مئات الملايين من الصور
on better and better algorithms,
الخوارزميات لوحدها
the kind of training data
نفس النوع من البيانات التدريبية
than we have ever had before,
مما كنا قد حصلنا عليه من قبل
Kai Li at Princeton University,
من جامعة برينستون
a camera on our head
نَنْصِب كاميرا فوق رؤوسنا
that humans have ever created.
أنتجته البشرية على الإطلاق
like the Amazon Mechanical Turk platform
التي توفرها منصة "أمازون ميكنيكال تورك" ـ
the biggest employers
واحدًا من أكبر المُشَغّلين
of the imagery
in the early developmental years.
في سنوات تطوره الأولى
الـ"بيانات كبيرة" (big data)
may seem obvious now,
قد تبدو واضحة الآن
for quite a while.
لوهلة من الزمن
to do something more useful for my tenure,
بشيء أكثر ملاءمة لمركزي
for research funding.
لتوفير التمويل لأبحاثنا
الذين كنت أشرف عليهم
my dry cleaner's shop to fund ImageNet.
التي أمتلكها من جديد لتمويل ImageNet
my college years.
مولت بها نفسي خلال دراستي الجامعية
of objects and things
الإنجليزية المستعملة يوميًا
of domestic and wild cats.
الأليفة منها والبرية
to have put together ImageNet,
من جمع شتات ImageNet
to benefit from it,
بأكمله من هذا المشروع
we opened up the entire data set
وفرنا قاعدة البيانات كاملة
research community for free.
to nourish our computer brain,
لنغذي عقل حاسوبنا
to the algorithms themselves.
للخوارزميات ذاتها
of information provided by ImageNet
المعلومات التي وفرها ImageNet
of machine learning algorithms
من خوارزميات تعليم الحواسيب
Geoff Hinton, and Yann LeCun
وجيف هينتون ويان لي كًن
من القرن الماضي
of billions of highly connected neurons,
مليارات الأعصاب المتصلة بقوة
في الشبكة العصبية
or even millions of nodes
أو حتى الملايين من هذه العُقَد
to train our object recognition model,
ندرب نموذج التعرف على الأشياء الخاص بنا
to train such a humongous model,
والصور لتدريب نموذج ضخم كهذا
in object recognition.
في مجال التعرف على الأشياء
a boy and a teddy bear;
in the background;
صغيرة في الخلفية
railings, a lampost, and so on.
وعمود إنارة وهلم جرًا
is not so confident about what it sees,
متأكدًا جدًا حيال ما يراه
instead of committing too much,
يرهق نفسه زيادة عن اللزوم
is remarkable at telling us
خوارزميتنا مميزة في إخبارنا
وطرازها وسنة صنعها
of Google Street View images
الصور في Google Street View
really interesting:
بين أسعار السيارات
also correlate well
السيارات ترتبط أيضًا بعلاقة وثيقة
حسب الأحياء والضواحي
or even surpassed human capabilities?
البشر أو تجاوزتها حتى؟
the computer to see objects.
كيف يرى الأشياء
learning to utter a few nouns.
يتعلم كيف ينطق بعض الكلمات
milestone will be hit,
to communicate in sentences.
this is a cat in the picture,
بأن ما في الصورة هو قطة
telling us this is a cat lying on a bed.
تخبرنا أن تلك هي قطة تستلقي على السرير
to see a picture and generate sentences,
ويولّد منها جملة
and machine learning algorithm
وخوارزميات تعليم الحواسيب
from both pictures
vision and language,
بين الرؤية واللغة
that connects parts of visual things
أجزاءً من الأشياء المرئيَة
computer vision models
نماذج الإبصار الحاسوبية
a human-like sentence
مقاربة للغة البشر
what the computer says
ما يقول الحاسوب
at the beginning of this talk.
في أول هذه المحادثة
next to an elephant.
of an airport runway.
to improve our algorithms,
باجتهاد لنطور خوارزميتنا
on a bed in a blanket.
في بطانية على سرير
too many cats,
الكثير من القطط
might look like a cat.
is holding a baseball bat.
it confuses it with a baseball bat.
من قبل فقد يخلط بينها وبين مضرب بيسبول
down a street next to a building.
في آخر الشارع بجانب مبنًى
to the computers.
درس مبادئ الفن
in a field of grass.
في حقل من العشب
the stunning beauty of nature
يُقَدّر جمال الطبيعة الساحر
ثلاث سنوات هو عمل شاق
from three to 13 and far beyond.
إلى 13 سنة وأبعد من ذلك
of the boy and the cake again.
للطفل والكعكة مرة أخرى
the computer to see objects
when seeing a picture.
at a table with a cake.
إلى مائدة مع كعكة
to this picture
والمزيد في هذه الصورة
is that this is a special Italian cake
هي كعكة إيطالية مميزة
after a trip to Sydney,
بعد رحلة إلى سيدني
at that moment.
في تلك اللحظة
extra pairs of tireless eyes
إضافية من العيون التي لا تَكِلّ
and take care of patients.
and safer on the road.
بشكل أذكى وأكثر أمانًا
وليس البشر فحسب
to save the trapped and wounded.
لينقذوا المحتجزين والجرحى
better materials,
ومواد أفضل
with the help of the machines.
بمساعدة الحواسيب
to the machines.
حاسة البصر للحواسيب
won't be the only ones
for their intelligence,
in ways that we cannot even imagine.
بطرق لا يمكننا حتى تخيلها
for Leo and for the world.
من أجل ليو ومن أجل العالم
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com