Fei-Fei Li: How we're teaching computers to understand pictures
Фей-Фей Лі: Як ми вчимо комп'ютери розуміти зображення
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
який сидить на ліжку.
that are going on an airplane.
a three-year-old child
in a series of photos.
що бачить на фотографіях.
to learn about this world,
вивчити про цей світ,
at one very important task:
одне дуже важливе завдання:
technologically advanced than ever.
розвинене, ніж будь-коли.
we make phones that talk to us
ми створюємо телефони, які говорять,
that can play only music we like.
щоб вони грали лише нашу улюблену музику.
machines and computers
механізми і комп'ютери
з цим завданням.
to give you a progress report
про найостанніші досягнення
in our research in computer vision,
комп'ютерного розпізнавання об'єктів,
and potentially revolutionary
і потенційно революційних
that can drive by themselves,
які можуть самостійно рухатися,
they cannot really tell the difference
для них не буде різниці
on the road, which can be run over,
по якому можна проїхати,
which should be avoided.
що його краще об'їхати.
мегапіксельні фотокамери,
sight to the blind.
на величезні відстані, але не мають
розпізнавальних технологій,
the changes of the rainforests.
за змінами в тропічних лісах.
відеоспостереження,
is drowning in a swimming pool.
коли дитина тоне в басейні.
an integral part of global life.
невід'ємними частинами глобального життя.
that's far beyond what any human,
що людина або група людей
щоб переглянути їх усі,
to that at this TED.
у це на TED сьогодні.
is still struggling at understanding
все ще намагаються навчитися
базою даних.
collectively as a society,
ми всі як суспільство
machines are still blind.
все ще сліпі.
"Чому це так важко?"
такі як ось цей,
a two-dimensional array of numbers
на двовимірну сукупність цифр,
the same as to listen,
не одне й те саме, що чути,
the same as to see,
що бачити,
we really mean understanding.
розуміння.
540 million years of hard work
знадобилося 540 млн. років важкої роботи,
processing apparatus of our brains,
органу з обробки візуальної інформації,
from my Ph.D. at Caltech
отримання докторського ступеня в Калтех
Стенфордську лабораторію Vision Lab,
collaborators and students
співробітниками і студентами,
computer vision and machine learning.
комп'ютерне бачення
of artificial intelligence.
частиною сфери штучного інтелекту.
the machines to see just like we do:
навчити машини бачити так само, як ми:
inferring 3D geometry of things,
виводити 3D геометрію речей,
actions and intentions.
дії та наміри.
of people, places and things
цілі історії про людей, місця та речі,
is to teach a computer to see objects,
навчити комп'ютер бачити об'єкти,
imagine this teaching process
уявіть цей процес навчання,
some training images
певних тренувальних зображень
from these training images.
споглядаючи ці зображення.
a collection of shapes and colors,
сукупність форм і кольорів,
in the early days of object modeling.
до моделювання об'єкту.
in a mathematical language
математичною мовою,
a chubby body,
пухке тіло,
і довгого хвоста,
and viewpoint to the object model.
та іншу перспективу до моделі об'єкта.
as a household pet
як домашня тварина
of variations to the object model,
численну кількість варіацій,
changed my thinking.
змінило напрям моїх думок.
real-world experiences and examples.
досвід та на прикладах з реального світу.
about every 200 milliseconds,
приблизно кожних 200 мілісекунд,
hundreds of millions of pictures
сотні мільйонів зображень
on better and better algorithms,
виключно на покращенні алгоритмів,
the kind of training data
алгоритмам певний вид тренувальних даних,
зібрати сукупність даних,
than we have ever had before,
зображень, ніж ми мали до цього,
Kai Li at Princeton University,
університету Кай Лі
a camera on our head
камери на голови
that humans have ever created.
за всю історію людства.
мільярда зображень
like the Amazon Mechanical Turk platform
краудсорсингу, як Amazon Mechanical Turk,
the biggest employers
одним з найбільших роботодавців
Amazon Mechanical Turk:
сортувати та називати
зображень-кандидатів.
of the imagery
зображень,
in the early developmental years.
у перші роки життя.
щодо використання великої кількості даних
may seem obvious now,
може адаватися очевидною.
настільки очевидною.
for quite a while.
на цьому шляху.
to do something more useful for my tenure,
робити щось більш корисне на моїй посаді,
for research funding.
фінансування для нашого дослідження.
перед моїми випускниками,
my dry cleaner's shop to fund ImageNet.
аби фінансувати ImageNet.
my college years.
навчаючись в коледжі.
of objects and things
англійськими словами.
і в усіх позах,
of domestic and wild cats.
як домашніх, так і диких.
to have put together ImageNet,
досягнення ImageNet,
to benefit from it,
мав користь з цього,
we opened up the entire data set
ми відкрили усі дані
research community for free.
безкоштовно.
to nourish our computer brain,
для наповнення мозку комп'ютера,
to the algorithms themselves.
до алгоритмів.
of information provided by ImageNet
інформації, отримана з ImageNet,
of machine learning algorithms
навчальних алгоритмів для машин,
"згорнутою нейронною мережею",
Geoff Hinton, and Yann LeCun
Геоффом Гінтоном та Янном Лекуном
of billions of highly connected neurons,
з мільйонів поєднаних нейронів,
в нейронній мережі
or even millions of nodes
або навіть мільйони вузлів
to train our object recognition model,
ми використовуємо для тренування
має 24 мільйони вузлів,
з ImageNet
to train such a humongous model,
для тренування такої гігантської моделі,
in object recognition.
у розпізнаванні об'єкта.
окрім котів,
a boy and a teddy bear;
і плюшевий ведмедик;
in the background;
паперовий змій на задньому плані;
railings, a lampost, and so on.
огорожа, ліхтарний стовп і так далі.
is not so confident about what it sees,
у тому, що він бачить,
instead of committing too much,
а не брати на себе забагато,
is remarkable at telling us
алгоритм нашого комп'ютера
називає об'єкти,
рік випуску машин.
of Google Street View images
зображень Google Street View,
really interesting:
відому істину про те,
also correlate well
що ціни на машини також корелюються
в різних штатах.
or even surpassed human capabilities?
чи навіть перевищив людські можливості?
the computer to see objects.
бачити об'єкти.
learning to utter a few nouns.
вчиться вимовляти слова.
milestone will be hit,
наступний етап розвитку,
to communicate in sentences.
за допомогою речень.
this is a cat in the picture,
що на фото є кіт,
telling us this is a cat lying on a bed.
що є кіт, який лежить на ліжку.
to see a picture and generate sentences,
бачити фото і формулювати речення,
and machine learning algorithm
та навчальним алгоритмом для машин
from both pictures
використовуючи як фото,
vision and language,
поєднує бачення та мову,
that connects parts of visual things
яка поєднує частини візуальних речей,
computer vision models
моделей комп'ютерного розпізнавання,
a human-like sentence
подібні до людських речення,
what the computer says
що говорить комп'ютер,
at the beginning of this talk.
на початку моєї доповіді.
next to an elephant.
стоїть поряд зі слоном.
of an airport runway.
на злітно-посадковій смузі.
to improve our algorithms,
працювати над удосконаленням алгоритмів,
on a bed in a blanket.
в ковдрі.
too many cats,
дуже багато котів,
might look like a cat.
is holding a baseball bat.
тримає бейсбольну біту.
it confuses it with a baseball bat.
він переплутає її з бейсбольною битою.
down a street next to a building.
по вулиці біля будинку.
to the computers.
розуміти мистецтво.
in a field of grass.
на полі, вкритому травою.
the stunning beauty of nature
надзвичайну красу природи,
від 0 до 3 років.
from three to 13 and far beyond.
це пройти від 3 років до 13 і далі.
of the boy and the cake again.
з хлопчиком і пирогом.
the computer to see objects
бачити об'єкти
when seeing a picture.
про те, що він бачить на фото.
at a table with a cake.
за столом з пирогом.
to this picture
значно більше об'єктів,
is that this is a special Italian cake
що це спеціальний італійський пиріг,
улюблену футболку,
after a trip to Sydney,
наскільки він щасливий
at that moment.
в цей момент.
доведеться жити.
extra pairs of tireless eyes
додаткові пари невтомних очей,
and take care of patients.
та догляді за хворими.
and safer on the road.
і безпечніше на дорогах.
to save the trapped and wounded.
рятувати поранених людей.
better materials,
ми відкриємо нові види,
with the help of the machines.
і дослідимо небачені нові можливості.
to the machines.
нам бачити краще.
won't be the only ones
вже не єдині,
і досліджувати наш світ.
for their intelligence,
інтелект машин,
in ways that we cannot even imagine.
різними неймовірними способами.
візуальний інтелект
for Leo and for the world.
для Лео і для світу.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com