Fei-Fei Li: How we're teaching computers to understand pictures
Фей-Фей Ли: Как мы учим компьютеры понимать изображения
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
that are going on an airplane.
a three-year-old child
in a series of photos.
на фотографиях.
to learn about this world,
узнать об этом мире,
at one very important task:
справляется с очень важной задачей:
technologically advanced than ever.
больше, чем когда-либо.
we make phones that talk to us
создаём телефоны, которые говорят с нами,
that can play only music we like.
только такую музыку, которая нам нравится.
machines and computers
нашим самым продвинутым
to give you a progress report
с докладом
in our research in computer vision,
в области машинного зрения,
and potentially revolutionary
и потенциально революционных
that can drive by themselves,
беспилотных автомобилей,
they cannot really tell the difference
они не смогут отличить
on the road, which can be run over,
по которому можно проехать,
which should be avoided.
который стоит объехать.
мегапиксельные камеры,
sight to the blind.
огромные расстояния,
технологией зрения,
the changes of the rainforests.
динамику вырубки тропических лесов.
камеры видеонаблюдения,
is drowning in a swimming pool.
о тонущем в бассейне ребёнке.
an integral part of global life.
неотъемлемой частью нашей жизни.
that's far beyond what any human,
что их все невозможно просмотреть
to that at this TED.
поспособствовали.
is still struggling at understanding
обеспечению не под силу воспринимать
и управлять им.
collectively as a society,
machines are still blind.
всё ещё не умеют видеть.
спросите вы.
вот такие фотографии,
a two-dimensional array of numbers
в двухмерную числовую последовательность,
the same as to listen,
не то же самое, что «слушать»,
the same as to see,
что «видеть» их,
we really mean understanding.
имеется в виду «понимать».
540 million years of hard work
в течение 540 миллионов лет,
были направлены
processing apparatus of our brains,
визуальных данных в нашем мозге,
from my Ph.D. at Caltech
с аспирантуры в Калтехе,
лабораторию зрения,
collaborators and students
коллегами и студентами,
computer vision and machine learning.
машинное зрение и обучение машин.
of artificial intelligence.
искусственный интеллект.
the machines to see just like we do:
машины видеть, так как это можем мы:
inferring 3D geometry of things,
использовать трёхмерную геометрию вещей,
actions and intentions.
действия и намерения.
of people, places and things
о людях, местах, вещах —
is to teach a computer to see objects,
научить машины видеть объекты,
imagine this teaching process
some training images
обучающих изображений
from these training images.
на основе данных изображений.
a collection of shapes and colors,
набор очертаний и цветов,
in the early days of object modeling.
моделирования объектов.
in a mathematical language
мы сообщали компьютеру,
a chubby body,
пухленькое тело,
and viewpoint to the object model.
и точку обзора в модель.
as a household pet
of variations to the object model,
вариаций в модели объекта,
changed my thinking.
изменило ход моих мыслей.
как надо видеть,
real-world experiences and examples.
about every 200 milliseconds,
каждые 200 миллисекунд, —
hundreds of millions of pictures
сотни миллионов изображений
on better and better algorithms,
the kind of training data
такую же обучающую информацию,
собрать базу данных,
than we have ever had before,
чем когда-либо ранее,
Kai Li at Princeton University,
из Принстонского университета
a camera on our head
устанавливать камеру себе на голову
that humans have ever created.
из созданных человечеством.
like the Amazon Mechanical Turk platform
краудсорсинг-платформу
the biggest employers
из самых популярных работодателей
отсортировать и описать
of the imagery
той базы изображений,
in the early developmental years.
в ранние годы развития.
большого архива данных
may seem obvious now,
сейчас может показаться очевидной,
for quite a while.
не было единомышленников.
to do something more useful for my tenure,
мне заняться более полезным делом,
for research funding.
на исследования.
со своими студентами,
my dry cleaner's shop to fund ImageNet.
чтобы профинансировать ImageNet.
my college years.
я оплатила обучение в университете.
of objects and things
английских слов.
of domestic and wild cats.
to have put together ImageNet,
когда база ImageNet была готова.
to benefit from it,
всему научному сообществу.
we opened up the entire data set
неограниченный доступ к базе данных
research community for free.
to nourish our computer brain,
чтобы питать наш компьютерный мозг,
to the algorithms themselves.
of information provided by ImageNet
предоставленная ImageNet,
of machine learning algorithms
алгоритмов обучения машин,
свёрточная нейронная сеть,
Geoff Hinton, and Yann LeCun
Кунихико Фукушима, Джефф Хинтон
of billions of highly connected neurons,
из миллиардов взаимосвязанных нейронов,
нейронной сети
от одних узлов
or even millions of nodes
или даже миллионы таких узлов
to train our object recognition model,
которую мы используем для обучения
содержится 24 миллиона узлов,
на основе базы ImageNet
to train such a humongous model,
для обучения этой огромной модели,
эффективную систему
in object recognition.
результатов в распознавании объектов.
a boy and a teddy bear;
in the background;
воздушный змей на заднем фоне.
количеством объектов:
railings, a lampost, and so on.
перила, фонарь и т.д.
is not so confident about what it sees,
что он видит,
instead of committing too much,
ответ, без неоправданных рисков,
is remarkable at telling us
совершенно безошибочно сообщает нам,
и год выпуска автомобиля.
of Google Street View images
фотографий на Google Street View
really interesting:
also correlate well
цены на автомобили также зависят
в разных штатах.
or even surpassed human capabilities?
человеческие возможности?
the computer to see objects.
только видеть объекты.
learning to utter a few nouns.
учится произносить несколько слов.
milestone will be hit,
новый этап развития,
to communicate in sentences.
из слов предложения.
this is a cat in the picture,
что на картинке кошка,
telling us this is a cat lying on a bed.
что кошка лежит на кровати.
to see a picture and generate sentences,
картинку и составлять предложения,
and machine learning algorithm
и алгоритмом обучения машин
from both pictures
не только по фотографиям,
естественного языка,
vision and language,
что мозг объединяет зрение и язык,
that connects parts of visual things
соединяющую части визуальной картины,
к общему знаменателю
computer vision models
компьютерного зрения,
a human-like sentence
создавать предложения
what the computer says
что говорит компьютер,
at the beginning of this talk.
в начале этого доклада.
next to an elephant.
Рядом со слоном стоит мужчина.
of an airport runway.
на взлётно-посадочной полосе аэропорта.
to improve our algorithms,
работать над улучшением нашего алгоритма,
on a bed in a blanket.
Кот лежит на кровати в одеяле.
too many cats,
слишком много котов,
might look like a cat.
тоже выглядит как кот.
is holding a baseball bat.
Мальчик держит бейсбольную биту.
it confuses it with a baseball bat.
он принимает её за бейсбольную биту.
down a street next to a building.
по улице рядом со зданием.
to the computers.
основам искусства.
in a field of grass.
Зебра стоит на поле с травой.
the stunning beauty of nature
красоту природы так,
from three to 13 and far beyond.
до тринадцати и так далее.
of the boy and the cake again.
мальчика с тортом.
the computer to see objects
when seeing a picture.
что изображено на фотографии.
at a table with a cake.
Человек сидит за столом с тортом.
to this picture
изображено гораздо больше,
is that this is a special Italian cake
итальянский торт,
его любимая футболка,
after a trip to Sydney,
после поездки в Сидней.
как счастлив мальчик
at that moment.
extra pairs of tireless eyes
дополнительной парой неустающих глаз
and take care of patients.
и ухода за пациентами.
and safer on the road.
умнее и безопаснее.
to save the trapped and wounded.
и спасать людей из-под завалов.
better materials,
новые виды животных и растений,
with the help of the machines.
и расширим границы своей деятельности.
to the machines.
won't be the only ones
осваивать и осознавать мир
но и компьютерных глаз.
for their intelligence,
благодаря их интеллекту,
in ways that we cannot even imagine.
как никто и не мог вообразить.
for Leo and for the world.
для Лео и всего мира.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com