Fei-Fei Li: How we're teaching computers to understand pictures
페이페이 리: 어떻게 컴퓨터가 사진을 이해하게 되었는가
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
침대에 앉아 있습니다."
that are going on an airplane.
사진을 보고 설명하는 것입니다.
a three-year-old child
in a series of photos.
to learn about this world,
배울 것이 많지만,
at one very important task:
이미 전문가 수준입니다.
technologically advanced than ever.
기술적으로 진보하고 있습니다.
we make phones that talk to us
말을 하는 전화를 만들거나
that can play only music we like.
맞춤형 라디오를 만듭니다.
machines and computers
to give you a progress report
in our research in computer vision,
and potentially revolutionary
선도적이고 혁명적인 기술이죠.
that can drive by themselves,
시험판을 만들더라도
they cannot really tell the difference
on the road, which can be run over,
밟아도 될 종이 봉투인지
which should be avoided.
구분할 수 없습니다.
카메라를 만들더라도
sight to the blind.
the changes of the rainforests.
is drowning in a swimming pool.
우리에게 경고해 주지는 않습니다.
an integral part of global life.
불가결한 부분이 되고 있습니다.
that's far beyond what any human,
다 볼 수 없을 분량의
to that at this TED.
is still struggling at understanding
소프트웨어도 아직까지는
관리하는데 애를 먹고 있습니다.
collectively as a society,
machines are still blind.
아직까지 장님이니까요.
물으실 수 있어요.
a two-dimensional array of numbers
the same as to listen,
똑같지 않듯이
the same as to see,
똑같지 않습니다.
we really mean understanding.
'이해한다'는 뜻이 있습니다.
540 million years of hard work
processing apparatus of our brains,
발달시키는데 소요되었고
from my Ph.D. at Caltech
공대 박사 과정에서부터
비전 연구실을 이끌기까지
collaborators and students
가르쳐왔습니다.
computer vision and machine learning.
기계 학습이라고 합니다.
of artificial intelligence.
the machines to see just like we do:
인간처럼 볼 수 있게 하려고 합니다.
inferring 3D geometry of things,
3차원 기하구조를 추측하고,
actions and intentions.
이해하게 하는 겁니다.
of people, places and things
이야기를 엮어낼 수 있습니다.
컴퓨터를 가르쳐
is to teach a computer to see objects,
보게 하는 것입니다.
imagine this teaching process
상상해보세요.
some training images
훈련용 이미지를 보여줍니다.
from these training images.
학습하는 모델을 설계합니다.
얼마나 어려울 수 있을까요?
a collection of shapes and colors,
in the early days of object modeling.
객체 모델링으로 한 일이죠.
in a mathematical language
수학적 언어로 표현합니다.
a chubby body,
긴 꼬리가 있다고 가르칩니다.
and viewpoint to the object model.
관점을 추가합니다.
as a household pet
of variations to the object model,
존재할 수 있고,
changed my thinking.
제 생각을 바꾸었습니다.
real-world experiences and examples.
사례로 보는 법을 배웁니다.
about every 200 milliseconds,
사진을 찍는 셈이죠.
hundreds of millions of pictures
현실세계 사진을 보게 됩니다.
on better and better algorithms,
알고리즘에만 집중하기보다,
the kind of training data
만들어야 했습니다.
데이터를 모아야 했습니다.
than we have ever had before,
Kai Li at Princeton University,
카이 리 교수와 함께
시작했습니다.
a camera on our head
머리에 카메라를 매달고
that humans have ever created.
다운로드했고
like the Amazon Mechanical Turk platform
크라우드 소싱 기술을 사용해
the biggest employers
최대 고용주였습니다.
of the imagery
in the early developmental years.
하는 것과 같았죠.
may seem obvious now,
이제 확실한 것 같습니다만,
for quite a while.
꽤 오래 됐습니다.
to do something more useful for my tenure,
더 유용한 일을 하라고 조언했고,
for research funding.
세탁소를 다시 열어야겠다고
my dry cleaner's shop to fund ImageNet.
my college years.
of objects and things
데이터베이스를 만들었고
of domestic and wild cats.
모든 종류를 망라합니다.
to have put together ImageNet,
to benefit from it,
나누고자 했습니다.
we opened up the entire data set
research community for free.
무료로 공개했습니다.
to nourish our computer brain,
영양을 공급할 데이터가 있고,
to the algorithms themselves.
of information provided by ImageNet
of machine learning algorithms
특정 분류에 딱 들어맞았는데,
Geoff Hinton, and Yann LeCun
제프리 힌튼, 양 루캉이
of billions of highly connected neurons,
수십억개로 구성된 것처럼
or even millions of nodes
to train our object recognition model,
사용한 전형적인 신경망에는
to train such a humongous model,
꽃피었습니다.
in object recognition.
우수한 구조가 되었습니다.
인식할 수 있고,
a boy and a teddy bear;
in the background;
railings, a lampost, and so on.
가로등 같은 것을 가려냅니다.
is not so confident about what it sees,
확신하지 못할 때는
instead of committing too much,
안전한 대답을 하게 합니다.
is remarkable at telling us
말해주기도 합니다.
연식 같은 것이죠.
of Google Street View images
구글 스크리트 뷰 이미지
really interesting:
also correlate well
관련이 있었습니다.
or even surpassed human capabilities?
따라잡거나 추월한 것인가요?
the computer to see objects.
사물 인식을 가르쳤을 뿐이에요.
learning to utter a few nouns.
배운 것과 같죠.
milestone will be hit,
to communicate in sentences.
소통을 하기 시작할 겁니다.
this is a cat in the picture,
'고양이입니다' 하는 대신
telling us this is a cat lying on a bed.
'고양이가 침대에 누워 있다'고 합니다.
to see a picture and generate sentences,
문장을 만들게 가르치려면,
and machine learning algorithm
알고리즘의 결합이
from both pictures
vision and language,
that connects parts of visual things
이미지의 단편과 같은
computer vision models
하나를 만들었습니다.
a human-like sentence
what the computer says
at the beginning of this talk.
코끼리 옆에 서 있습니다."
next to an elephant.
of an airport runway.
to improve our algorithms,
개량하려고 일하고 있고
on a bed in a blanket.
이불 안에 있습니다."
too many cats,
might look like a cat.
is holding a baseball bat.
야구 방망이를 들고 있습니다."
it confuses it with a baseball bat.
야구 방망이와 혼동합니다.
down a street next to a building.
건물 옆 길을 내려갑니다."
to the computers.
미술을 가르치지 않았습니다.
in a field of grass.
the stunning beauty of nature
아름다움에 감상하는 것을
힘들었습니다.
from three to 13 and far beyond.
그 이상으로 나아가는 것입니다.
of the boy and the cake again.
다시 보시죠.
the computer to see objects
사물을 식별하고
when seeing a picture.
at a table with a cake.
테이블에 앉아 있습니다."
to this picture
사람과 케이크 이외에
is that this is a special Italian cake
이 특별한 이태리 케이크가
티셔츠를 입고 있는데
after a trip to Sydney,
다녀와 선물로 준 것입니다.
얼마나 기뻐하는지,
at that moment.
이야기할 수 있습니다.
extra pairs of tireless eyes
쉬지 않는 기계 눈을 이용해
and take care of patients.
and safer on the road.
도로를 주행할 겁니다.
to save the trapped and wounded.
구하는 걸 도울 겁니다.
better materials,
새로운 종, 더 나은 물질을 발견하고
with the help of the machines.
탐험하게 될 겁니다.
to the machines.
시각을 주고 있습니다.
보는 것을 가르쳤습니다.
더 잘 보게 할 겁니다.
won't be the only ones
for their intelligence,
기계를 이용할 뿐만 아니라
in ways that we cannot even imagine.
기계와 협력하게 될 것입니다.
for Leo and for the world.
더 나은 미래를 만드는 것입니다.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com