Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Resimleri anlamaları için bilgisayarları nasıl eğitiyoruz
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
istiyorum.
oturan bir kedi var.
sitting in a bed.
that are going on an airplane.
küçük bir kız çocuğu
a three-year-old child
anlatıyor.
in a series of photos.
to learn about this world,
gereken çok şey var
at one very important task:
uzman olmuş bile:
zamankinden daha fazla ilerlemiş durumda.
technologically advanced than ever.
we make phones that talk to us
konuşabilen ya da radyo kanallarını
that can play only music we like.
için düzenleyebilen telefonlar yapıyoruz.
machines and computers
ve bilgisayarlarımız
to give you a progress report
yapılan ileri düzeydeki
in our research in computer vision,
bilgi vermek için buradayım.
and potentially revolutionary
that can drive by themselves,
prototiplerine sahibiz,
they cannot really tell the difference
üzerinden geçilebilecek buruşmuş bir
on the road, which can be run over,
boyuttaki bir kaya
which should be avoided.
mümkün değil.
yapmamıza rağmen,
sight to the blind.
uçabilirler,
izlememize yardımcı olabilecek
the changes of the rainforests.
sahip değiller.
is drowning in a swimming pool.
bizi uyaramıyorlar.
an integral part of global life.
bir parçası haline geliyorlar.
that's far beyond what any human,
grupların görme umuduyla
to that at this TED.
sizler ve ben de buna katkı sağlıyoruz.
is still struggling at understanding
collectively as a society,
toplumun tamamı olarak
machines are still blind.
göremiyorlar.
diye soracaksınız.
fotoğraf çekebilirler,
a two-dimensional array of numbers
çevrilmiş hali ile,
bulunmakta.
taşımıyorlar.
the same as to listen,
anlama gelmiyorsa
the same as to see,
aynı şeyi ifade etmiyor.
we really mean understanding.
kastediyoruz.
540 million years of hard work
processing apparatus of our brains,
anlam kazanıyor.
from my Ph.D. at Caltech
başladığımda
yönlendirdiğimde
collaborators and students
öğrencilerimle birlikte
çalışıyorduk.
ve makine öğrenimi olarak anılıyordu.
computer vision and machine learning.
of artificial intelligence.
olarak geçiyordu.
the machines to see just like we do:
görebilmelerini öğretmek istedik,
inferring 3D geometry of things,
tanımlanması, 3B geometrileri tahmin
actions and intentions.
ve şiddet.
of people, places and things
eşyaların bütün hikayesini
is to teach a computer to see objects,
bilgisayara gördüğü şeyleri öğretmek,
imagine this teaching process
sürecini bi hayal edin,
some training images
ya da bir kedinin diyelim
gibi
from these training images.
tasarlamayı.
a collection of shapes and colors,
şekillerin ve renklerin bir derlemesi
in the early days of object modeling.
nesne modellemesi.
in a mathematical language
bilgisayara öğretmemiz gerekiyordu
a chubby body,
dolgun bir vücuda
sahip
and viewpoint to the object model.
ve farklı bir bakış açısı eklemeniz gerek.
as a household pet
of variations to the object model,
yapmak mümkün
changed my thinking.
fikrimi değiştirdi.
öğretmez,
real-world experiences and examples.
öğrenirler bunu.
about every 200 milliseconds,
bir fotoğraf çekerler,
bir zaman dilimi.
hundreds of millions of pictures
yüz milyonlarca
on better and better algorithms,
odaklanmak yerine,
the kind of training data
eğitici veri vermek üzerineydi,
than we have ever had before,
fazla, hatta binlerce kat daha fazla
Kai Li at Princeton University,
ile birlikte
başlattık.
a camera on our head
kamera alıp
that humans have ever created.
resim definesi.
like the Amazon Mechanical Turk platform
Resimleri tanımlamada bize yardımcı olmada
the biggest employers
çalışanlarına işveren en büyük
yardımcı oldu.
of the imagery
sadece belli bir bölümünü
in the early developmental years.
eğitmek için
may seem obvious now,
şu anda mümkün hale geldi,
bu mümkün değildi.
for quite a while.
anlamıyla kendi başımızaydık.
to do something more useful for my tenure,
kullanışlı şeyler yapmamı tavsiye ettiler,
for research funding.
için durmaksızın çabalıyorduk.
my dry cleaner's shop to fund ImageNet.
konusunda şaka yapıyordum.
my college years.
geçiniyordum.
of objects and things
ulaştı.
of domestic and wild cats.
to have put together ImageNet,
heyecanlıydık
to benefit from it,
bunlardan faydalanılsın istedik,
we opened up the entire data set
havuzumuzu
research community for free.
bir şekilde açtık.
to nourish our computer brain,
veriye sahibiz,
to the algorithms themselves.
dönecek kadar da hazırız.
of information provided by ImageNet
bilgi zenginliği, sonunda
of machine learning algorithms
edilen makine öğrenme algoritmalarının
eşleşmişti,
Geoff Hinton, and Yann LeCun
Geoff Hinton ve Yann LeCun'un yaptığı
of billions of highly connected neurons,
yüksek bağlantılı sinirler gibi,
or even millions of nodes
düğüm
to train our object recognition model,
modelimizi eğitmek için,
to train such a humongous model,
kullanılan modern CPU ve GPU'lar sayesinde
gelişti.
yeni sonuçlar üretmek için
in object recognition.
bize söylediği
a boy and a teddy bear;
in the background;
küçük bir uçurtmanın;
railings, a lampost, and so on.
direği v.b. gibi şeyler olduğu.
is not so confident about what it sees,
olamayınca
instead of committing too much,
is remarkable at telling us
algoritmamız bize dikkate değer şeyler
söylüyor.
of Google Street View images
ile yüzlerce Amerika şehrinden
really interesting:
also correlate well
zamanda
ile de bağlantılı.
or even surpassed human capabilities?
erişebildi mi hatta daha üstün geldi mi ?
the computer to see objects.
görmesini öğrettik.
learning to utter a few nouns.
söylemesini öğrenmesi gibi bir sey.
milestone will be hit,
noktası açığa çıkar,
to communicate in sentences.
başlar.
this is a cat in the picture,
demek yerine
telling us this is a cat lying on a bed.
yatağın üzerinde uzanan bir kedidir" diyor
to see a picture and generate sentences,
kurmak için eğitmek,
and machine learning algorithm
beraberliği için
from both pictures
vision and language,
gibi,
that connects parts of visual things
gibi görsel şeylerle
computer vision models
a human-like sentence
yeteneğine sahip
bir tane yaptık.
what the computer says
at the beginning of this talk.
next to an elephant.
Bir adam filin yanında duruyor.
of an airport runway.
oturuyor.
to improve our algorithms,
algoritmamızı geliştirmek için çalışıyoruz
on a bed in a blanket.
yatakta uzanıyor.
too many cats,
gördüğünden
might look like a cat.
düşünüyor.
is holding a baseball bat.
sopasını tutuyor.
it confuses it with a baseball bat.
görmemişse, beysbol sopasıyla karıştırıyor
down a street next to a building.
atını sokak aşağı sürüyor.
to the computers.
dersini öğretmedik.
in a field of grass.
duruyor.
the stunning beauty of nature
from three to 13 and far beyond.
daha ötesine götürebilmek.
of the boy and the cake again.
çocuk ve kekin olduğu.
the computer to see objects
görebilmesini
when seeing a picture.
anlatmasını bile öğrettik.
at a table with a cake.
masada oturuyor.
to this picture
pastadan
is that this is a special Italian cake
onun sadece Paskalya süresince
olduğu.
sonra kendisine hediye edilen
after a trip to Sydney,
at that moment.
söyleyebiliriz.
extra pairs of tireless eyes
hastalarla ilgilenmek için
and take care of patients.
göz çiftlerine sahip olacaklar.
and safer on the road.
daha akıllı bir şekilde gidecek.
to save the trapped and wounded.
kurtarmada bizimle göğüs gerecekler.
better materials,
with the help of the machines.
sınırları keşfedeceğiz.
to the machines.
veriyoruz.
bize yardım ediyor.
won't be the only ones
ve düşünmek için gözlerimiz
for their intelligence,
kullanmıyor,
in ways that we cannot even imagine.
şekilde onlarla iş birliği yapıyoruz.
for Leo and for the world.
gelecek oluşturmak.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com