ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com
TED2017

Joseph Redmon: How computers learn to recognize objects instantly

Joseph Redmon: Bilgisayarlar nesneleri nasıl çabucak kavrıyorlar?

Filmed:
2,471,805 views

Bundan on yıl önce, araştırmacılar bir bilgisayarın kedi ile köpek arasındaki farkı ayırt etmesinin imkânsız olduğunu düşünürlerdi. Artık, bilgisayarlı görme sistemleri %99'dan çok doğru sonuç veriyor. Nasıl mı? Joseph Redmon YOLO adlı bir sistem geliştirdi; açık kaynaklı nesne belirleme sistemi. Resimlerdeki veya videolardaki zebralardan DUR işaretlerine, her şeyi ışık hızında tespit edebiliyor. Projesini canlı olarak uygulamaya koyduğu bu konuşmasında Redmon; sürücüsüz araba, robotik ve hatta kanser belirleme gibi alanlarda bizi öne taşıyan bu uygulamayı aktarıyor.
- Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time. Full bio

Double-click the English transcript below to play the video.

00:12
TenOn yearsyıl agoönce,
0
825
1151
On yıl evvel,
00:14
computerbilgisayar visionvizyon researchersaraştırmacılar
thought that gettingalma a computerbilgisayar
1
2000
2776
bilgisayarlı görme araştırmacıları,
bir bilgisayara bir köpekle kedi
arasında ayrım yaptırmanın
00:16
to tell the differencefark
betweenarasında a catkedi and a dogköpek
2
4800
2696
neredeyse imkânsız olacağını düşünürdü,
00:19
would be almostneredeyse impossibleimkansız,
3
7520
1976
hem de yapay zekâ alanındaki
büyük gelişmelere rağmen.
00:21
even with the significantönemli advanceilerlemek
in the statebelirtmek, bildirmek of artificialyapay intelligencezeka.
4
9520
3696
00:25
Now we can do it at a levelseviye
greaterbüyük than 99 percentyüzde accuracydoğruluk.
5
13240
3560
Şu anda bunu, yüzde 99'ı aşkın
doğruluk payı ile tamamlayabiliyoruz.
00:29
This is calleddenilen imagegörüntü classificationsınıflandırma --
6
17680
1856
Buna görüntü sınıflandırması deniyor;
00:31
give it an imagegörüntü,
put a labeletiket to that imagegörüntü --
7
19560
3096
bir görüntü yükleyin,
bu görüntüyü etiketleyin
ve bilgisayarlar binlerce diğer
sınıflandırmaları da biliyor.
00:34
and computersbilgisayarlar know
thousandsbinlerce of other categorieskategoriler as well.
8
22680
3040
00:38
I'm a graduatemezun olmak studentÖğrenci
at the UniversityÜniversitesi of WashingtonWashington,
9
26680
2896
Washington Üniversitesi mezunuyum
ve bilgisayarlı görme modellerini
00:41
and I work on a projectproje calleddenilen DarknetDarknet,
10
29600
1896
test etmek ve geliştirmek için kurulan,
00:43
whichhangi is a neuralsinirsel network frameworkiskelet
11
31520
1696
00:45
for trainingEğitim and testingtest yapmak
computerbilgisayar visionvizyon modelsmodeller.
12
33240
2816
sinirsel ağ sistemi olan ''Darknet''
adlı bir proje üzerinde çalışıyorum.
00:48
So let's just see what DarknetDarknet thinksdüşünüyor
13
36080
2976
Darknet'in şu fotoğraf hakkında
neler düşündüğüne bir göz atalım.
00:51
of this imagegörüntü that we have.
14
39080
1760
00:54
When we runkoş our classifierSınıflandırıcısı
15
42520
2336
Bu fotoğraf için sınıflandırıcımızı
aktifleştirdiğimizde,
00:56
on this imagegörüntü,
16
44880
1216
sadece kedi veya köpek tahmini
elde etmiyoruz,
00:58
we see we don't just get
a predictiontahmin of dogköpek or catkedi,
17
46120
2456
belirli tür tahminleri de sonuç veriyor.
01:00
we actuallyaslında get
specificözel breeddoğurmak predictionstahminler.
18
48600
2336
01:02
That's the levelseviye
of granularityparçalı yapı we have now.
19
50960
2176
Şu anda, öğe boyu seviyesini görüyorsunuz.
Ve doğru.
01:05
And it's correctdoğru.
20
53160
1616
Köpeğimin cinsi gerçekten Alaska Malamutu.
01:06
My dogköpek is in factgerçek a malamuteMalamute.
21
54800
1840
01:09
So we'vebiz ettik madeyapılmış amazingşaşırtıcı stridesadımlar
in imagegörüntü classificationsınıflandırma,
22
57040
4336
Görüntü sınıflandırmasında
büyük yol katettik,
fakat sınıflandırıcımızı,
şöyle bir fotoğrafta aktifleştirirsek
01:13
but what happensolur
when we runkoş our classifierSınıflandırıcısı
23
61400
2000
01:15
on an imagegörüntü that looksgörünüyor like this?
24
63424
1960
ne olur dersiniz?
01:19
Well ...
25
67080
1200
Evet...
01:24
We see that the classifierSınıflandırıcısı comesgeliyor back
with a prettygüzel similarbenzer predictiontahmin.
26
72640
3896
Sınıflandırıcının oldukça benzer bir
tahmin sunduğunu görebiliriz.
Sonuç doğru,
görüntüde Alaska Malamutu var,
01:28
And it's correctdoğru,
there is a malamuteMalamute in the imagegörüntü,
27
76560
3096
fakat yalnızca bu etiket ile birlikte,
01:31
but just givenverilmiş this labeletiket,
we don't actuallyaslında know that much
28
79680
3696
görüntüde neler olduğunu
çok iyi anlayamıyoruz.
01:35
about what's going on in the imagegörüntü.
29
83400
1667
Daha güçlü bir şeye ihtiyacımız var.
01:37
We need something more powerfulgüçlü.
30
85091
1560
01:39
I work on a problemsorun
calleddenilen objectnesne detectionbulma,
31
87240
2616
Nesne belirleme dediğimiz
konu üzerine çalışmaktayım;
görüntüye bakıp içerisindeki
bütün nesneleri bulmaya çalışıyor,
01:41
where we look at an imagegörüntü
and try to find all of the objectsnesneleri,
32
89880
2936
etrafına sınırlayıcı kutu koyup
01:44
put boundingsınırlayıcı boxeskutuları around them
33
92840
1456
01:46
and say what those objectsnesneleri are.
34
94320
1520
nesneleri tanımlıyoruz.
01:48
So here'sburada what happensolur
when we runkoş a detectorDedektör on this imagegörüntü.
35
96400
3280
Bu görüntü üzerinde
saptama uygulaması yapalım.
01:53
Now, with this kindtür of resultsonuç,
36
101240
2256
Bu tarz bir bulgu ile,
01:55
we can do a lot more
with our computerbilgisayar visionvizyon algorithmsalgoritmalar.
37
103520
2696
bilgisayarlı görme algoritması
bizi daha ileriye taşıyabilir.
01:58
We see that it knowsbilir
that there's a catkedi and a dogköpek.
38
106240
2976
Kedi ve köpek olduğunu
saptadığını biliyoruz.
Birbirleri arasındaki mesafeyi,
02:01
It knowsbilir theironların relativebağıl locationsyerleri,
39
109240
2256
onların boyutlarını biliyor.
02:03
theironların sizeboyut.
40
111520
1216
02:04
It mayMayıs ayı even know some extraekstra informationbilgi.
41
112760
1936
Daha fazlasını bile biliyor olabilir.
Arka planda bir kitap var.
02:06
There's a bookkitap sittingoturma in the backgroundarka fon.
42
114720
1960
02:09
And if you want to buildinşa etmek a systemsistem
on topüst of computerbilgisayar visionvizyon,
43
117280
3256
Bilgisayarlı görme üzerine
bir sistem kurmak isterseniz,
02:12
say a self-drivingkendi kendine sürüş vehiclearaç
or a roboticrobotik systemsistem,
44
120560
3456
sürücüsüz araç veya robot sistemi gibi,
bu tarz bir bilgiye ihtiyacınız olacaktır.
02:16
this is the kindtür
of informationbilgi that you want.
45
124040
2456
Dış dünya ile temas kurabileceğiniz
bir şey olması gerekir.
02:18
You want something so that
you can interactetkileşim with the physicalfiziksel worldDünya.
46
126520
3239
02:22
Now, when I startedbaşladı workingçalışma
on objectnesne detectionbulma,
47
130759
2257
Nesne belirleme üzerine
çalışmaya başladığımda,
02:25
it tookaldı 20 secondssaniye
to processsüreç a singletek imagegörüntü.
48
133040
3296
tek bir görüntüyü işlemesi
20 saniye sürüyordu.
02:28
And to get a feel for why
speedhız is so importantönemli in this domaindomain,
49
136360
3880
Hızın bu alanda neden bu denli
önemli olduğundan bahsedecek olursak;
02:33
here'sburada an exampleörnek of an objectnesne detectorDedektör
50
141120
2536
bir görüntüyü işlemesi 2 saniye süren
02:35
that takes two secondssaniye
to processsüreç an imagegörüntü.
51
143680
2416
bir nesne belirleyicisine göz atalım.
02:38
So this is 10 timeszamanlar fasterDaha hızlı
52
146120
2616
20 saniyede resmi işleyebilene göre,
02:40
than the 20-seconds-per-image-saniye-başına-görüntü detectorDedektör,
53
148760
3536
10 kat daha hızlı çalışıyor
ve gördüğünüz üzere, o tahmin edene kadar,
02:44
and you can see that by the time
it makesmarkaları predictionstahminler,
54
152320
2656
dünyadaki bütün durum değişmiş oluyor
02:47
the entiretüm statebelirtmek, bildirmek of the worldDünya has changeddeğişmiş,
55
155000
2040
02:49
and this wouldn'tolmaz be very usefulişe yarar
56
157880
2416
ve uygulamada
pek de fayda sağlamıyor.
02:52
for an applicationuygulama.
57
160320
1416
02:53
If we speedhız this up
by anotherbir diğeri factorfaktör of 10,
58
161760
2496
Bir 10 kat daha hızlandıracak olursak,
02:56
this is a detectorDedektör runningkoşu
at fivebeş framesçerçeveler perbaşına secondikinci.
59
164280
2816
bu işlemci her saniye
5 kare saptama gücüne sahip.
02:59
This is a lot better,
60
167120
1536
Durum çok daha iyi,
03:00
but for exampleörnek,
61
168680
1976
ama örneğin;
03:02
if there's any significantönemli movementhareket,
62
170680
2296
kayda değer bir hareket durumu mevcutsa,
03:05
I wouldn'tolmaz want a systemsistem
like this drivingsürme my cararaba.
63
173000
2560
böyle bir sistemin
arabamı sürmesini istemezdim.
03:09
This is our detectionbulma systemsistem
runningkoşu in realgerçek time on my laptopdizüstü.
64
177120
3240
Gördüğünüz, bilgisayarımdaki
eş zamanlı belirleme sistemimiz.
03:13
So it smoothlydüzgünce tracksraylar me
as I movehareket around the frameçerçeve,
65
181000
3136
Kare etrafında hareket ederken,
usulca beni takip ediyor;
03:16
and it's robustgüçlü to a widegeniş varietyvaryete
of changesdeğişiklikler in sizeboyut,
66
184160
3720
boyut, duruş, ileri, geri gibi
çok çeşitli değişkenlere
03:21
posepoz,
67
189440
1200
kolayca
03:23
forwardileri, backwardgeriye dönük.
68
191280
1856
adapte olabiliyor.
Harika.
03:25
This is great.
69
193160
1216
Bilgisayarlı görme üzerine
sistem ekleyeceksek,
03:26
This is what we really need
70
194400
1736
03:28
if we're going to buildinşa etmek systemssistemler
on topüst of computerbilgisayar visionvizyon.
71
196160
2896
işte tam da buna ihtiyacımız var.
03:31
(ApplauseAlkış)
72
199080
4000
(Alkış)
03:36
So in just a fewaz yearsyıl,
73
204280
2176
Birkaç yıl içinde,
03:38
we'vebiz ettik gonegitmiş from 20 secondssaniye perbaşına imagegörüntü
74
206480
2656
kare başına 20 saniyeden
03:41
to 20 millisecondsmilisaniye perbaşına imagegörüntü,
a thousandbin timeszamanlar fasterDaha hızlı.
75
209160
3536
kare başına 20 milisaniyeye geçtik,
bu bin kat daha hızlı demek oluyor.
03:44
How did we get there?
76
212720
1416
Bunu nasıl başardık?
03:46
Well, in the pastgeçmiş,
objectnesne detectionbulma systemssistemler
77
214160
3016
Önceleri nesne belirleme sistemleri
03:49
would take an imagegörüntü like this
78
217200
1936
böyle bir kareyi alıp
03:51
and splitBölünmüş it into a bunchDemet of regionsbölgeler
79
219160
2456
onu birçok alana bölerdi
03:53
and then runkoş a classifierSınıflandırıcısı
on eachher of these regionsbölgeler,
80
221640
3256
ve bu bölgelerde
sınıflandırıcı etklinleştirirdi
03:56
and highyüksek scoresSkorlar for that classifierSınıflandırıcısı
81
224920
2536
ve sınıflandırıcı
daha çok çentiklenen kısmı,
03:59
would be considereddüşünülen
detectionstespitleri in the imagegörüntü.
82
227480
3136
o karenin belirlenen alanı
olarak kabul ediyordu.
04:02
But this involvedilgili runningkoşu a classifierSınıflandırıcısı
thousandsbinlerce of timeszamanlar over an imagegörüntü,
83
230640
4056
Bunu yapabilmek için o kare üzerinde
sınıflandırıcıyı bin kez işlemeniz gerek,
04:06
thousandsbinlerce of neuralsinirsel network evaluationsdeğerlendirme
to produceüretmek detectionbulma.
84
234720
2920
belirleme yapabilmek için
binlerce sinir ağı değerlendirmesi.
04:11
InsteadBunun yerine, we trainedeğitilmiş a singletek network
to do all of detectionbulma for us.
85
239240
4536
Bunun yerine, bütün belirlemeyi
yapabilen tek bir ağ tasarladık.
04:15
It producesüretir all of the boundingsınırlayıcı boxeskutuları
and classsınıf probabilitiesolasılıklar simultaneouslyeşzamanlı.
86
243800
4280
Bütün sınırlayıcı kutuları oluşturuyor
ve aynı anda olasılıkları sınıflandırıyor.
04:20
With our systemsistem, insteadyerine of looking
at an imagegörüntü thousandsbinlerce of timeszamanlar
87
248680
3496
Bu sistemle birlikte, tek bir kareye
belirleme oluşturabilmek için
bin kez bakmak yerine,
04:24
to produceüretmek detectionbulma,
88
252200
1456
yalnızca bir kez bakıyorsunuz
04:25
you only look oncebir Zamanlar,
89
253680
1256
04:26
and that's why we call it
the YOLOYOLO methodyöntem of objectnesne detectionbulma.
90
254960
2920
ve bu yüzden bu nesne belirleme
sistemine YOLO adını verdik.
04:31
So with this speedhız,
we're not just limitedsınırlı to imagesGörüntüler;
91
259360
3976
Bu hız görüntülerle sınırlı kalmıyor,
04:35
we can processsüreç videovideo in realgerçek time.
92
263360
2416
videoları eş zamanlı
olarak işleyebiliyoruz.
Ve artık sadece kedi
ve köpek görmenin yanı sıra,
04:37
And now, insteadyerine of just seeinggörme
that catkedi and dogköpek,
93
265800
3096
etrafta hareket edip birbirleriyle
iletişimini de görebiliyoruz.
04:40
we can see them movehareket around
and interactetkileşim with eachher other.
94
268920
2960
04:46
This is a detectorDedektör that we trainedeğitilmiş
95
274560
2056
Microsoft'un COCO verisetindeki
04:48
on 80 differentfarklı classessınıflar
96
276640
4376
80 farklı sınıfta
04:53
in Microsoft'sMicrosoftâ €™ s COCOCOCO datasetveri kümesi.
97
281040
3256
bu belirleyiciyi geliştirdik.
04:56
It has all sortssıralar of things
like spoonkaşık and forkçatal, bowlçanak,
98
284320
3336
Kaşık, çatal, kase gibi
her türlü sıradan nesneyi
04:59
commonortak objectsnesneleri like that.
99
287680
1800
bünyesinde barındırıyor.
05:02
It has a varietyvaryete of more exoticegzotik things:
100
290360
3096
Daha egzotik çeşitlilikleri de algılıyor;
05:05
animalshayvanlar, carsarabalar, zebrasZebralar, giraffesZürafalar.
101
293480
3256
hayvanlar, arabalar, zebralar, zürafalar.
05:08
And now we're going to do something funeğlence.
102
296760
1936
Şimdi eğlenceli bir şey yapacağız.
05:10
We're just going to go
out into the audienceseyirci
103
298720
2096
Seyirciye yönelteceğiz
05:12
and see what kindtür of things we can detectbelirlemek.
104
300840
2016
ve neler belirleyeceğimize bir bakalım.
05:14
Does anyonekimse want a stuffeddolma animalhayvan?
105
302880
1620
Peluş hayvan isteyen var mı?
05:18
There are some teddyTeddy bearsayılar out there.
106
306000
1762
Ayısı olanlar var.
05:22
And we can turndönüş down
our thresholdeşik for detectionbulma a little bitbit,
107
310040
4536
Belirleme eşiğimizi birazcık düşürelim,
böylece sizleri daha çok görmüş oluruz.
05:26
so we can find more of you guys
out in the audienceseyirci.
108
314600
3400
05:31
Let's see if we can get these stop signsişaretler.
109
319560
2336
DUR işaretlerini algılayacak mı bakalım.
05:33
We find some backpackssırt çantaları.
110
321920
1880
Sırt çantaları görüyoruz.
05:37
Let's just zoomyakınlaştırma in a little bitbit.
111
325880
1840
Biraz daha yakınlaştıralım.
05:42
And this is great.
112
330320
1256
Harika.
05:43
And all of the processingişleme
is happeningolay in realgerçek time
113
331600
3176
Bütün işlemler,
bilgisayarda eş zamanlı olarak
eşleşiyor.
05:46
on the laptopdizüstü.
114
334800
1200
05:49
And it's importantönemli to rememberhatırlamak
115
337080
1456
Bu, genel kullanım amaçlı bir
05:50
that this is a generalgenel purposeamaç
objectnesne detectionbulma systemsistem,
116
338560
3216
nesne belirme sistemi,
05:53
so we can traintren this for any imagegörüntü domaindomain.
117
341800
5000
dolayısıyla herhangi bir
resim işleme alanında geliştirilebilir.
06:00
The sameaynı codekod that we use
118
348320
2536
DUR işaretlerini veya yayaları,
sürücüsüz araçları ve bisikletleri
06:02
to find stop signsişaretler or pedestriansyayalar,
119
350880
2456
belirlemede kullandığımız aynı kod,
06:05
bicyclesbisikletler in a self-drivingkendi kendine sürüş vehiclearaç,
120
353360
1976
doku biyopsisinde kanser hücrelerini
06:07
can be used to find cancerkanser cellshücreler
121
355360
2856
tespit etmede kullanılabilir.
06:10
in a tissuedoku biopsyBiyopsi.
122
358240
3016
06:13
And there are researchersaraştırmacılar around the globeküre
alreadyzaten usingkullanma this technologyteknoloji
123
361280
4040
Tıp, robotik gibi alanlarda
ilerleme kaydetmek adına
dünya çapında bu teknolojiyi
kullanan araştırmacılar var.
06:18
for advancesgelişmeler in things
like medicinetıp, roboticsRobotik.
124
366240
3416
06:21
This morningsabah, I readokumak a paperkâğıt
125
369680
1376
Bu sabah gazetede,
06:23
where they were takingalma a censussayım
of animalshayvanlar in NairobiNairobi NationalUlusal ParkPark
126
371080
4576
Nairobi Milli Parkındaki
hayvanların sayımını
YOLO belirleme sistemini
kullanarak gerçekleştirdiklerini okudum.
06:27
with YOLOYOLO as partBölüm
of this detectionbulma systemsistem.
127
375680
3136
06:30
And that's because DarknetDarknet is openaçık sourcekaynak
128
378840
3096
Darknet açık kaynak olduğu için
gerçekleşen bir hadise bu,
kamuya açık, erişime ücretsiz açık.
06:33
and in the publichalka açık domaindomain,
freeücretsiz for anyonekimse to use.
129
381960
2520
06:37
(ApplauseAlkış)
130
385600
5696
(Alkış)
06:43
But we wanted to make detectionbulma
even more accessibleulaşılabilir and usablekullanılabilir,
131
391320
4936
Fakat biz daha erişilebilir ve
kullanışlı bir belirleme sağlamak istedik,
model uyumlaştırma düzeni,
06:48
so throughvasitasiyla a combinationkombinasyon
of modelmodel optimizationEn iyi duruma getirme,
132
396280
4056
ağ ikilileştirme ve uyum düzeni ile
06:52
network binarizationayırma and approximationyaklaşım,
133
400360
2296
telefonda kullanılabilen
nesne belirleme sistemi geliştirdik.
06:54
we actuallyaslında have objectnesne detectionbulma
runningkoşu on a phonetelefon.
134
402680
3920
07:04
(ApplauseAlkış)
135
412800
5320
(Alkış)
07:10
And I'm really excitedheyecanlı because
now we have a prettygüzel powerfulgüçlü solutionçözüm
136
418960
5056
Bu beni gerçekten heyecanlandırıyor,
çünkü artık düşük seviyeli bilgisayarlı
görme sorununa, oldukça güçlü bir
çözüm bulmuş durumdayız
07:16
to this low-levelalt düzey computerbilgisayar visionvizyon problemsorun,
137
424040
2296
07:18
and anyonekimse can take it
and buildinşa etmek something with it.
138
426360
3856
ve herkes kullanabilir
ve bununla bir şey geliştirebilir.
07:22
So now the restdinlenme is up to all of you
139
430240
3176
Artık kalanı sizlere
ve dünya çapında bu yazılıma
erişimi olanlara kalmış
07:25
and people around the worldDünya
with accesserişim to this softwareyazılım,
140
433440
2936
07:28
and I can't wait to see what people
will buildinşa etmek with this technologyteknoloji.
141
436400
3656
ve insanların bu teknolojiyi kullanarak
neler ortaya koyacağını
sabırsızlıkla bekliyorum.
07:32
Thank you.
142
440080
1216
Teşekkürler.
07:33
(ApplauseAlkış)
143
441320
3440
(Alkış)
Translated by Esra Çakmak
Reviewed by Figen Ergürbüz

▲Back to top

ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com

Data provided by TED.

This site was created in May 2015 and the last update was on January 12, 2020. It will no longer be updated.

We are currently creating a new site called "eng.lish.video" and would be grateful if you could access it.

If you have any questions or suggestions, please feel free to write comments in your language on the contact form.

Privacy Policy

Developer's Blog

Buy Me A Coffee