ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com
TED2017

Joseph Redmon: How computers learn to recognize objects instantly

Joseph Redmon: A számítógép betanítása valós idejű tárgyfelismerésre

Filmed:
2,471,805 views

Tíz éve még azt gondolták a kutatók, hogy szinte lehetetlen rábírni egy számítógépet arra, hogy különbséget tegyen egy macska és egy kutya között. A mai számítógépes látórendszerek ezt már csaknem 100%-os biztonsággal megteszik. De hogyan? Joseph Redmon a YOLO-rendszeren dolgozik (Elég Egyszer Megnézni - You Only Look Once). Ez egy nyílt forráskódú alakfelismerő módszer, ami képeken is, videókon is képes alakok megkülönböztetésére – a zebrától a stoptábláig. Redmon egy izgalmas élő bemutatón szemlélteti ezt a fontos lépést, ami olyan alkalmazások felé vezet, mint az önjáró autók, robotika, sőt még a rák korai felismerése is.
- Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time. Full bio

Double-click the English transcript below to play the video.

00:12
TenTíz yearsévek agoezelőtt,
0
825
1151
Tíz évvel ezelőtt még
00:14
computerszámítógép visionlátomás researcherskutatók
thought that gettingszerzés a computerszámítógép
1
2000
2776
a számítógépes látás kutatói
nem hitték,
hogy lehetséges
rábírni egy számítógépet,
00:16
to tell the differencekülönbség
betweenközött a catmacska and a dogkutya
2
4800
2696
hogy megkülönböztessen
egy kutyát egy macskától,
00:19
would be almostmajdnem impossiblelehetetlen,
3
7520
1976
00:21
even with the significantjelentős advanceelőleg
in the stateállapot of artificialmesterséges intelligenceintelligencia.
4
9520
3696
még a mesterséges intelligencia
jelentős előrehaladásával sem.
00:25
Now we can do it at a levelszint
greaternagyobb than 99 percentszázalék accuracypontosság.
5
13240
3560
Ma csaknem 100%-os pontossággal
képesek vagyunk erre.
00:29
This is calledhívott imagekép classificationosztályozás --
6
17680
1856
Ezt hívják képosztályozásnak.
00:31
give it an imagekép,
put a labelcímke to that imagekép --
7
19560
3096
Vegyünk egy képet, címkézzük fel,
00:34
and computersszámítógépek know
thousandsTöbb ezer of other categorieskategóriák as well.
8
22680
3040
és a számítógép több ezer
más kategóriát is felismer.
00:38
I'm a graduateérettségizni studentdiák
at the UniversityEgyetem of WashingtonWashington,
9
26680
2896
A washingtoni egyetem
végzős hallgatója vagyok,
00:41
and I work on a projectprogram calledhívott DarknetDarknet,
10
29600
1896
és az ún. Darknet programon dolgozom,
00:43
whichmelyik is a neuralideg- networkhálózat frameworkkeretrendszer
11
31520
1696
neurális hálózatok keretrendszerén.
00:45
for trainingkiképzés and testingtesztelés
computerszámítógép visionlátomás modelsmodellek.
12
33240
2816
Számítógépes látómodellek
fejlesztése és tesztelése a célom.
00:48
So let's just see what DarknetDarknet thinksazt hiszi
13
36080
2976
Nézzük hát, mit gondol a Darknet
00:51
of this imagekép that we have.
14
39080
1760
a kutyás képről.
00:54
When we runfuss our classifierosztályozó
15
42520
2336
Amikor lefuttatjuk osztályozónkat
00:56
on this imagekép,
16
44880
1216
erre a képre,
00:58
we see we don't just get
a predictionjóslás of dogkutya or catmacska,
17
46120
2456
látjuk, nemcsak kutya vagy macska
előképét kapjuk,
01:00
we actuallytulajdonképpen get
specifickülönleges breedfajta predictionselőrejelzések.
18
48600
2336
hanem a fajtát is előre meghatározza.
01:02
That's the levelszint
of granularityrészletesség we have now.
19
50960
2176
Ez a granularitás [szemcsézettség] foka.
01:05
And it's correcthelyes.
20
53160
1616
És helyes!
01:06
My dogkutya is in facttény a malamuteMalamute.
21
54800
1840
A kutyám alaszkai malamut.
01:09
So we'vevoltunk madekészült amazingelképesztő strideslépéseket
in imagekép classificationosztályozás,
22
57040
4336
Tehát izgalmas lépéseket tettünk meg
a képosztályozás terén,
01:13
but what happensmegtörténik
when we runfuss our classifierosztályozó
23
61400
2000
de mi van, ha egy ilyen képre
01:15
on an imagekép that looksúgy néz ki, like this?
24
63424
1960
futtatjuk le osztályozónkat?
01:19
Well ...
25
67080
1200
Nos...
01:24
We see that the classifierosztályozó comesjön back
with a prettyszép similarhasonló predictionjóslás.
26
72640
3896
Eléggé hasonló meghatározást
ad meg az osztályozónk.
01:28
And it's correcthelyes,
there is a malamuteMalamute in the imagekép,
27
76560
3096
Ez is helyes:
malamut van a képen,
01:31
but just givenadott this labelcímke,
we don't actuallytulajdonképpen know that much
28
79680
3696
de csak a címkét véve alapul
nem sokat tudunk meg arról,
01:35
about what's going on in the imagekép.
29
83400
1667
hogy mi zajlik a képen.
01:37
We need something more powerfulerős.
30
85091
1560
Valami hatékonyabb kell nekünk.
01:39
I work on a problemprobléma
calledhívott objecttárgy detectionérzékelés,
31
87240
2616
Én az úgynevezett tárgyfelismerés
problémáján dolgozom,
01:41
where we look at an imagekép
and try to find all of the objectstárgyak,
32
89880
2936
ránézünk egy képre, igyekszünk
minden tárgyat beazonosítani,
01:44
put boundinghatároló boxesdobozok around them
33
92840
1456
határolókeretet vonva köréjük,
01:46
and say what those objectstárgyak are.
34
94320
1520
és pontosan megnevezni őket.
01:48
So here'sitt what happensmegtörténik
when we runfuss a detectordetektor on this imagekép.
35
96400
3280
Nézzük, mi történik,
ha lefuttatunk egy felismerő programot.
Ha ilyesmi eredmény születik,
01:53
Now, with this kindkedves of resulteredmény,
36
101240
2256
sokkal többre megyünk számítógépes
látó algoritmusainkkal.
01:55
we can do a lot more
with our computerszámítógép visionlátomás algorithmsalgoritmusok.
37
103520
2696
01:58
We see that it knowstudja
that there's a catmacska and a dogkutya.
38
106240
2976
Látjuk, hogy felismeri, hogy ott
egy macska és egy kutya.
02:01
It knowstudja theirazok relativerelatív locationshelyek,
39
109240
2256
Felismeri egymáshoz
viszonyított helyzetüket,
02:03
theirazok sizeméret.
40
111520
1216
méretüket.
02:04
It maylehet even know some extrakülön- informationinformáció.
41
112760
1936
Esetleg még egyéb információt is nyújt.
02:06
There's a bookkönyv sittingülés in the backgroundháttér.
42
114720
1960
A háttérben hever egy könyv.
02:09
And if you want to buildépít a systemrendszer
on topfelső of computerszámítógép visionlátomás,
43
117280
3256
És ha számítógépes látáson alapuló
rendszert akarunk építeni,
02:12
say a self-drivingönálló vezetés vehiclejármű
or a roboticrobot systemrendszer,
44
120560
3456
mondjuk, legyen egy önjáró jármű,
vagy robotrendszer,
02:16
this is the kindkedves
of informationinformáció that you want.
45
124040
2456
ilyen információra van szükségünk.
02:18
You want something so that
you can interactegymásra hat with the physicalfizikai worldvilág.
46
126520
3239
Valami olyan kéne, ami kölcsönhatásban áll
fizikai valóságunkkal.
02:22
Now, when I startedindult workingdolgozó
on objecttárgy detectionérzékelés,
47
130759
2257
Amikor elkezdtem ezzel foglalkozni,
02:25
it tookvett 20 secondsmásodperc
to processfolyamat a singleegyetlen imagekép.
48
133040
3296
húsz másodpercbe telt
egyetlen kép feldolgozása.
02:28
And to get a feel for why
speedsebesség is so importantfontos in this domaindomain,
49
136360
3880
Hogy érezzék, miért olyan fontos
a sebesség ezen a területen,
02:33
here'sitt an examplepélda of an objecttárgy detectordetektor
50
141120
2536
itt egy példa egy tárgyfelismerőre,
02:35
that takes two secondsmásodperc
to processfolyamat an imagekép.
51
143680
2416
ami két másodperc alatt
dolgoz fel egy képet.
02:38
So this is 10 timesalkalommal fastergyorsabb
52
146120
2616
Tízszer gyorsabb tehát,
02:40
than the 20-seconds-per-image-másodperc-per-kép detectordetektor,
53
148760
3536
mint a 20 mp/kép sebességű érzékelő,
02:44
and you can see that by the time
it makesgyártmányú predictionselőrejelzések,
54
152320
2656
és láthatják, ennyi idő alatt
előrejelzéseket végez.
02:47
the entireteljes stateállapot of the worldvilág has changedmegváltozott,
55
155000
2040
A világ teljesen megváltozott,
02:49
and this wouldn'tnem be very usefulhasznos
56
157880
2416
és ez nem lenne túl hasznos
02:52
for an applicationAlkalmazás.
57
160320
1416
egy alkalmazáshoz.
02:53
If we speedsebesség this up
by anotheregy másik factortényező of 10,
58
161760
2496
Ha ezt még tízszeresére gyorsítjuk -
02:56
this is a detectordetektor runningfutás
at fiveöt frameskeretek perper secondmásodik.
59
164280
2816
ez a képfelismerő öt képkockát
tud másodpercenként.
02:59
This is a lot better,
60
167120
1536
Ez sokkal jobb,
03:00
but for examplepélda,
61
168680
1976
de ha például
03:02
if there's any significantjelentős movementmozgalom,
62
170680
2296
bármilyen jelentős esemény történik,
03:05
I wouldn'tnem want a systemrendszer
like this drivingvezetés my carautó.
63
173000
2560
nem szeretném, ha efféle
rendszer vezetné az autómat.
03:09
This is our detectionérzékelés systemrendszer
runningfutás in realigazi time on my laptophordozható számítógép.
64
177120
3240
Ez a felismerő rendszerünk
valós időben fut a laptopomon.
03:13
So it smoothlysimán trackspályák me
as I movemozog around the framekeret,
65
181000
3136
Simán követ engem a kerettel,
ahogy itt sétálgatok,
03:16
and it's robusterős to a wideszéles varietyfajta
of changesváltoztatások in sizeméret,
66
184160
3720
és pontosan meghatározza
a méretváltozásomat,
03:21
posepóz,
67
189440
1200
testtartásomat,
03:23
forwardelőre, backwardvisszafelé.
68
191280
1856
előre- és hátramozgásomat.
03:25
This is great.
69
193160
1216
Ez óriási.
03:26
This is what we really need
70
194400
1736
Pontosan erre van szükségünk,
03:28
if we're going to buildépít systemsrendszerek
on topfelső of computerszámítógép visionlátomás.
71
196160
2896
ha rendszereket akarunk építeni
a számítógépes látásra.
03:31
(ApplauseTaps)
72
199080
4000
(Taps)
03:36
So in just a fewkevés yearsévek,
73
204280
2176
Alig néhány éven belül tehát
03:38
we'vevoltunk goneelmúlt from 20 secondsmásodperc perper imagekép
74
206480
2656
eljutottunk a 20 mp/kép sebességtől
03:41
to 20 millisecondsmilliszekundum perper imagekép,
a thousandezer timesalkalommal fastergyorsabb.
75
209160
3536
a 20 milliszekundum/képig,
ezerszeres sebességig.
03:44
How did we get there?
76
212720
1416
Hogy jutottunk el idáig?
03:46
Well, in the pastmúlt,
objecttárgy detectionérzékelés systemsrendszerek
77
214160
3016
Nos, régen a tárgyfelismerő rendszerek
03:49
would take an imagekép like this
78
217200
1936
fogtak egy efféle képet,
03:51
and splithasított it into a bunchcsokor of regionsrégiók
79
219160
2456
régiócsoportokra osztották,
03:53
and then runfuss a classifierosztályozó
on eachminden egyes of these regionsrégiók,
80
221640
3256
aztán minden egyes régióra
lefuttattak egy osztályozót,
03:56
and highmagas scorespontszámok for that classifierosztályozó
81
224920
2536
és ezek magas értékei
03:59
would be consideredfigyelembe vett
detectionsnyomozás in the imagekép.
82
227480
3136
határozták meg a kép felismerését.
04:02
But this involvedrészt runningfutás a classifierosztályozó
thousandsTöbb ezer of timesalkalommal over an imagekép,
83
230640
4056
De ehhez több ezerszer le kellett futtatni
az osztályozót egy képen,
04:06
thousandsTöbb ezer of neuralideg- networkhálózat evaluationsértékelések
to producegyárt detectionérzékelés.
84
234720
2920
neurális hálózati kiértékelések ezrei
vezettek a felismeréshez.
Ehelyett mi egyetlen hálózatra
bíztuk az egész felismerő tevékenységet.
04:11
InsteadEhelyett, we trainedkiképzett a singleegyetlen networkhálózat
to do all of detectionérzékelés for us.
85
239240
4536
04:15
It producestermel all of the boundinghatároló boxesdobozok
and classosztály probabilitiesvalószínűség simultaneouslyegyidejűleg.
86
243800
4280
Egyszerre kezeli a terület-meghatározást
és az osztályozást.
04:20
With our systemrendszer, insteadhelyette of looking
at an imagekép thousandsTöbb ezer of timesalkalommal
87
248680
3496
A mi rendszerünkben nem kell
több ezerszer végignézni egy képet
04:24
to producegyárt detectionérzékelés,
88
252200
1456
a felismerés lefuttatásához,
04:25
you only look onceegyszer,
89
253680
1256
"Elég Egyszer Megnézni"
[You Only Look Once],
04:26
and that's why we call it
the YOLOYOLO methodmódszer of objecttárgy detectionérzékelés.
90
254960
2920
ezért hívjuk a tárgyfelismerés
YOLO-módszerének.
04:31
So with this speedsebesség,
we're not just limitedkorlátozott to imagesképek;
91
259360
3976
Ezzel a sebességgel
nemcsak képeket vizsgálhatunk,
04:35
we can processfolyamat videovideó- in realigazi time.
92
263360
2416
hanem valós időben videót is.
04:37
And now, insteadhelyette of just seeinglátás
that catmacska and dogkutya,
93
265800
3096
Most pedig ne csak a kutyát
és a macskát nézzük,
04:40
we can see them movemozog around
and interactegymásra hat with eachminden egyes other.
94
268920
2960
hanem ahogy forognak egymás körül,
és kapcsolatot teremtenek.
04:46
This is a detectordetektor that we trainedkiképzett
95
274560
2056
Ez olyan detektor,
04:48
on 80 differentkülönböző classesosztályok
96
276640
4376
amit 80 különféle osztályra képeztünk ki
04:53
in Microsoft'sA Microsoft COCOKÓKUSZ datasetadatkészlet.
97
281040
3256
a Microsoft COCO adatbázisában.
04:56
It has all sortsfajta of things
like spoonkanál and forkvillás, bowltál,
98
284320
3336
Mindenféle dolgokat tartalmaz:
kanalat, villát, tálat,
04:59
commonközös objectstárgyak like that.
99
287680
1800
efféle egyszerű tárgyakat.
05:02
It has a varietyfajta of more exoticegzotikus things:
100
290360
3096
Különlegesebbeket is:
05:05
animalsállatok, carsautók, zebraszebrák, giraffeszsiráfok.
101
293480
3256
állatokat, autót, zebrát, zsiráfot.
05:08
And now we're going to do something funmóka.
102
296760
1936
Most pedig valami érdekeset teszünk.
05:10
We're just going to go
out into the audienceközönség
103
298720
2096
Kimegyünk a közönség soraiba,
és szétnézünk,
05:12
and see what kindkedves of things we can detectfelismerni.
104
300840
2016
miket találunk.
05:14
Does anyonebárki want a stuffedtöltött animalállat?
105
302880
1620
Kér valaki kitömött állatot?
05:18
There are some teddyMaci bearsmedve out there.
106
306000
1762
Van néhány plüssmackó itt-ott.
05:22
And we can turnfordulat down
our thresholdküszöb for detectionérzékelés a little bitbit,
107
310040
4536
Kicsit lejjebb vesszük
a felismerési küszöb értékét,
05:26
so we can find more of you guys
out in the audienceközönség.
108
314600
3400
így könnyebben megtaláljuk
a megfelelő fickókat.
05:31
Let's see if we can get these stop signsjelek.
109
319560
2336
Nézzük csak a stoptáblákat.
05:33
We find some backpackshátizsák.
110
321920
1880
Rábukkanunk néhány hátizsákra.
05:37
Let's just zoomzoomolás in a little bitbit.
111
325880
1840
Nagyítsunk csak rá egy kicsit.
05:42
And this is great.
112
330320
1256
Ez bizony óriási.
05:43
And all of the processingfeldolgozás
is happeningesemény in realigazi time
113
331600
3176
És az egész folyamat valós időben zajlik
05:46
on the laptophordozható számítógép.
114
334800
1200
a laptopomon.
05:49
And it's importantfontos to rememberemlékezik
115
337080
1456
Fontos újra hangsúlyozni,
05:50
that this is a generalTábornok purposecélja
objecttárgy detectionérzékelés systemrendszer,
116
338560
3216
hogy ez egy általános célú
tárgyfelismerő rendszer,
05:53
so we can trainvonat this for any imagekép domaindomain.
117
341800
5000
így bármilyen képfajtára alkalmazható.
06:00
The sameazonos codekód that we use
118
348320
2536
Ugyanaz a kód,
06:02
to find stop signsjelek or pedestriansgyalogosok,
119
350880
2456
amivel stoptáblát, gyalogost, kerékpárost
06:05
bicycleskerékpárok in a self-drivingönálló vezetés vehiclejármű,
120
353360
1976
ismerünk fel az önjáró autóban,
06:07
can be used to find cancerrák cellssejteket
121
355360
2856
ráksejt feltárására is alkalmazható
06:10
in a tissueszövet biopsybiopszia.
122
358240
3016
szövettani vizsgálatnál.
06:13
And there are researcherskutatók around the globeföldgolyó
alreadymár usinghasználva this technologytechnológia
123
361280
4040
És ezt a technológiát már világszerte
alkalmazzák kutatók
06:18
for advanceselőlegek in things
like medicinegyógyszer, roboticsRobotika.
124
366240
3416
orvostudományi, robotikai
fejlesztésekhez.
06:21
This morningreggel, I readolvas a paperpapír
125
369680
1376
Ma reggel olvastam,
06:23
where they were takingbevétel a censusnépszámlálás
of animalsállatok in NairobiNairobi NationalNemzeti ParkPark
126
371080
4576
hogy a Nairobi Nemzeti Parkban
YOLO-alapú felismerő rendszerrel
06:27
with YOLOYOLO as partrész
of this detectionérzékelés systemrendszer.
127
375680
3136
veszik nyilvántartásba az állatokat.
06:30
And that's because DarknetDarknet is opennyisd ki sourceforrás
128
378840
3096
Ez azért lehetséges,
mert a Darknet nyílt forráskódú,
06:33
and in the publicnyilvános domaindomain,
freeingyenes for anyonebárki to use.
129
381960
2520
nyilvánosan hozzáférhető,
bárki szabadon használhatja.
06:37
(ApplauseTaps)
130
385600
5696
(Taps)
06:43
But we wanted to make detectionérzékelés
even more accessiblehozzáférhető and usablehasználható,
131
391320
4936
De még könnyebben elérhető és hasznosabb
felismerő rendszert akarunk fejleszteni,
06:48
so throughkeresztül a combinationkombináció
of modelmodell optimizationoptimalizálás,
132
396280
4056
így modell-optimalizálással,
06:52
networkhálózat binarizationbinarization and approximationjogszabályok közelítéséről,
133
400360
2296
hálózati binarizációval
és approximációval
06:54
we actuallytulajdonképpen have objecttárgy detectionérzékelés
runningfutás on a phonetelefon.
134
402680
3920
mobilon is futtatható
felismerő programot fejlesztünk.
07:04
(ApplauseTaps)
135
412800
5320
(Taps)
07:10
And I'm really excitedizgatott because
now we have a prettyszép powerfulerős solutionmegoldás
136
418960
5056
És tényleg izgatott vagyok, mert máris
van egy igazán ütős megoldásunk
erre az alacsony szintű
számítógépes látási problémára,
07:16
to this low-levelalacsony szintű computerszámítógép visionlátomás problemprobléma,
137
424040
2296
07:18
and anyonebárki can take it
and buildépít something with it.
138
426360
3856
és bárki hozzájuthat, és alkalmazhatja.
07:22
So now the restpihenés is up to all of you
139
430240
3176
A többi már önökön múlik,
07:25
and people around the worldvilág
with accesshozzáférés to this softwareszoftver,
140
433440
2936
és mindenkin, aki hozzáfér
ehhez a szoftverhez,
07:28
and I can't wait to see what people
will buildépít with this technologytechnológia.
141
436400
3656
és alig várom, hogy lássam,
miket hoznak létre ezzel a technológiával.
07:32
Thank you.
142
440080
1216
Köszönöm.
07:33
(ApplauseTaps)
143
441320
3440
(Taps)
Translated by Andrea Vida
Reviewed by Tímea Hegyessy

▲Back to top

ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com