Joseph Redmon: How computers learn to recognize objects instantly
Joseph Redmon: Wie ein Computer lernt, Objekte in Echtzeit zu erkennen
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time. Full bio
Double-click the English transcript below to play the video.
Maschinelles Sehen davon aus,
thought that getting a computer
kaum möglich sei,
between a cat and a dog
zu unterscheiden,
auf dem Feld der Künstlichen Intelligenz.
in the state of artificial intelligence.
greater than 99 percent accuracy.
"Bildklassifikation".
put a label to that image --
mit einer expliziten Bezeichnung,
thousands of other categories as well.
tausende weiterer Kategorien dafür.
at the University of Washington,
von Washington
Projekt namens "Darknet",
computer vision models.
trainiert und getestet werden.
"Hund" oder "Katze" vorausgesagt wird,
a prediction of dog or cat,
specific breed predictions.
über die konkrete Rasse.
of granularity we have now.
ist im Moment möglich.
um einen Alaskan Malamute.
in image classification,
in der Bildklassifikation gemacht.
wenn wir unserem Klassifikator
when we run our classifier
with a pretty similar prediction.
so ziemlich das gleiche Ergebnis liefert.
there is a malamute in the image,
da ist ein Malamute abgebildet.
we don't actually know that much
wissen wir noch nicht viel darüber,
called object detection,
namens "Objekterkennung".
and try to find all of the objects,
alle Objekte in einem Bild zu erkennen.
eine Markierungsbox
when we run a detector on this image.
über das Bild sagt.
des Maschinellen Sehens anfangen.
with our computer vision algorithms.
that there's a cat and a dog.
und ein Hund erkannt wird.
relativen Positionen im Bild,
on top of computer vision,
in einem größeren System nutzen will,
oder einem Robotsystem,
or a robotic system,
of information that you want.
you can interact with the physical world.
der physischen Welt interagieren kann.
in der Objekterkennung zu arbeiten,
on object detection,
to process a single image.
zwanzig Sekunden für jedes einzelne Bild.
speed is so important in this domain,
warum Geschwindigkeit hier so wichtig ist,
um ein Einzelbild zu verarbeiten --
to process an image.
seine Voraussagen bekannt gibt,
it makes predictions,
bereits völlig verändert.
by another factor of 10,
zehnmal schneller machen,
at five frames per second.
fünf Bilder pro Sekunde.
like this driving my car.
ein solches System mein Auto steuert.
running in real time on my laptop.
Es läuft in Echtzeit auf meinem Laptop.
as I move around the frame,
während ich mich im Bildbereich bewege,
of changes in size,
Veränderungen der Größe,
on top of computer vision.
in Systeme einbauen wollen.
a thousand times faster.
geschafft. Eintausendmal schneller.
object detection systems
nahmen Objekterkenner
kleinere Bereiche ein.
on each of these regions,
jeden einzelnen dieser Bereiche.
einen hohen Score im Klassifikator,
detections in the image.
thousands of times over an image,
tausende Male für ein Bild anzuwenden.
to produce detection.
neuraler Netzwerke für die Erkennung.
to do all of detection for us.
neurales Netzwerk trainiert,
and class probabilities simultaneously.
Wahrscheinlichkeiten simultan berechnet.
at an image thousands of times
statt tausende Male ein Bild anzusehen,
the YOLO method of object detection.
Methode der Objekterkennung "YOLO".
we're not just limited to images;
sind wir nicht auf Bilder beschränkt --
in Echtzeit verarbeiten.
that cat and dog,
und einen Hund zu sehen,
and interact with each other.
sich bewegen und interagieren.
like spoon and fork, bowl,
wie Löffel, Gabel, Schüssel --
out into the audience
our threshold for detection a little bit,
des Erkenners ein wenig senken,
out in the audience.
im Publikum zu erkennen.
ob wir diese Stoppschilder bekommen.
is happening in real time
passiert in Echtzeit
object detection system,
Objekterkennungssystem ist.
für jede Art von Bildern trainieren.
Stoppschilder, Fußgänger
already using this technology
nutzen diese Technologie bereits,
like medicine, robotics.
wie Medizin oder Robotik zu erzielen.
einen Fachartikel gelesen:
of animals in Nairobi National Park
wurde eine Zählung der Tiere vorgenommen,
of this detection system.
und für alle verwendbar ist.
free for anyone to use.
even more accessible and usable,
sogar noch leichter nutzbar machen.
of model optimization,
und Approximation erreicht,
running on a phone.
sogar auf einem Mobiltelefon läuft.
now we have a pretty powerful solution
damit eine ziemlich mächtige Lösung
des Maschinellen Sehens haben.
and build something with it.
und etwas damit bauen.
with access to this software,
mit Zugang zu dieser Software.
will build with this technology.
sie mit dieser Technologie umsetzen.
ABOUT THE SPEAKER
Joseph Redmon - Computer scientistJoseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.
Why you should listen
Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.
Redmon is also internet-famous for his resume.
Joseph Redmon | Speaker | TED.com