Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Hogyan tanítjuk meg a számítógépeket a képek megértésére
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
önöknek valamit.
sitting in a bed.
amely egy ágyon ül.
egy repülőgéphez.
that are going on an airplane.
a three-year-old child
in a series of photos.
to learn about this world,
még tanulnia a világról,
at one very important task:
egy nagyon fontos feladatnak:
technologically advanced than ever.
fejlettebb, mint valaha.
we make phones that talk to us
telefonokat készítünk, melyek beszélnek,
that can play only music we like.
saját zenei ízlésünknek megfelelően.
machines and computers
számítógépeink
to give you a progress report
hogy jelentést adjak önöknek
in our research in computer vision,
legújabb kutatási eredményeiről,
and potentially revolutionary
valószínűleg legforradalmibb
that can drive by themselves,
amelyek képesek önmagukat vezetni,
they cannot really tell the difference
igazán megkülönböztetni
on the road, which can be run over,
az úton, amelyen áthajthatunk,
which should be avoided.
amelyet el kellene kerülni.
sight to the blind.
területeket berepülni,
technológiájuk ahhoz,
the changes of the rainforests.
az esőerdők változásait.
is drowning in a swimming pool.
egy gyerek beleesik az úszómedencébe.
an integral part of global life.
váltak az életnek.
that's far beyond what any human,
messze túl van azon, amit az ember
to that at this TED.
közreműködhetünk ebben.
is still struggling at understanding
szoftvereink is csak küzdenek
a megértésével és kezelésével.
collectively as a society,
együttesen, egy közösségként
machines are still blind.
a two-dimensional array of numbers
számsorokba konvertálják,
the same as to listen,
a hallani, mint a hallgatni,
the same as to see,
we really mean understanding.
a megértést értjük.
540 million years of hard work
kemény munkát végez 540 millió éve,
processing apparatus of our brains,
foglalkozó részének a kifejlesztése,
from my Ph.D. at Caltech
a Ph.D-mtől kezdve,
foglalkozó laborját vezetve,
collaborators and students
és tanítványaimmal azon dolgozom,
computer vision and machine learning.
számítógépes látás és gépi tanulás.
of artificial intelligence.
tudományának a része.
the machines to see just like we do:
a gépeket úgy látni, ahogy mi látunk:
inferring 3D geometry of things,
következtetés a tárgyak 3D-s alakjára,
actions and intentions.
tevékenységek és szándékok megértése.
of people, places and things
együtt emberekről, helyekről és dolgokról
amikor rájuk pillantunk.
is to teach a computer to see objects,
megtanítjuk a számítógépeket a tárgyakat,
imagine this teaching process
ennek a tanításnak a folyamatát:
some training images
néhány gyakorló képet
mondjuk a macskákról
from these training images.
ezekből a gyakorló képekből.
a collection of shapes and colors,
színek és formák gyűjteménye,
in the early days of object modeling.
első napjaiban csináltunk.
in a mathematical language
a számítógépes algoritmusnak,
a chubby body,
egy kerek arca, pufók teste,
and viewpoint to the object model.
formát és nézőpontot a dolog modelljéhez.
as a household pet
mint egy háziállat,
of variations to the object model,
képes felvonultatni,
changed my thinking.
megváltoztatta a gondolkodásomat.
gyermeknek, hogy hogyan lásson,
real-world experiences and examples.
keresztül tanulják ezt meg.
about every 200 milliseconds,
percenként készítenek egy képet,
egy szemmozdulatnak.
hundreds of millions of pictures
több száz millió képet lát
on better and better algorithms,
algoritmusokra koncentrálás helyett,
the kind of training data
alkalmas algoritmusokat kellene adnom,
a tapasztalatokon keresztül
kell egy adathalmazt,
than we have ever had before,
mint amennyivel valaha is rendelkeztünk,
Kai Li at Princeton University,
a Princeton Egyetemen,
az ImageNet projektet.
a camera on our head
egy kamerát szerelnünk a fejünkre,
that humans have ever created.
amit az emberek valaha létrehoztak.
like the Amazon Mechanical Turk platform
crowdsourcing technológiát használva
the biggest employers
legnagyobb foglalkoztatója:
rendszerezni és felcímkézni
of the imagery
annak a képanyagnak,
in the early developmental years.
a fejlődésének első éveiben befogad.
használatának az ötlete
may seem obvious now,
már nyilvánvalónak tűnhet,
for quite a while.
ezen az úton egy jó darabig.
to do something more useful for my tenure,
hogy hasznosabb dologgal töltsem az időmet
for research funding.
a kutatási támogatásért.
viccesen a végzős diákjaimnak,
my dry cleaner's shop to fund ImageNet.
hogy az ImageNet-et támogassam.
my college years.
a főiskolai éveimet.
adatbázist adott át,
of objects and things
22 000 osztályba sorolva,
szavak szerint elrendezve.
of domestic and wild cats.
to have put together ImageNet,
együtt létrehoztuk az ImageNet-et,
to benefit from it,
kutatási világ profitáljon ebből,
we opened up the entire data set
tettük az egész adatállományt.
research community for free.
közösségének, ingyenesen.
to nourish our computer brain,
amit betápláljunk a számítógépeink agyába,
to the algorithms themselves.
magukhoz az algoritmusokhoz.
of information provided by ImageNet
biztosított információ értéke
of machine learning algorithms
algoritmusok egy bizonyos osztályához,
Geoff Hinton, and Yann LeCun
és Yann LeCun voltak az úttörői
of billions of highly connected neurons,
kapcsolódó idegsejtek milliárdjai vannak,
operációs alapegysége
más csomópontoktól
or even millions of nodes
vagy akár több millió csomópont
to train our object recognition model,
tanítására használt tipikus hálózat
óriási ImageNet-es adatmennyiségnek,
to train such a humongous model,
köszönhetően
in object recognition.
az objektumfelismerésben.
ami megmondja,
a boy and a teddy bear;
és egy teddy maci is van;
in the background;
egy kicsi papírsárkány a háttérben;
railings, a lampost, and so on.
egy lámpaoszlop és így tovább.
is not so confident about what it sees,
benne, hogy mit lát,
kellő biztonsággal válaszoljon,
instead of committing too much,
is remarkable at telling us
figyelemre méltó pontossággal közli.
modellje, évjárata.
of Google Street View images
a Google több millió utcaképére
really interesting:
a mindennapi bölcsességünket,
összefüggésben vannak
also correlate well
összefüggésben vannak
szavazási mintákkal.
Mi történik itt?
or even surpassed human capabilities?
még felül is múlta az emberi képességeket?
the computer to see objects.
számítógépeknek, hogy lássák a tárgyakat.
learning to utter a few nouns.
megtanul kimondani néhány főnevet.
milestone will be hit,
egy másik mérföldkövéhez,
to communicate in sentences.
mondatokban kommunikálni.
this is a cat in the picture,
"ez egy macska a képen",
telling us this is a cat lying on a bed.
"egy macska fekszik egy ágyon".
to see a picture and generate sentences,
képeket látni és mondatokat alkotni,
and machine learning algorithm
algoritmusok együttesének
from both pictures
képesnek kell lennie mind képekből,
vision and language,
egyesíti a látást a nyelvvel,
that connects parts of visual things
összekapcsolja a látható dolgok részeit
computer vision models
számítógép látómodellek egyikét,
a human-like sentence
egy emberihez hasonló mondatot,
what the computer says
hogy mit mond a számítógép,
at the beginning of this talk.
next to an elephant.
Egy férfi áll egy elefánt mellett.
of an airport runway.
egy reptéri kifutópálya tetején.
to improve our algorithms,
dolgoznunk az algoritmusunk fejlesztésén,
on a bed in a blanket.
egy ágyon egy takaróban.
too many cats,
amikor túl sok macskát lát,
might look like a cat.
minden hasonlít egy macskára.
is holding a baseball bat.
Egy fiatal fiú tart egy baseball ütőt.
it confuses it with a baseball bat.
összetéveszti egy baseballütővel.
down a street next to a building.
lenn az utcán egy épület mellett.
to the computers.
a művészet alapjait a számítógépeknek.
in a field of grass.
Egy zebra áll egy füves mezőn.
the stunning beauty of nature
a természet lenyűgöző szépségét
a nullától a három éves korig.
from three to 13 and far beyond.
jutni és annak a határain is túl.
of the boy and the cake again.
a fiúnak és a tortának erre képére.
the computer to see objects
a számítógépet a tárgyakat látni
when seeing a picture.
nekünk, mikor egy meglát egy képet.
at a table with a cake.
egy asztalnál egy tortával.
to this picture
látható ezen a képen,
is that this is a special Italian cake
hogy ez egy különleges olasz torta,
after a trip to Sydney,
egy Sydney-i kirándulás után,
meg látjuk, hogy milyen boldog,
at that moment.
abban a pillanatban.
extra pairs of tireless eyes
lesz egy plusz fáradhatatlan szempárjuk,
and take care of patients.
és a betegeket ellátásában.
and safer on the road.
biztonságosabban fognak haladni az úton.
segíteni fognak nekünk
to save the trapped and wounded.
esettek és sérültek mentésében.
better materials,
fogunk felfedezni,
with the help of the machines.
határterületeket a gépek segítségével.
to the machines.
adunk a gépeknek.
won't be the only ones
emberi szemek lesznek az egyetlenek,
és felfedezik a világot.
for their intelligence,
fogjuk használni a gépeket,
in ways that we cannot even imagine.
velük, amit még el sem tudunk képzelni.
adni a számítógépeknek,
for Leo and for the world.
Leo és világ számára.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com