Abe Davis: New video technology that reveals an object's hidden properties
Abe Davis: Új videotechnológia fedi fel a tárgyak rejtett tulajdonságait
Computer vision expert Abe Davis pioneers methods to extract audio from silent digital videos, even footage shot on ordinary consumer cameras. Full bio
Double-click the English transcript below to play the video.
as a very visual thing.
mint egy nagyon vizuális dologra.
or gesture with my hands while I speak,
vagy beszéd közben gesztikulálok,
that's too subtle for the human eye,
amelyek túl finomak az emberi szemnek,
even when humans can't.
még ha az emberek nem is.
egy ember csuklójáról
of a person's wrist,
of a sleeping infant,
egy alvó csecsemőről,
that these were videos,
hogy ezek videók,
hogy két hagyományos képet látnak,
at two regular images,
mozdulatlannak tűnnek.
almost completely still.
of subtle motion going on here,
van folyamatban itt,
the wrist on the left,
a csuklót bal oldalt,
the infant on the right,
a jobb oldali csecsemőt,
and fall of her chest
emelkedik és süllyed
a lot of significance,
hatalmas jelentőséggel bírnak,
too subtle for us to see,
hogy észrevegyük őket,
what they call a motion microscope,
egy úgy nevezett mozgásmikroszkópot,
these subtle motions in video
ezeket a finom mozgásokat egy videóban
become large enough for us to see.
hogy mi is láthassuk.
on the left video,
a bal oldali videón,
this person's heart rate.
az illető szívverését.
on the right video,
a jobb oldali videón,
that this infant takes,
amit a csecsemő vesz
to monitor her breathing.
kontaktusmentes monitorozásra.
because it takes these phenomena
mert lehetővé teszi,
megtapasztalt jelenségeket
to experience through touch
and non-invasively.
ragadjuk meg.
with the folks that created that software,
a szoftver készítőivel,
megvalósítására adtuk a fejünket.
that we can use software
hogy a szoftver használatával
as a way to extend our sense of touch.
a tapintás érzékünk kiterjesztéseként.
with our ability to hear?
ugyanezt a hallásunkkal is?
to capture the vibrations of sound,
megragadhatnánk a hang rezgéseit,
into a microphone?
mikrofonná változtathatnánk?
in perspective for you.
perspektívába helyezni.
work by converting the motion
azon az elven működnek,
into an electrical signal,
elektromos jellé konvertálják,
to move readily with sound
hogy a hangra könnyen rezdüljön,
and interpreted as audio.
és hangként lefordítható lesz.
rezgésbe hoz.
too subtle and too fast for us to see.
és túl gyorsak, hogy láthassuk őket.
with a high-speed camera
egy nagysebességű kamerával
to extract tiny motions
hogy kivonjuk az apró mozgásokat
what sounds created them?
hogy kiderüljön, milyen hang okozta őket?
into visual microphones from a distance.
vizuális mikrofonokká változtathatnánk.
amit a jobb oldalon látnak
that you see on the right
played this sound.
ezt a hangot játszotta.
(Zene: "Mary Had a Little Lamb")
of frames per second,
több ezer képkockát rögzítettünk,
és nem csinálnak semmit,
just sitting there doing nothing,
by about a micrometer.
alig pár mikrométernyit mozdította meg.
a hundredth and a thousandth
mint egy pixel százada vagy ezrede
perceptually invisible.
lényegében érzékszervileg láthatatlan.
can be perceptually invisible
érzékszervileg láthatatlan
seemingly still video
mozdulatlannak tűnő videóból
out of so little motion?
ilyen kicsi mozgásból?
move by just a single micrometer,
csupán egyetlen mikrométernyit mozdulnak,
by just a thousandth of a pixel.
csak egy pixel ezredével mozdítja el.
of pixels in it,
of the tiny motions that we see
az összes ilyen kis mozgást, amit látunk
to something pretty significant.
valami egészen jelentőssé.
when we figured this out.
amikor rájöttünk minderre.
a pretty important piece of the puzzle.
a kirakósnak.
that affect when and how well
mikor és mennyire jól fog
and the lens that you use;
amiket használunk;
and how loud your sound is.
és milyen hangos a hang.
with our early experiments,
a korai kísérleteinkben,
any of these factors wrong,
akármelyikét elhibáztuk,
what the problem was.
hogy mi is a probléma.
experiments looked like this.
festett valahogy így.
see our high-speed camera,
a nagysebességű kameránkat,
by these bright lamps.
van bevilágítva.
very careful in these early experiments,
nagyon óvatosnak kellett lennünk,
Little lamb! Little lamb!
Little lamb! Little lamb!
looks completely ridiculous.
teljes mértékben röhejesen fest.
we tried this on. (Laughter)
szó szerint megolvasztottuk. (Nevetés)
tűnik is ez a kísérlet,
to recover this sound.
ezt a hangot.
Little lamb! Little lamb!
Little lamb! Little lamb!
we recovered intelligible human speech
kivehető emberi hangot nyertünk vissza
to modify the experiment,
módosítani a kísérletet
or moving the object further away,
vagy messzebbre helyeztük őket,
halkabb hangot használtunk.
the limits of our technique,
a technikánk korlátait;
ezeket a korlátokat,
feszegetni őket.
mint ez is,
to a bag of chips,
egy zacskó chipshez,
about 15 feet away,
öt méterrel távolabb helyeztük el,
by only natural sunlight.
volt megvilágítva.
from inside, next to the bag of chips.
a zacskó chips mellett.
whose fleece was white as snow,
whose fleece was white as snow,
that lamb was sure to go.
that lamb was sure to go.
to recover from our silent video
a néma videóból,
az üvegen túlról vettünk fel.
whose fleece was white as snow,
whose fleece was white as snow,
that lamb was sure to go.
that lamb was sure to go.
that we can push these limits as well.
hogy ezeket a határokat feszegessük.
plugged into a laptop computer,
füldugót filmeztünk le,
the music that was playing on that laptop
zenét akartuk visszanyerni
a Shazamon is rá tudtam keresni.
(Zene: "Under Pressure" a Queentől)
by changing the hardware that we use.
más eszközöket használunk a felvételhez.
I've shown you so far
amiket eddig mutattam,
a high-speed camera,
about a 100 times faster
gyorsabban tud felvenni,
to use this technique
hogy ezt a technikát
of what's called a rolling shutter.
az úgy nevezett gördülő zárat.
record images one row at a time,
soronként rögzíti a képeket,
during the recording of a single image,
egyetlen kép rögzítése közben,
between each row,
minden sor között,
kódolásra kerülnek.
is that by analyzing these artifacts,
a torzulásokat elemezve
using a modified version of our algorithm.
az algoritmusunk módosított verziójával.
music from before,
zenét játszotta korábbról,
store-bought camera,
boltban kapható kamerát használtunk,
the sound that we recovered,
a hangot, amit visszanyertünk,
distorted this time,
torzítottan fog hangzani,
recognize the music.
fel tudják-e ismerni a zenét.
[A zacskó cukorkából visszanyert hang]
is that we were able to do this
hogy képesek voltunk ezt elérni,
that you could literally run out
amit könnyen beszerezhetnek,
about surveillance.
this technology to spy on someone.
ezt a technológiát kémkedésre használni.
a lot of very mature technology
kiforrott technológia létezik már
from a distance for decades.
tárgyakat a távolban.
to picture the vibrations of an object,
hogy elképzeljük egy tárgy rezgéseit,
through which to look at the world,
ahonnan a világot szemlélhetjük,
that cause an object to vibrate,
ami egy tárgy rezgését okozza,
the ways that we use video,
hogy változtat ez a videózás használatán,
to look at things,
hogy nézzük a dolgokat,
hogy használható arra,
that we learn about the world:
ami által a világról tanulunk:
böködjük és szurkáljuk.
hogy mi történik.
still won't let us do,
még nem enged nekünk megtenni,
just a few months ago,
ötletemen alapul,
I've shown it to a public audience.
hogy megmutatom a nagyközönségnek.
to use the vibrations in a video
a videón rögzített rezgéseket arra,
that will let us interact with them
ami lehetővé teszi velük az interkaciót
in the shape of a human,
with just a regular camera.
egy átlagos kamerával.
about this camera.
nincsen semmi különleges.
with my cell phone before.
a mobilommal is korábban.
ahogy a tárgy rezeg,
on the surface where it's resting
amin helyet foglal,
of regular video,
átlagos videó,
the vibrations in that video
arra fogjuk használni,
and material properties of our object,
szerkezeti és anyagi tulajdonságairól,
to create something new and interactive.
valami újat és interaktívat hozunk létre.
and it's not a video,
és nem is egy videó,
with the object.
a tárggyal.
that we've never seen before,
amiket még sosem láttunk,
five seconds of regular video.
egyszerű videóból készítettük.
way to look at the world,
ahogy a világot szemléljük,
how objects will respond
hogyan fognak a tárgyak reagálni
looking at an old bridge
ahogy nézünk egy régi hídra,
how would that bridge hold up
hogyan tartana ki a híd,
that you probably want to answer
amire jó lenne tudni a választ,
across that bridge.
azon a hídon.
limitations to this technique,
ennek a technikának,
with the visual microphone,
a vizuális mikrofonnak is,
in a lot of situations
hogy sok helyzetben működik,
ha hosszabb videókkal dolgozunk.
here's a video that I captured
amit felvettem,
to create this simulation.
és így létrehozhassuk ezt a szimulációt.
to a film director,
ahogy egy fimrendező kezébe adjuk ezt,
in a shot after it's been recorded.
egy jelenetben, miután felvették azt.
at a hanging curtain,
egy felakasztott függönyre szegeztük.
any motion in this video,
ezen a videón,
természetes légmozgások
imperceptible motions and vibrations
mozgást és rezgést okoztak,
to create this simulation.
a szimuláció elkészítéséhez.
this kind of interactivity
az ilyen fajta interaktivitáshoz,
and 3D models,
from real objects in the real world
a valóság valós tárgyairól is megszerezzük
hagyományos videót használva,
a lot of potential.
ami nagyon sok lehetőséget rejt.
who worked with me on these projects.
akikkel ezeken a projekteken dolgoztam.
is only the beginning.
az csak a kezdet.
with this kind of imaging,
megtehetünk,
with common, accessible technology.
mindennapi, hozzáférhető technológiával.
really exciting to explore
ABOUT THE SPEAKER
Abe Davis - Computer scientistComputer vision expert Abe Davis pioneers methods to extract audio from silent digital videos, even footage shot on ordinary consumer cameras.
Why you should listen
MIT PhD student, computer vision wizard and rap artist Abe Davis has co-created the world’s most improbable audio instrument. In 2014, Davis and his collaborators debuted the “visual microphone,” an algorithm that samples the sympathetic vibrations of ordinary objects (such as a potato chip bag) from ordinary high-speed video footage and transduces them into intelligible audio tracks.
Davis is also the author of Caperture, a 3D-imaging app designed to create and share 3D images on any compatible smartphone.
Abe Davis | Speaker | TED.com