Abe Davis: New video technology that reveals an object's hidden properties
เอบ เดวิส (Abe Davis): New video technology that reveals an object's hidden properties
Computer vision expert Abe Davis pioneers methods to extract audio from silent digital videos, even footage shot on ordinary consumer cameras. Full bio
Double-click the English transcript below to play the video.
as a very visual thing.
ว่าคือสิ่งที่มองเห็นได้
or gesture with my hands while I speak,
that's too subtle for the human eye,
ที่ละเอียดซับซ้อนเกินว่าคนเราจะมองเห็น
even when humans can't.
แม้ว่าคนเราจะไม่สามารถรับรู้
of a person's wrist,
ข้อมือคนคนหนึ่ง
of a sleeping infant,
that these were videos,
at two regular images,
almost completely still.
of subtle motion going on here,
ที่ละเอียดอ่อนเกิดขึ้นมากมาย
the wrist on the left,
the infant on the right,
and fall of her chest
a lot of significance,
too subtle for us to see,
เกินกว่าที่เราจะมองเห็น
what they call a motion microscope,
เรียกว่ากล้องจุลทรรศน์แห่งการเคลื่อนไหว
these subtle motions in video
อันละเอียดอ่อนนี้ในวิดีโอ
become large enough for us to see.
ให้ใหญ่มากพอจนเรามองเห็นได้
on the left video,
กับวิดีโอทางด้านซ้าย
this person's heart rate.
on the right video,
กับวิดีโอทางด้านขวา
that this infant takes,
to monitor her breathing.
ในการติดตามการหายใจของเธอ
because it takes these phenomena
เพราะมันนำเอาปรากฏการณ์เช่นนี้
to experience through touch
and non-invasively.
โดยไม่มีการสัมผัส ๆ
with the folks that created that software,
กับเหล่าผู้สร้างซอฟท์แวร์นี้
ที่ดูออกจะเพี้ยน ๆ ให้เป็นจริง
that we can use software
as a way to extend our sense of touch.
ประสาทด้านสัมผัสวิธีหนึ่งก็ได้
with our ability to hear?
กับประสาทด้านการได้ยินล่ะ
to capture the vibrations of sound,
เพื่อจับการสั่นไหวของคลื่นเสียง
into a microphone?
in perspective for you.
work by converting the motion
ทำงานโดยการเปลี่ยนการเคลื่อนไหว
into an electrical signal,
ให้เป็นสัญญาณไฟฟ้า
to move readily with sound
เพื่อให้สั่นไหวไปพร้อมกับคลื่นเสียง
and interpreted as audio.
และแปลงออกมาเป็นสัญญาณเสียง
too subtle and too fast for us to see.
และเร็วมากจนเราสังเกตไม่เห็น
with a high-speed camera
to extract tiny motions
เพื่อดึงการเคลื่อนไหวเล็ก ๆ นั้นออกมาก
what sounds created them?
ของการเคลื่อนไหวเหล่านั้น
into visual microphones from a distance.
ให้กลายเป็นไมโครโฟนระยะไกล
that you see on the right
played this sound.
of frames per second,
just sitting there doing nothing,
by about a micrometer.
ไปเพียงหนึ่งไมโครเมตร
a hundredth and a thousandth
หนึ่งในร้อย หรือหนึ่งในพัน
perceptually invisible.
ไม่สามารถสังเกตได้ด้วยตาเปล่า
can be perceptually invisible
สังเกตได้ด้วยตาเปล่านี้
ในเชิงเลขได้อย่างมีนัยสำคัญ
seemingly still video
ดูราวกับไร้การเคลื่อนไหวนี้
out of so little motion?
จากการเคลื่อนไหวเพียงเล็กน้อย
move by just a single micrometer,
ไปเพียงหนึ่งไมโครเมตร
by just a thousandth of a pixel.
เคลื่อนที่ไปหนึ่งในพันของพิกเซล
of pixels in it,
of the tiny motions that we see
เหล่านั้นที่เราเห็น
to something pretty significant.
เป็นบางสิ่งที่มีนัยสำคัญ
when we figured this out.
เมื่อคิดเรื่องนี้ออก
a pretty important piece of the puzzle.
that affect when and how well
ว่าเทคนิคนี้จะใช้ได้ผล
and the lens that you use;
and how loud your sound is.
และเสียงดังแค่ไหน
with our early experiments,
ในการทดลองขั้นต้นของเรา
any of these factors wrong,
ผิดเพี้ยนไปสักอย่างหนึ่ง
what the problem was.
เกิดความผิดพลาดตรงไหน
experiments looked like this.
ในขั้นต้นจึงเป็นแบบนี้
see our high-speed camera,
คุณจะพอมองเห็นกล้องวิดีโอความเร็วสูง
by these bright lamps.
very careful in these early experiments,
ขั้นต้นเหล่านี้มาก ๆ
Little lamb! Little lamb!
ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง!
looks completely ridiculous.
we tried this on. (Laughter)
เมื่อตอนเริ่มทดลอง (เสียงหัวเราะ)
to recover this sound.
Little lamb! Little lamb!
ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง!
we recovered intelligible human speech
กู้เสียงพูดมนุษย์ที่ฟังรู้เรื่อง
to modify the experiment,
or moving the object further away,
หรือเคลื่อนที่วัตถุนั้นให้ห่างออกไป
the limits of our technique,
ข้อจำกัดของเทคนิคนี้
to a bag of chips,
about 15 feet away,
by only natural sunlight.
from inside, next to the bag of chips.
ข้าง ๆ ถุงมันฝรั่ง
whose fleece was white as snow,
ขนมันขาวราวหิมะ
that lamb was sure to go.
ลูกแกะก็จะตามไป
to recover from our silent video
กลับมาได้จากวีดิโอซึ่งไร้เสียง
whose fleece was white as snow,
ขนมันขาวราวหิมะ
that lamb was sure to go.
ลูกแกะก็จะตามไป
that we can push these limits as well.
จะผลักดันขีดจำกัดเหล่านั้นออกไปอีก
plugged into a laptop computer,
the music that was playing on that laptop
คือการกู้เสียงเพลงซึ่งกำลังเล่นจากแล็ปท็อป
ไปใช้ค้นหาชื่อเพลงบน Shazam ได้
by changing the hardware that we use.
โดยเปลี่ยนอุปกรณ์ที่เราใช้
I've shown you so far
ที่ผมแสดงให้คุณดูมาตั้งแต่ต้นนั้น
a high-speed camera,
about a 100 times faster
to use this technique
of what's called a rolling shutter.
จากสิ่งที่เรียกว่า โรลลิ่ง ชัตเตอร์ (rolling shutter)
record images one row at a time,
during the recording of a single image,
between each row,
is that by analyzing these artifacts,
เมื่อเราวิเคราะห์สัญญาณปลอมปน
using a modified version of our algorithm.
โดยใช้ระเบียบวิธีที่ดัดแปลง
music from before,
store-bought camera,
the sound that we recovered,
distorted this time,
recognize the music.
ว่ามันเป็นเพลงอะไรหรือเปล่า
is that we were able to do this
that you could literally run out
about surveillance.
this technology to spy on someone.
ไปใช้เพื่อสอดแนมใครบางคนได้อย่างไร
a lot of very mature technology
ที่ได้ถูกวิจัยพัฒนาสมบูรณ์แล้ว
from a distance for decades.
จากระยะไกลมานับสิบปีแล้ว
to picture the vibrations of an object,
through which to look at the world,
that cause an object to vibrate,
ที่ทำให้วัตถุสั่นไหว
the ways that we use video,
ที่เราใช้วิดีโอได้อย่างไร
to look at things,
that we learn about the world:
สามารถเรียนรู้เกี่ยวกับโลกได้
still won't let us do,
just a few months ago,
เมื่อไม่กี่เดือนก่อนหน้านี้
I've shown it to a public audience.
to use the vibrations in a video
เราจะใช้การสั่นไหวในวิดีโอนี้
that will let us interact with them
in the shape of a human,
with just a regular camera.
about this camera.
with my cell phone before.
ด้วยกล้องมือถือของผมเอง
on the surface where it's resting
of regular video,
the vibrations in that video
and material properties of our object,
และคุณสมบัติเชิงวัสดุของวัตถุชิ้นนั้น
to create something new and interactive.
เพื่อสร้างบางสิ่งใหม่ ๆ ที่สามารถโต้ตอบได้
and it's not a video,
with the object.
that we've never seen before,
ที่เราไม่เคยเห็นมาก่อน
five seconds of regular video.
วิดีโอธรรมดาความยาวแค่ 5 วินาที
way to look at the world,
ในการศึกษาโลกใบนี้
how objects will respond
ว่าวัตถุจะตอบสนองอย่างไร
looking at an old bridge
how would that bridge hold up
สะพานจะรับน้ำหนักได้หรือไม่
that you probably want to answer
across that bridge.
limitations to this technique,
with the visual microphone,
in a lot of situations
here's a video that I captured
นี่คือวิดีโอที่ผมถ่าย
to create this simulation.
เพื่อที่จะสร้างแบบจำลอง
to a film director,
หากผู้กำกับภาพยนต์ได้ใช้มัน
in a shot after it's been recorded.
ในฉากหลังจากที่มันได้ถูกถ่ายไปแล้ว
at a hanging curtain,
เราตั้งกล้องไปยังผ้าม่านที่แขวนอยู่
any motion in this video,
การเคลื่อนไหวใด ๆ ในวิดีโอนี้
imperceptible motions and vibrations
ที่แทบมองไม่เห็นขึ้น
to create this simulation.
ที่จะสร้างแบบจำลอง
this kind of interactivity
and 3D models,
from real objects in the real world
จากวัตถุจริง ๆ ในโลกจริง ๆ ได้
a lot of potential.
who worked with me on these projects.
ผู้ซึ่งร่วมงานกับผมในงานวิจัยเหล่านี้
is only the beginning.
เป็นเพียงแค่การเริ่มต้น
with this kind of imaging,
ที่คุณสามารถทำได้ด้วยเทคนิคนี้
with common, accessible technology.
ด้วยเทคโนโลยีที่เข้าถึงได้ทั่ว ๆ ไป
really exciting to explore
ABOUT THE SPEAKER
Abe Davis - Computer scientistComputer vision expert Abe Davis pioneers methods to extract audio from silent digital videos, even footage shot on ordinary consumer cameras.
Why you should listen
MIT PhD student, computer vision wizard and rap artist Abe Davis has co-created the world’s most improbable audio instrument. In 2014, Davis and his collaborators debuted the “visual microphone,” an algorithm that samples the sympathetic vibrations of ordinary objects (such as a potato chip bag) from ordinary high-speed video footage and transduces them into intelligible audio tracks.
Davis is also the author of Caperture, a 3D-imaging app designed to create and share 3D images on any compatible smartphone.
Abe Davis | Speaker | TED.com