Blaise Agüera y Arcas: How computers are learning to be creative
เบลอิเซ อะกัวรา อิ อาร์คัส (Blaise Agüera y Arcas): คอมพิวเตอร์เรียนรู้การมีความคิดสร้างสรรค์ได้อย่างไร
Blaise Agüera y Arcas works on machine learning at Google. Previously a Distinguished Engineer at Microsoft, he has worked on augmented reality, mapping, wearable computing and natural user interfaces. Full bio
Double-click the English transcript below to play the video.
that works on machine intelligence;
ซึ่งทำงานเกี่ยวกับปัญญาประดิษฐ์
of making computers and devices
ที่สร้างคอมพิวเตอร์ และอุปกรณ์ต่าง ๆ
that brains do.
interested in real brains
รู้สึกสนใจสมองจริง ๆ
in the things that our brains do
เราสนใจสิ่งที่สมองของพวกเราทำ
to the performance of computers.
คอมพิวเตอร์อย่างเทียบไม่ได้
has been perception,
out there in the world --
สิ่งต่าง ๆ ในโลกแห่งความเป็นจริง
เป็นแนวคิดต่าง ๆ ในจิตใจ
ต่อคอมพิวเตอร์อีกด้วย
for example, that our team makes,
อย่างเช่นที่ทีมของเราสร้างนั้น
on Google Photos to become searchable,
สามารถถูกค้นหาได้บน Google Photos
ก็คือความคิดสร้างสรรค์
out there into the world.
ให้เป็นบางสิ่งที่เกิดขึ้นจริง
our work on machine perception
เกี่ยวกับการรับรู้ของเครื่องจักร
with the world of machine creativity
กับโลกของความสร้างสรรค์ของเครื่องจักร
had a penetrating insight
มีวิสัยทัศน์ที่เฉียบแหลม
between perception and creativity.
การรับรู้และความคิดสร้างสรรค์
has a statue inside of it,
is to discover it."
ก็คือการค้นหามันให้เจอ"
Michelangelo was getting at
สิ่งที่ไมเคิลเเองเจลโลหมายถึงก็คือ
is an act of imagination
ก็เป็นผลลัพธ์จากการจินตนาการ
and perceiving and imagining,
และการจินตนาการ
with a brief bit of history
ด้วยการพูดถึงประวัติศาสตร์คร่าว ๆ
the heart or the intestines,
about a brain by just looking at it,
เกี่ยวกับสมองโดยแค่มองดูจากภายนอก
of this thing all kinds of fanciful names,
เหล่าโครงสร้างภายนอก
doesn't tell us very much
ไม่ได้บอกอะไรเรามากนัก
developed some kind of insight
ความเข้าใจอย่างลึกซึ้ง
Santiago Ramón y Cajal,
นักประสาทกายวิภาคศาสตร์ชาวสเปน
or render in very high contrast
หรือแสดงผลแต่ละเซลล์ภายในสมอง
their morphologies.
that he made of neurons
ที่สร้างขึ้นจากเซลล์ประสาท
of different sorts of cells,
ที่น่าเหลือเชื่อ ของเซลล์ประเภทต่าง ๆ
was quite new at this point.
ก็ยังค่อนข้างใหม่ ณ จุดนี้
very, very long distances --
ได้ระยะไกลมาก ๆ
to some people in the 19th century;
สำหรับบางคนในศตวรรษที่ 19
were just getting underway.
of Ramón y Cajal's, like this one,
ของ รามอน อี กาฮาล อย่างภาพนี้
ไม่สามารถเข้าใจได้ทุกอย่าง
that Ramón y Cajal started.
ได้เริ่มเอาไว้ให้สำเร็จ
ที่ได้จากผู้ร่วมงานของเรา
of Neuroscience.
ด้านประสาทวิทยาศาสตร์
is about one cubic millimeter in size,
มีขนาดหนึ่งลูกบาศก์มิลลิเมตร
very small piece of it here.
คือชิ้นส่วนที่มีขนาดเล็กมาก ๆ
มีขนาดประมาณหนึ่งไมครอน
tiny block of tissue.
of hair is about 100 microns.
มีขนาด 100 ไมครอน
much, much smaller
electron microscopy slices,
กล้องจุลทรรศน์อิเล็กตรอนเหล่านี้
in 3D of neurons that look like these.
ที่มีหน้าตาแบบนี้
style as Ramón y Cajal.
ที่เหมือนกับของ รามอน อิ กาฮาล
be able to see anything here.
เราอาจจะมองภาพอะไรไม่ออกเลย
one neuron to another.
ของเซลล์ประสาทหนึ่งไปยังอีกเซลล์
ahead of his time,
ล้ำยุคสมัยของเขา
over the next few decades.
ในช่วงหลายทศวรรษถัดมา
was advanced enough
เทคโนโลยีของเราก็ก้าวหน้าเพียงพอ
experiments on live neurons
กับเซลล์ประสาทที่ยังมีชีวิตอยู่
เกี่ยวกับการทำงานของเซลล์เหล่านั้น
when computers were being invented,
ที่คอมพิวเตอร์ได้ถูกประดิษฐ์ขึ้น
of modeling the brain --
ที่สร้างแบบจำลองของสมอง --
as Alan Turing called it,
อย่างที่ถูกเรียกโดย อลัน ทัวริง
looked at Ramón y Cajal's drawing
ได้มองดูภาพร่างของ รามอน อิ กาฮาล
imagery that comes from the eye.
ที่ถูกส่งมาจากดวงตา
like a circuit diagram.
มันช่างดูเหมือนกับแผนภาพวงจร
in McCulloch and Pitts's circuit diagram
ของ แมคคัลลอช์ และ พิทซ์
of computational elements
ทำงานเหมือนชุดองค์ประกอบเชิงคำนวณ
one to the next in a cascade,
ไปยังลำดับถัดไปนั้น
visual information would need to do.
การมองเห็นอะไรที่เราจำเป็นต้องสร้าง
for us to do with our brains.
สำหรับพวกเราที่ทำได้ด้วยสมอง
that for a computer,
just a few years ago.
ในไม่กี่ปีที่ผ่านมา
this task is easy to do.
and the word "bird,"
connected to each other
ชุดเซลล์ประสาทที่เชื่อมต่อระหว่างกัน
inside our visual cortices,
ภายในเปลือกสมองส่วนการเห็นของเรา
to have the capability
on the computer.
บนคอมพิวเตอร์
that actually looks like.
ว่าจริง ๆ แล้วมันมีหน้าตาอย่างไร
about as a first layer of neurons,
ชั้นแรกของเซลล์ประสาท
how it works in the eye --
คือการทำงานภายในดวงตา --
after another layer of neurons,
ของแต่ละชั้นของเซลล์ประสาท
of different weights.
ที่ค่าถ่วงน้ำหนักต่าง ๆ กัน
of all of those synapses.
ของไซแนปเหล่านั้น
properties of this network.
ของโครงข่ายนี้
or a small group of neurons
หรือกลุ่มเซลล์ประสาทเล็ก ๆ
those three things --
in the neural network,
และไซแนปในโครงข่ายประสาท
these synapses in the neural network.
ของไซแนปทั้งหมดในเซลล์ประสาท
ใช่ไหมครับ
is just a simple formula,
going on there, of course,
of mathematical operations.
ของการปฏิบัติการทางคณิตศาสตร์
that if you have one equation,
by knowing the other two things.
หากรู้อีกสองตัว
that the picture of a bird is a bird,
and w and x are known.
you know the pixels.
คุณรู้พิกเซล
a relatively straightforward problem.
นั่นค่อนข้างเป็นปัญหาที่ตรงไปตรงมา
and you're done.
doing exactly that.
มันทำงานอย่างที่บอกไป
on a mobile phone,
amazing in its own right,
billions and trillions of operations
หลายพันล้านล้านล้านปฏิบัติการ
picture of a bird,
"Yes, it's a bird,"
"ใช่แล้ว นี่คือนก"
with a network of this sort.
ด้วยโครงข่ายลักษณะนี้
and the y is the unknown.
difficult part, of course,
do we figure out the w,
of solving for w,
with the simple equation
: 6 = 2 x w
it's the inverse to multiplication,
มันเป็นตัวผกผันกับการคูณ
very non-linear operation;
เป็นปฏิบัติการที่ไม่ใช่เชิงเส้น
to solve the equation
is fairly straightforward.
ก็ค่อนข้างที่จะตรงไปตรงมา
a little algebra trick,
to the right-hand side of the equation.
about it as an error.
ลองคิดว่ามันเป็นเหมือนค่าผิดพลาด
for w the right way,
ถ้าเราแก้หาค่า w อย่างถูกต้อง
to minimize the error,
เพื่อลดค่าผิดพลาดลงให้น้อยที่สุด
computers are very good at.
ค่าผิดพลาดก็จะเป็น 4
sort of play Marco Polo,
ก็จะทำการเล่นมาร์โค โปโล
successive approximations to w.
มันก็จะเข้าใกล้ค่าประมาณของ w
but after about a dozen steps,
แต่หลังจากหลายสิบขั้นตอน
which is close enough.
ซึ่งใกล้เคียงมากพอ
ว่าสิ่งที่กำลังเกิดขึ้นอยู่นี้
a lot of known x's and known y's
ตัวแปร x และ y ที่รู้แล้วจำนวนมาก
through an iterative process.
that we do our own learning.
กับวิธีการที่เราทำการเรียนรู้
this is not a bird."
for those neural connections.
เราแก้หาความสัมพันธ์ตามธรรมชาติของสิ่งนั้น
x and w fixed to solve for y;
x และ w เอาไว้ เพื่อค้นหาค่า y
ในชีวิตประจำวัน
Alex Mordvintsev, on our team,
อเล็กซ์ มอร์ดวินเสฟ สมาชิกในทีมของเรา
with what happens if we try solving for x,
ถ้าเราพยายามแก้หาค่า x
that you've trained on birds,
ที่คุณได้ฝึกฝนเกี่ยวกับเรื่องนกมาแล้ว
the same error-minimization procedure,
ด้วยกระบวนการลดค่าผิดพลาดเดียวกัน
trained to recognize birds,
ที่ถูกฝึกฝนเพื่อจำแนกภาพนก
generated entirely by a neural network
โดยโครงข่ายประสาททั้งหมด
rather than solving for y,
by Mike Tyka in our group,
โดยไมค์ ไทกา สมาชิกในกลุ่มของเรา
of William Kentridge's artworks,
ของ วิลเลียม เคนทริดจ์
over the space of different animals,
บนพื้นที่ของสัตว์หลายชนิด
to recognize and distinguish
ให้จดจำ และ แยกแยะ
morph from one animal to another.
คล้ายภาพลวงตาของสัตว์ที่เปลี่ยนร่างได้
have tried reducing
out of the space of all things
จากพื้นที่ของทุก ๆ สิ่ง
over that entire surface,
you make a kind of map --
คุณได้สร้างแผนที่ --
the network knows how to recognize.
รู้ว่าจะแยกแยะอย่างไร
"armadillo" is right in that spot.
"ตัวนิ่ม" อยู่ตรงจุดนั้น
of networks as well.
กับโครงข่ายประเภทอื่นได้ด้วย
to recognize faces,
ให้จดจำใบหน้า
in a y that says, "me,"
psychedelic picture of me
แนวศิลปะภาพแบบเหลี่ยม เหนือจริง
multiple points of view at once
ในครั้งเดียวนั้น
to get rid of the ambiguity
เพื่อกำจัดความคลุมเครือ
or another pose,
another kind of lighting.
this sort of reconstruction,
of different points of view,
his own face as a guide image
ถ้าอเล็กซ์ใช้ใบหน้าเขาเองเป็นภาพตัวชี้แนะ
to reconstruct my own face.
เพื่อประกอบภาพใบหน้าของผมขึ้นใหม่
that optimization process.
เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
more like a coherent face,
ที่เหมือนใบหน้าที่สอดคล้องกันมากขึ้น
ในการชี้แนะ
with a blank canvas
that is itself already some other image.
ซึ่งตัวมันเองก็เป็นภาพอื่นอยู่แล้ว
that is designed to categorize
man-made structures, animals ...
โครงสร้างที่มนุษย์ทำขึ้น, สัตว์...
with just a picture of clouds,
ภาพของกลุ่มก้อนเมฆ
what it sees in the clouds.
มันเห็นอะไรในกลุ่มเมฆ
you spend looking at this,
มากขึ้นเท่าไร
will see in the clouds.
มากขึ้นเท่านั้น
to hallucinate into this,
เพื่อให้เห็นภาพหลอนแบบนี้
zooms hallucinates, zooms.
ขยาย เห็นภาพหลอน ขยาย
of the network, I suppose,
ของโครงข่ายผมว่านะ
is eating its own tail.
ตอนนี้เป็นพื้นฐานสำหรับ
What do I think I see next?"
ต่อไปผมจะเห็นอะไรนะ"
called "Higher Education" --
ที่เรียกว่า "การศึกษาระดับอุดมศึกษา" --
marijuana was legalized.
ถูกทำให้ถูกต้องตามกฎหมายแล้ว
is not constrained.
because they're really fun to look at.
เพราะมันสนุกที่จะได้เห็น
a camera that takes a picture,
กล้องที่ถ่ายภาพ
writes a poem using neural networks,
ได้เขียนบทกวีด้วยโครงข่ายประสาท
has been trained
are very intimately connected.
มีความเชื่อมโยงกันอย่างใกล้ชิดมาก
คือโครงข่ายประสาท
things in the world,
เพื่อทำการสร้างสรรค์ได้
Michelangelo really did see
any being, any alien
ทั้งในโลกหรือนอกโลก
perceptual acts of that sort
อะไรทำนองนั้นได้
machinery that's used in both cases.
ที่ถูกใช้ในทั้งสองกรณี
and creativity are by no means
ผมคิดว่าการรับรู้และความคิดสร้างสรรค์
ที่มีแต่เฉพาะในมนุษย์เท่านั้น
that can do exactly these sorts of things.
ที่สามารถทำสิ่งเดียวกันนี้ได้
the brain is computational.
สมองมีการคำนวณแบบคอมพิวเตอร์
in designing intelligent machinery.
ในการออกแบบเครื่องจักรที่มีความฉลาด
ให้เฉลียวฉลาดได้อย่างไร
เราเริ่มที่จะเติมเต็มความคิดนั้น
of those early pioneers,
is not just about accounting
ไม่ใช่แค่สำหรับการทำบัญชี
we modeled them after our minds.
ตามแบบสมองของเรา
to understand our own minds better
จิตใจของเราเองดีขึ้น
ABOUT THE SPEAKER
Blaise Agüera y Arcas - Software architectBlaise Agüera y Arcas works on machine learning at Google. Previously a Distinguished Engineer at Microsoft, he has worked on augmented reality, mapping, wearable computing and natural user interfaces.
Why you should listen
Blaise Agüera y Arcas is principal scientist at Google, where he leads a team working on machine intelligence for mobile devices. His group works extensively with deep neural nets for machine perception and distributed learning, and it also investigates so-called "connectomics" research, assessing maps of connections within the brain.
Agüera y Arcas' background is as multidimensional as the visions he helps create. In the 1990s, he authored patents on both video compression and 3D visualization techniques, and in 2001, he made an influential computational discovery that cast doubt on Gutenberg's role as the father of movable type.
He also created Seadragon (acquired by Microsoft in 2006), the visualization technology that gives Photosynth its amazingly smooth digital rendering and zoom capabilities. Photosynth itself is a vastly powerful piece of software capable of taking a wide variety of images, analyzing them for similarities, and grafting them together into an interactive three-dimensional space. This seamless patchwork of images can be viewed via multiple angles and magnifications, allowing us to look around corners or “fly” in for a (much) closer look. Simply put, it could utterly transform the way we experience digital images.
He joined Microsoft when Seadragon was acquired by Live Labs in 2006. Shortly after the acquisition of Seadragon, Agüera y Arcas directed his team in a collaboration with Microsoft Research and the University of Washington, leading to the first public previews of Photosynth several months later. His TED Talk on Seadragon and Photosynth in 2007 is rated one of TED's "most jaw-dropping." He returned to TED in 2010 to demo Bing’s augmented reality maps.
Fun fact: According to the author, Agüera y Arcas is the inspiration for the character Elgin in the 2012 best-selling novel Where'd You Go, Bernadette?
Blaise Agüera y Arcas | Speaker | TED.com