Fei-Fei Li: How we're teaching computers to understand pictures
Cách mà chúng tôi đang dạy máy tính hiểu những bức ảnh: How we're teaching computers to understand pictures
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
Okay, đó là một con mèo ngồi trên giường
that are going on an airplane.
a three-year-old child
in a series of photos.
mà em nhìn thấy trong loạt hình.
to learn about this world,
để khám phá về thế giới này,
at one very important task:
trong một nhiệm vụ rất quan trọng:
về mặt công nghệ hơn bao giờ hết.
technologically advanced than ever.
we make phones that talk to us
chúng ta chế tạo ra điện thoại
that can play only music we like.
chỉ chơi loại nhạc chúng ta yêu thích.
machines and computers
và máy vi tính tối tân nhất
to give you a progress report
để báo cáo với bạn về quá trình
in our research in computer vision,
đối với thị giác máy tính
and potentially revolutionary
và có tiềm năng cách mạng
that can drive by themselves,
những chiếc xe lái tự động,
they cannot really tell the difference
chúng không phân biệt được sự khác nhau
on the road, which can be run over,
cái có thể cán qua,
which should be avoided.
mà nên tránh sang một bên.
hàng triệu điểm ảnh
sight to the blind.
đến cho người mù.
có thể bay qua vùng đất rộng lớn,
the changes of the rainforests.
sự thay đổi của những rừng mưa nhiệt đới.
is drowning in a swimming pool.
khi một đứa trẻ đang bị chìm trong hồ bơi.
an integral part of global life.
một phần thiết yếu của đời sống toàn cầu.
that's far beyond what any human,
vượt lên trên bất kỳ con người nào,
to that at this TED.
cho điều đó ở TED này.
is still struggling at understanding
phải khó khăn xoay trở trong việc hiểu
collectively as a society,
tụ chung lại như là một xã hội,
machines are still blind.
của chúng ta vẫn bị mù
a two-dimensional array of numbers
thành dãy 2 chiều những con số,
the same as to listen,
thì không phải là thưởng thức,
the same as to see,
we really mean understanding.
chúng tôi thực sự muốn nói là hiểu được.
540 million years of hard work
phải mất 540 triệu năm cật lực
processing apparatus of our brains,
quá trình của não bộ chúng ta,
from my Ph.D. at Caltech
với luận án tiến sĩ của tôi tại Caltech
phòng thí nghiệm Thị giác ở Stanford,
collaborators and students
đối tác và sinh viên
thị giác máy tính và máy móc học hỏi.
computer vision and machine learning.
of artificial intelligence.
- trí thông minh nhân tạo.
the machines to see just like we do:
dạy cho máy móc thấy được như chúng ta:
inferring 3D geometry of things,
những đồ vật 3D tương tự,
actions and intentions.
tình cảm, hành động và cả dự định.
of people, places and things
câu chuyện về con người -nơi chốn -đồ vật.
is to teach a computer to see objects,
là dạy cho máy tính nhìn những đồ vật,
imagine this teaching process
tưởng tượng quá trình dạy học này
some training images
một vài bức ảnh rèn luyện
from these training images.
từ những bức ảnh rèn luyện này.
a collection of shapes and colors,
tổ hợp của hình dạng và màu sắc,
in the early days of object modeling.
ở thời kỳ đầu của việc tạo lập vật thể.
in a mathematical language
dưới dạng ngôn ngữ toán học
a chubby body,
một thân hình mũm mĩm,
and viewpoint to the object model.
và góc nhìn khác đến vật thể khác.
as a household pet
như một vật nuôi trong nhà
of variations to the object model,
những thay đổi đối với một vật thể mẫu,
changed my thinking.
đã thay đổi suy nghĩ của tôi.
chúng phải nhìn như thế nào,
real-world experiences and examples.
thế giới thực và qua những ví dụ.
đôi mắt của một đứa trẻ
about every 200 milliseconds,
một cử động mắt được thực hiện.
hundreds of millions of pictures
có thể đã nhìn hàng triệu những bức ảnh
on better and better algorithms,
làm cho thuật toán ngày một tốt hơn
một dạng rèn luyện dữ liệu
the kind of training data
cần phải thu thập một cơ sở dữ liệu
than we have ever had before,
mà chúng tôi đã từng có trước đây,
ở đại học Princeton,
Kai Li at Princeton University,
dự án ImageNet vào năm 2007.
a camera on our head
không cần phải gắn camera trên đâu
that humans have ever created.
mà con người đã từng tạo ra.
like the Amazon Mechanical Turk platform
như nền tảng Amazon Mechanical Tuck
những hình ảnh này.
là một trong số những ông chủ lớn nhất
the biggest employers
sắp xếp và phân loại
of the imagery
thậm chí chỉ là một mảnh hình ảnh
trong những năm tháng phát triển đầu đời
in the early developmental years.
ý tưởng sử dụng dữ liệu lớn
có thể hiển nhiên vào lúc này,
may seem obvious now,
nó không hiển nhiên như vậy.
hành trình này trong một thời gian dài.
for quite a while.
làm cái gì khác có lợi hơn cho chức vụ,
to do something more useful for my tenure,
tìm nguồn tài trợ cho dự án.
for research funding.
với những học viên cao học của mình
để tài trợ cho ImageNet
my dry cleaner's shop to fund ImageNet.
cho những năm tháng đại học của mình.
my college years.
of objects and things
theo từng từ tiếng Anh thông dụng.
hay mèo hoang.
of domestic and wild cats.
để cùng nhau xây dựng nên ImageNet,
to have put together ImageNet,
nghiên cứu được hưởng lợi từ nó,
to benefit from it,
chúng tôi mở toàn bộ hệ thống dữ liệu
we opened up the entire data set
research community for free.
để nuôi sống não bộ máy tính của chúng ta,
to nourish our computer brain,
với những thuật toán .
to the algorithms themselves.
của những nguồn thông tin bởi ImageNet
of information provided by ImageNet
cho việc học những thuật toán của máy tính
of machine learning algorithms
Geoff Hinton, and Yann LeCun
Geoff Hinton, và Yann LeCun
những nơ ron kết nối chặt chẽ với nhau,
of billions of highly connected neurons,
or even millions of nodes
hoặc thậm chí hàng triệu nút
để huấn luyện những mẫu nhận diện vật thể
to train our object recognition model,
để huấn luyện cho một mẫu cực lớn.
to train such a humongous model,
không ai có thể dự đoán được.
trong nhận diện vật thể.
in object recognition.
nói với chúng ta rằng
nói với chúng ta rằng
một đứa trẻ và một con gấu teddy;
a boy and a teddy bear;
và một con diều nhỏ ở phía sau;
in the background;
railings, a lampost, and so on.
tay vịn, một cái đèn đường, vân vân.
is not so confident about what it sees,
về những gì mà nó thấy,
instead of committing too much,
thay vì phụ thuộc quá nhiều,
thật sự ấn tượng với chúng tôi khi nói ra
is remarkable at telling us
của những chiếc xe.
of Google Street View images
hàng triệu ảnh chụp đường phố trên Google
really interesting:
nhiều thứ rất thú vị:
sự hiểu biết chung của chúng ta
giá của xe cũng tương ứng với
also correlate well
or even surpassed human capabilities?
hay thậm chí vượt qua khả năng con người?
cho máy vi tính nhìn thấy những vật thể.
the computer to see objects.
bật ra một vài danh từ.
learning to utter a few nouns.
milestone will be hit,
những cột mốc phát triển khác sẽ đạt được,
to communicate in sentences.
đây là một con mèo trong bức tranh,
this is a cat in the picture,
đây là một con mèo nằm trên một cái giường
telling us this is a cat lying on a bed.
to see a picture and generate sentences,
nhìn một ảnh và cấu thành những câu nói,
and machine learning algorithm
và thuật toán
cả những hình ảnh
from both pictures
vision and language,
kết hợp giữa cái nhìn và ngôn ngữ,
that connects parts of visual things
liên kết những phần của những vật thể
có thể trông thấy được
lại với nhau
computer vision models
máy tính có thị giác đầu tiên
giống như con người
a human-like sentence
what the computer says
điều mà máy vi tính nói
at the beginning of this talk.
ở phần mở đầu của bài nói này.
đang đứng cạnh một con voi.
next to an elephant.
đường băng sân bay.
of an airport runway.
to improve our algorithms,
chăm chỉ để phát triển những thuật toán,
trong chăn trên một cái giường
on a bed in a blanket.
quá nhiều mèo
too many cats,
có thể nhìn giống như một con mèo.
might look like a cat.
is holding a baseball bat.
đang cầm một cái vợt bóng chày
nó sẽ nhầm lẫn với một cái vợt bóng chày
it confuses it with a baseball bat.
down a street next to a building.
xuống một con đường gần một tòa nhà.
to the computers.
môn nghệ thuật cơ bản cho máy tính
trên một bãi cỏ.
in a field of grass.
vẻ đẹp tuyệt mỹ của thiên nhiên
the stunning beauty of nature
from three to 13 and far beyond.
từ 3 đến 13 tuổi và còn xa hơn nữa.
về một bé trai và chiếc bánh một lần nữa.
of the boy and the cake again.
the computer to see objects
máy tính nhìn thấy những vật thể
khi nhìn thấy một bức ảnh.
when seeing a picture.
at a table with a cake.
trên một cái bàn với một cái bánh.
về bức ảnh này
to this picture
is that this is a special Italian cake
đây là một chiếc bánh kiếu Ý rất đặc biệt
chiếc áo thun yêu thích của nó
sau một chuyến đi đến Sydney.
after a trip to Sydney,
cậu bé trông vui đến thế nào
at that moment.
vào lúc đó.
trí thông minh hình ảnh,
những đôi mắt không mệt mỏi
extra pairs of tireless eyes
và chăm sóc bệnh nhân.
and take care of patients.
và an toàn hơn trên đường.
and safer on the road.
để cứu những người mắc kẹt và thương vong.
to save the trapped and wounded.
better materials,
vật liệu tốt hơn,
với sự giúp đỡ của máy móc.
with the help of the machines.
to the machines.
chúng ta cho máy móc thị giác.
chúng ta nhìn rõ hơn.
không còn là thứ duy nhất
won't be the only ones
nhờ sự thông minh của chúng,
for their intelligence,
in ways that we cannot even imagine.
theo những cách không thể tưởng tượng nỗi.
for Leo and for the world.
cho Leo và cho thế giới.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com