Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Como estamos ensinando os computadores a compreender fotos
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sentado sobre a cama.
sitting in a bed.
that are going on an airplane.
que estão entrando num avião.
de três anos de idade
a three-year-old child
in a series of photos.
to learn about this world,
o que aprender sobre este mundo,
at one very important task:
numa importante tarefa:
tecnologicamente avançada do que nunca.
technologically advanced than ever.
we make phones that talk to us
fazemos telefones que falam conosco
that can play only music we like.
para tocar só as músicas de que gostamos.
machines and computers
mais avançadas e computadores
to give you a progress report
para dar um relatório do progresso
in our research in computer vision,
em nossa pesquisa em visão computacional,
and potentially revolutionary
e potencialmente revolucionárias
that can drive by themselves,
que podem dirigir sozinhos,
they cannot really tell the difference
não conseguem notar a diferença
on the road, which can be run over,
na estrada, que pode ser atropelado,
which should be avoided.
que deve ser evitada.
sight to the blind.
sobre a terra firme,
de visão suficiente
the changes of the rainforests.
as mudanças das florestas tropicais.
estão em toda parte,
is drowning in a swimming pool.
está se afogando numa piscina.
partes integrais da vida global.
an integral part of global life.
that's far beyond what any human,
muito além do que qualquer humano,
poderia esperar ver.
to that at this TED.
para isto nesta palestra TED.
is still struggling at understanding
ainda tem dificuldade para compreender
collectively as a society,
coletivamente como sociedade,
mais inteligentes ainda são cegas.
machines are still blind.
vocês podem perguntar.
bidimensional de números
a two-dimensional array of numbers
the same as to listen,
não é o mesmo que escutar,
the same as to see,
we really mean understanding.
540 milhões de anos de trabalho pesado
540 million years of hard work
processing apparatus of our brains,
de processamento visual do nosso cérebro,
from my Ph.D. at Caltech
com o meu doutorado na Caltech
o Stanford's Vision Lab,
colaboradores e alunos
collaborators and students
computacional e aprendizado de máquina.
computer vision and machine learning.
of artificial intelligence.
da inteligência artificial.
the machines to see just like we do:
as máquinas a ver como nós:
inferring 3D geometry of things,
perceber a geometria 3D das coisas,
actions and intentions.
ações e intenções.
das pessoas, lugares e coisas
of people, places and things
is to teach a computer to see objects,
é ensinar um computador a ver objetos,
imaginem este processo de ensino
imagine this teaching process
some training images
algumas imagens de treinamento
from these training images.
a partir destas imagens de treinamento.
uma coleção de forma e cores,
a collection of shapes and colors,
in the early days of object modeling.
de modelagem de objetos.
numa linguagem matemática,
in a mathematical language
a chubby body,
arredondado, corpo gordinho,
and viewpoint to the object model.
e outro ponto de vista ao objeto modelo.
as a household pet
como um animal doméstico,
of variations to the object model,
de variações ao objeto modelo,
changed my thinking.
e profunda mudou o meu pensamento.
real-world experiences and examples.
e exemplos do mundo real.
about every 200 milliseconds,
a cada 200 milissegundos,
do olho é feito.
hundreds of millions of pictures
terá visto centenas de milhões de fotos
somente algoritmos melhores,
on better and better algorithms,
the kind of training data
os tipos de dados de treinamento
através das experiências,
coletar um conjunto de dados
than we have ever had before,
do que tínhamos antes,
Kai Li at Princeton University,
da Universidade de Princeton,
a camera on our head
uma câmera em nossas cabeças
that humans have ever created.
que os humanos já criaram.
um bilhão de imagens
like the Amazon Mechanical Turk platform
como a plataforma Amazon Mechanical Turk,
a classificar essas imagens.
the biggest employers
um dos maiores empregadores
da Amazon Mechanical Turk.
separar e classificar
de candidatas a imagens.
of the imagery
uma fração das imagens
in the early developmental years.
nos primeiros anos de desenvolvimento.
esta ideia de usar dados extensos
may seem obvious now,
computacionais pode parecer óbvia agora,
for quite a while.
nessa jornada por um bom tempo.
to do something more useful for my tenure,
a fazer algo mais útil pelo meu mandato,
for research funding.
financiamento para a pesquisa.
com os meus alunos de graduação
my dry cleaner's shop to fund ImageNet.
a seco para financiar o ImageNet.
my college years.
que financiei minha faculdade.
de 15 milhões de imagens,
of objects and things
cotidianas em inglês.
of domestic and wild cats.
de gatos domésticos e selvagens.
to have put together ImageNet,
to benefit from it,
se beneficiasse com ele.
todo o conjunto de dados
we opened up the entire data set
research community for free.
de pesquisa gratuitamente.
to nourish our computer brain,
o cérebro do nosso computador,
to the algorithms themselves.
aos algoritmos em si.
of information provided by ImageNet
fornecidas pelo ImageNet
of machine learning algorithms
de algoritmos de aprendizado de máquina
Geoff Hinton, and Yann LeCun
Geoff Hinton e Yann LeCun
of billions of highly connected neurons,
de neurônios altamente conectados,
numa rede neural
or even millions of nodes
ou mesmo milhões de nós,
nosso modelo de reconhecimento de objetos
to train our object recognition model,
consideráveis do ImageNet
to train such a humongous model,
para treinar um modelo colossal,
in object recognition.
em reconhecimento de objetos.
computacional nos dizendo
a boy and a teddy bear;
e um urso de pelúcia;
e uma pequena pipa ao fundo;
in the background;
railings, a lampost, and so on.
um poste de luz, e assim por diante.
is not so confident about what it sees,
não tem certeza do que vê,
a ser inteligente o bastante
instead of committing too much,
em vez de ficar deduzindo muito,
is remarkable at telling us
computacional é notável aos nos dizer
of Google Street View images
de imagens do Google Street View
really interesting:
a nossa sabedoria popular
also correlate well
o preço dos carros também se relaciona
or even surpassed human capabilities?
superaram as capacidades humanas?
the computer to see objects.
os computadores a ver objetos.
learning to utter a few nouns.
a pronunciar algumas palavras.
milestone will be hit,
de desenvolvimento será atingido,
to communicate in sentences.
a se comunicar por meio de frases.
this is a cat in the picture,
que isto é um gato na foto,
telling us this is a cat lying on a bed.
que isto é um gato deitado na cama.
to see a picture and generate sentences,
a ver uma foto e criar frases,
and machine learning algorithm
e o algoritmo de aprendizado de máquina
from both pictures
tanto com as fotos
visão e linguagem,
vision and language,
that connects parts of visual things
que conecta partes de coisas visuais,
computer vision models
modelos de visão computacional
a human-like sentence
what the computer says
at the beginning of this talk.
no início desta palestra.
em pé, próximo a um elefante.
next to an elephant.
de uma pista de aeroporto.
of an airport runway.
para melhorar nossos algoritmos,
to improve our algorithms,
numa cama com um cobertor. (Risos)
on a bed in a blanket.
too many cats,
might look like a cat.
está segurando um taco de beisebol.
is holding a baseball bat.
ele a confunde com um taco de beisebol.
it confuses it with a baseball bat.
um cavalo na rua, próximo a um edifício.
down a street next to a building.
aos computadores.
to the computers.
in a field of grass.
num campo gramado.
the stunning beauty of nature
a deslumbrante beleza da natureza
dos 3 aos 13 e além disso.
from three to 13 and far beyond.
of the boy and the cake again.
com o bolo novamente.
the computer to see objects
o computador a ver objetos
when seeing a picture.
história quando vê uma foto.
sentada à mesa com um bolo.
at a table with a cake.
to this picture
é que esta é uma colomba
is that this is a special Italian cake
a sua camiseta preferida,
after a trip to Sydney,
pelo pai após uma viagem a Sydney.
at that moment.
exatamente naquele momento.
extra pairs of tireless eyes
pares extras de olhos incansáveis
and take care of patients.
e cuidar de pacientes.
and safer on the road.
mais inteligente e segura nas estradas.
em áreas de desastres
to save the trapped and wounded.
materiais melhores
better materials,
with the help of the machines.
com a ajuda das máquinas.
visão às máquinas.
to the machines.
won't be the only ones
ponderando e explorando nosso mundo.
apenas pela sua inteligência;
for their intelligence,
in ways that we cannot even imagine.
de uma maneira que nem sequer imaginamos.
for Leo and for the world.
para o Leo e para o mundo.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com