Fei-Fei Li: How we're teaching computers to understand pictures
Fei-Fei Li: Cómo estamos enseñando a las computadoras a entender imágenes
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio
Double-click the English transcript below to play the video.
sitting in a bed.
sentado en una cama.
that are going on an airplane.
a three-year-old child
in a series of photos.
en una serie de fotos.
to learn about this world,
por aprender sobre este mundo,
at one very important task:
en algo importante:
technologically advanced than ever.
está más avanzada que nunca.
we make phones that talk to us
nuestros teléfonos nos hablan
that can play only music we like.
solo la música que nos gusta.
machines and computers
y computadoras más avanzadas
to give you a progress report
para darles un reporte
in our research in computer vision,
en visión artificial,
and potentially revolutionary
más revolucionarias
that can drive by themselves,
que conducen solos,
they cannot really tell the difference
realmente no pueden distinguir
on the road, which can be run over,
en el camino, que puede uno pisar,
which should be avoided.
que debemos evitar.
de muchos megapíxeles,
sight to the blind.
la vista a un ciego.
grandes superficies de tierra,
the changes of the rainforests.
cambios en los bosques tropicales.
is drowning in a swimming pool.
se está ahogando en una piscina.
an integral part of global life.
parte integral de la vida global.
that's far beyond what any human,
de lo que cualquier humano,
to that at this TED.
a eso en este TED.
is still struggling at understanding
tiene problemas para entender
collectively as a society,
como una sociedad,
machines are still blind.
más inteligentes aún son ciegas.
"¿Por qué es tan difícil?"
a two-dimensional array of numbers
numéricas bidimensionales
the same as to listen,
lo mismo que escuchar,
the same as to see,
no es lo mismo que ver;
we really mean understanding.
540 million years of hard work
540 millones de años de arduo trabajo
processing apparatus of our brains,
de procesamiento visual en el cerebro,
ocurre en nuestro cerebro.
from my Ph.D. at Caltech
desde mi doctorado en Caltech
Stanford Vision Lab,
collaborators and students
colaboradores y estudiantes
computer vision and machine learning.
y aprendizaje automático".
of artificial intelligence.
la inteligencia artificial.
the machines to see just like we do:
a ver tal como nosotros lo hacemos:
inferring 3D geometry of things,
inferir la geometría 3D de las cosas,
actions and intentions.
acciones e intenciones.
of people, places and things
de la gente, los lugares y las cosas
enseñar a una computadora a ver objetos,
is to teach a computer to see objects,
imagine this teaching process
imaginen este proceso
some training images
algunas imágenes de entrenamiento
digamos gatos,
from these training images.
aprenda de estas imágenes.
a collection of shapes and colors,
un conjunto de formas y colores,
in the early days of object modeling.
de la modelización de objetos.
in a mathematical language
de la computadora
a chubby body,
cuerpo regordete,
y cola larga,
and viewpoint to the object model.
perspectiva al modelo del objeto.
as a household pet
como una mascota
of variations to the object model,
variaciones en el modelo del objeto,
changed my thinking.
cambió mi perspectiva.
real-world experiences and examples.
y experiencias del mundo real.
about every 200 milliseconds,
hace un movimiento.
hundreds of millions of pictures
cientos de millones de fotografías
de entrenamiento.
on better and better algorithms,
solo en mejorar los algoritmos,
the kind of training data
con los datos de entrenamiento
than we have ever had before,
Kai Li at Princeton University,
en la Universidad de Princeton,
a camera on our head
una cámara en la cabeza
that humans have ever created.
creado por la humanidad.
1000 millones de imágenes
like the Amazon Mechanical Turk platform
como la plataforma Amazon Mechanical Turk
the biggest employers
uno de los empleadores más importantes
Amazon Mechanical Turk:
separar y etiquetar
de imágenes candidatas.
of the imagery
de todas las imágenes
in the early developmental years.
primeros años de desarrollo.
esta idea de usar muchos datos
may seem obvious now,
puede parecer obvia ahora.
no era tan evidente.
for quite a while.
por un buen rato.
to do something more useful for my tenure,
hacer algo más útil para mi cátedra,
for research funding.
para conseguir financiamiento.
a mis alumnos, como broma,
my dry cleaner's shop to fund ImageNet.
para financiar ImageNet.
my college years.
financié mis años de universidad.
15 millones de imágenes
of objects and things
en inglés de uso cotidiano.
of domestic and wild cats.
domésticos y salvajes.
to have put together ImageNet,
por haber creado ImageNet
to benefit from it,
la investigación se beneficiara,
we opened up the entire data set
abrimos toda la base de datos
research community for free.
investigadores de forma gratuita.
to nourish our computer brain,
el cerebro de nuestra computadora,
to the algorithms themselves.
a los algoritmos.
of information provided by ImageNet
aportada por ImageNet
of machine learning algorithms
un tipo particular de algoritmos
red neuronal convolucional,
Geoff Hinton, and Yann LeCun
Geoff Hinton y Yann LeCun
of billions of highly connected neurons,
millones de neuronas muy bien conectadas,
en una red neuronal
a otros nodos.
or even millions of nodes
o incluso millones de nodos
to train our object recognition model,
que usamos para entrenar
reconocimiento de objetos
masiva de ImageNet
to train such a humongous model,
entrenan este inmenso modelo,
in object recognition.
resultados en reconocimiento de objetos.
aparte de los gatos
informático que nos dice
a boy and a teddy bear;
de peluche en la foto;
in the background;
y un papalote al fondo;
railings, a lampost, and so on.
un barandal, una lámpara etc.
is not so confident about what it sees,
no está segura de lo que ve,
instead of committing too much,
en lugar de comprometer su respuesta,
is remarkable at telling us
informático es muy acertado al decirnos
y año de los coches.
of Google Street View images
de imágenes de Google Street View
de Estados Unidos
really interesting:
se relacionan bien
also correlate well
de los autos se relacionan también
en la ciudades
por código postal.
or even surpassed human capabilities?
las capacidades humanas?
the computer to see objects.
a la computadora a ver objetos.
learning to utter a few nouns.
que aprende a decir palabras.
milestone will be hit,
to communicate in sentences.
a comunicarse con frases.
this is a cat in the picture,
que hay un gato en la foto,
telling us this is a cat lying on a bed.
está sobre la cama.
to see a picture and generate sentences,
a ver una foto y generar frases
and machine learning algorithm
y el algoritmo de aprendizaje automático
from both pictures
que aprender de fotografías
vision and language,
integra visión y lenguaje,
that connects parts of visual things
conecta partes de cosas visuales
computer vision models
modelos de visión artificial
a human-like sentence
como las de un humano
what the computer says
lo que dice la computadora
at the beginning of this talk.
next to an elephant.
Un hombre está junto a un elefante.
of an airport runway.
de una pista de aeropuerto.
to improve our algorithms,
trabajando para mejorar los algoritmos
on a bed in a blanket.
recostado en la cama en una sábana.
too many cats,
demasiados gatos,
might look like a cat.
parece un gato.
is holding a baseball bat.
tiene un bate de béisbol.
it confuses it with a baseball bat.
un cepillo de dientes,
down a street next to a building.
montando un caballo junto a un edificio.
to the computers.
arte elemental a las computadoras.
in a field of grass.
en un campo de hierba.
the stunning beauty of nature
la belleza deslumbrante
como lo hacemos nosotros.
from three to 13 and far beyond.
a los 13 y mucho más todavía.
of the boy and the cake again.
del niño y el pastel.
the computer to see objects
a la computadora a ver objetos
when seeing a picture.
historia cuando ve la foto.
at a table with a cake.
a la mesa con un pastel.
to this picture
en esta fotografía
is that this is a special Italian cake
este es un pastel especial italiano
after a trip to Sydney,
tras un viaje a Sídney,
qué tan feliz está
at that moment.
en ese momento.
extra pairs of tireless eyes
un par extra de ojos incansables
and take care of patients.
y cuidar de los pacientes.
and safer on the road.
inteligente y segura en los caminos.
to save the trapped and wounded.
para salvar heridos y atrapados.
better materials,
mejores materiales,
with the help of the machines.
con ayuda de las máquinas.
to the machines.
el don de la vista.
no serán los únicos
won't be the only ones
for their intelligence,
por su inteligencia,
in ways that we cannot even imagine.
formas que ni siquiera imaginamos.
inteligencia visual
for Leo and for the world.
para Leo y para el mundo.
ABOUT THE SPEAKER
Fei-Fei Li - Computer scientistAs Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.
Why you should listen
Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.
Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers.
Fei-Fei Li | Speaker | TED.com