Logo de la Universdad de Valencia Logo Máster Universitario en Ciencia de Datos Logo del portal

Máquinas de enseñanza para predecir el futuro

El sistema de visión de aprendizaje profundo desde la Informática y el Laboratorio de Inteligencia Artificial anticipa interacciones humanas mediante vídeos de programas televisivos.

20 de julio de 2016

*Noticia traducida de MIT News

Cuando vemos a dos personas conociéndose, podemos predecir qué va a pasar: un apretón de manos, un abrazo, o incluso un beso. Nuestra capacidad para anticipar acciones se da gracias a las intuiciones adquiridas durante las experiencias de nuestra  vida.

Las máquinas, por otro lado, tienen problemas al utilizar conocimientos complejos como estos. Los sistemas informáticos que predicen acciones podrían abrir nuevas posibilidades que van desde robots que se desenvuelven en el entorno humano hasta sistemas de respuesta de emergencia que predicen caídas o auriculares parecidos a las gafas de realidad aumentada de Google que te ofrecen sugerencias sobre qué hacer en distintas ocasiones.

Esta semana, investigadores del Laboratorio de Informática e Inteligencia Artificial (CSAIL) del MIT han realizado un gran avance en visión predictiva, han desarrollado un algoritmo que puede anticipar interacciones de forma más precisa que nunca.

El sistema puede predecir si dos individuos se van a abrazar, besar, si se van a dar un apretón de manos o si van chocar los cinco basándose en vídeos de Youtube y series como The Office y Mujeres desesperadas. En un segundo plano, también podría anticipar qué objeto es probable que aparezca en un vídeo cinco segundos después.

Mientras que los saludos humanos pueden parecer acciones arbitrarias que predecir, esta labor sirvió como una prueba más fácil de controlar para los investigadores.

«Los humanos aprenden automáticamente a anticipar acciones a través de la experiencia, lo cual captó nuestro interés en tratar de imbuir ordenadores con el mismo tipo de sentido común», dice el estudiante de doctorado del CSAIL Carl Vondrick, primer autor de un artículo relacionado que presentará esta semana en la Conferencia internacional sobre visión por ordenador y reconocimiento de patrones (CVPR). «Queríamos mostrar que simplemente con mirar muchos vídeos, los ordenadores pueden adquirir el suficiente conocimiento como para hacer predicciones de forma consistente sobre su entorno».

Entre los co-autores del trabajo de Vondrick se encuentran el profesor del MIT Antonio Torralbe y el ex postdoctorado Hamed Pirsiavash, actualmente profesor en la Universidad de Maryland.

Cómo funciona

Anteriores intentos en visión por ordenador predictiva han tomado generalmente uno o dos enfoques.

El primer método consiste en mirar los píxeles individuales de una imagen y utilizar ese conocimiento para crear una «futura» imagen foto-realística, pixel a píxel - una tarea que Vondrick describe como «difícil para un pintor profesional, pero mucho menos para un algoritmo». El segundo consiste en hacer que los humanos marquen la escena para el ordenador previamente, lo cual es poco práctico para poder predecir acciones a gran escala.

EL equipo del CSAIL, en cambio, creó un algoritmo que puede predecir «representaciones visuales», que son básicamente fotogramas congelados que muestran distintas versiones de lo que podría parecer la escena.

«En lugar de decir que el valor de un pixel es azul, el siguiente rojo, etc., las representaciones visuales revelan información sobre la imagen más grande, como una colección de píxeles que representa un rostro humano», dice Vondrick.

El algoritmo del equipo utiliza técnicas de aprendizaje profundo, un campo de la inteligencia artificial que utiliza sistemas llamados «redes neuronales» para enseñar a los ordenadores a leer atentamente cantidades enormes de datos para encontrar patrones por sí mismos.

Cada una de las redes del algoritmo predice una representación que automáticamente se clasifica como una de las cuatro acciones - en este caso: un abrazo, un apretón o un choque de manos o un beso. Entonces el sistema fusiona estas acciones en una que se utiliza como su predicción. Por ejemplo, tres redes pueden predecir un beso, mientras que otra puede utilizar el hecho de que otra persona ha entrado en el encuadre como motivo para predecir un abrazo.

«Un vídeo no es como un libro de ‘Elige tu propia aventura’ donde puedes ver todas las posibles opciones», dice Vondrick. «El futuro es ambiguo por naturaleza, por lo que es emocionante ponernos a prueba para desarrollar un sistema que utilice estas representaciones para anticipar todas las posibilidades».

Cómo se ha hecho

Después de entrenar al algoritmo con 600 horas de vídeo sin etiquetar, el equipo lo probó en nuevos vídeos que mostraran ambas acciones y objetos.

Cuando se muestra un vídeo de gente que está a un segundo de realizar una de las cuatro acciones, el algoritmo predijo correctamente la acción más del 43% de las veces, comparado con los algoritmos existentes que solo podían acertarlo el 36% de las veces.

En un segundo estudio, se le mostró al algoritmo un fotograma de un vídeo y se le pidió que predijera qué objeto aparecería cinco segundos después. Por ejemplo, ver a alguien abrir un microondas puede sugerir la presencia futura de una taza de café. El algoritmo predijo el objeto en el marco un 30% de forma más precisa que las medidas base, aunque los investigadores advierten que solo tiene una precisión del 11% todavía.

Cabe destacar que incluso los humanos cometen errores en estas tareas: por ejemplo, sujetos humanos solo fueron capaces de predecir correctamente la acción el 71% de las veces.

«Hay mucha sutileza en el entendimiento y previsión de interacciones humanas», dice Vondrick. “Esperamos poder subsanar este ejemplo para ser capaces de predecir pronto incluso tareas más complejas».

Perspectiva de futuro

Mientras que los algoritmos no son lo suficientemente precisos para aplicaciones prácticas, Vondrick dice que se podrían utilizar futuras versiones para todo, desde robots que desarrollen de mejor forma planes de acción hasta cámaras de seguridad que puedan avisar al personal de emergencia cuando alguien caiga o se haga daño.

«Estoy entusiasmado por ver como mejoran los algoritmos si les introducimos los vídeos de toda una vida», dice Vondrick. «Podríamos ver mejoras significantes que nos acercarían al uso de visión predictiva en situaciones del mundo real».

El trabajo ha contado con el apoyo de una beca de la Fundación Nacional de Ciencias, junto con un premio Google a la investigación para Torralba y una beca Google para Vondrick.