Hola. Soy Pablo Arbeláez. El objetivo de este video es introducir la visión por computador, una de las áreas más importantes de la inteligencia artificial. La organización de este video es la siguiente. Primero, tendremos unas definiciones iniciales. Luego, haremos un breve juego perceptual y definiremos las principales tareas del reconocimiento visual. Después, enumeraremos los distintos retos de la visión por computador. Y, finalmente, tendremos algunas conclusiones. La visión por computador busca emular las capacidades de la percepción visual humana. Como todos sabemos, la visión es una de las principales características de la inteligencia natural en los humanos y también en muchos otros seres vivos. Evidencia de esto, es que el córtex visual ocupa alrededor del 50 por ciento del cerebro, en los macacos. La principal característica de la información visual es su inmensa riqueza de formas, de colores, de texturas, etcétera. Esta diversidad es precisamente también su principal dificultad. Comencemos por definir la visión por computador, utilizando las palabras de David Marr, uno de los pioneros de la disciplina, en su libro "Visión", del año 1982. Él comienza su libro preguntándose: ¿qué es ver? Y la respuesta es,, sencillamente saber qué está dónde, al mirar; en inglés, "to know what is where by looking". En otras palabras, la visión consiste en reconocer el qué y el dónde a través de la percepción visual. Así, queremos descubrir qué hay, dónde está, qué forma tiene, qué acciones están ocurriendo en la imagen. De esta manera, podemos decir que la visión por computador consiste en darle la capacidad a las máquinas para entender las imágenes como lo hacemos los seres humanos. Así que la pregunta que nos hacemos y que se hicieron los primeros investigadores en esta área es, ¿qué tan sencilla puede ser la visión por computador? Para responderla, vamos a hacer un pequeño juego perceptual propuesto por Pietro Perona en la Universidad de Caltech, en Estados Unidos, en el 2004. El juego consiste en interpretar una escena con períodos de exposición muy cortos. Les vamos a mostrar una imagen por un breve instante de tiempo y la pregunta es, ¿qué tanto pueden ver? ¿Listos? Ya. El período de exposición que acaban de tener es de apenas 300 milisegundos. Sin embargo, aún en un tiempo tan corto, nuestro cerebro extrae una gran cantidad de información de la imagen. Muchos de ustedes habrán reconocido una escena de exteriores con algunos personajes humanos en el primer plano, vestidos con colores distintos. Algunos habrán podido identificar una escena deportiva o, inclusive, un partido de fútbol. El tiempo que nos toma hacer este análisis corresponde apenas a unas pocas conexiones sinápticas en las neuronas de nuestro cerebro. La conclusión de los investigadores de Caltech es que medio segundo es suficiente para que los seres humanos tengamos una interpretación completa del mundo visual. Inmediatamente, nuestro cerebro reconoce elementos como la ropa deportiva, el balón y el paisaje de una escena exterior. Además, entendemos, por nuestro conocimiento previo, que los colores significan posiblemente dos equipos opuestos, lo cual está reforzado por las poses atléticas de los cuerpos y por las expresiones de esfuerzo en los rostros. Todo esto en menos de medio segundo. Esta comprensión integral de la información visual, es el objetivo, último, de la visión por computador. Sin embargo, al ser este un objetivo tan complejo, tradicionalmente, la visión se ha dividido en una serie de tareas individuales que son más fáciles de abordar. Entre ellas, las principales son: primero, la reconstrucción geométrica de la escena y de los objetos en ella. En este caso, tenemos un plano horizontal que se extiende hacia el horizonte y sobre él reposan varios objetos verticales que son los jugadores. El segundo problema es el del reordenamiento perceptual, también conocido como la "segmentación", y que consiste en la habilidad para separar los distintos objetos del fondo de la imagen. Finalmente, viene el reconocimiento, que significa "conocer de nuevo" o "reconocer" y que nos permite poner en contacto la información visual con toda nuestra experiencia previa del mundo. La reconstrucción el reagrupamiento y el reconocimiento son llamados "las tres R de Malik", en honor a Jitendra Malik, uno de los grandes investigadores de esta disciplina y que propuso esta clasificación. Tradicionalmente, estos tres problemas fueron estudiados de manera independiente y con técnicas especializadas para cada uno de ellos. Sin embargo, en los últimos años, el desarrollo de nuevas técnicas, llamadas "de aprendizaje profundo", ha permitido su estudio unificado. La pregunta entonces es: ¿por qué es tan difícil la interpretación visual si nuestro cerebro la resuelve de manera instantánea y sin ningún esfuerzo? Repasemos entonces los principales retos de la visión. El primero está relacionado con la naturaleza plana de las imágenes naturales. El mundo natural en el que vivimos es en tres dimensiones y las imágenes se obtienen mediante una proyección de este mundo a un plano, lo que lleva necesariamente a una pérdida de información. Por ejemplo, si observamos la imagen de la izquierda, nos es imposible determinar cuál fue la escena del mundo real en tres dimensiones que le dio origen. Puede tratarse de un objeto vertical, como el de la parte superior; puede también tratarse de un objeto que se extiende en la profundidad, pero el cual solo vemos la cara frontal, o, finalmente, puede también ser una marca pintada en el suelo. A partir, únicamente, de la imagen nos es imposible saber cuál era la escena original. Esta ambigüedad es el primer gran reto de la visión. El segundo reto es que los objetos tridimensionales pueden tener proyecciones planas muy distintas entre sí y nuestra mente debe hacer la correspondencia entre los distintos puntos de vista de un objeto y su geometría en tres dimensiones. El siguiente reto son los cambios de iluminación, puesto que, dependiendo del tipo de luz y de su interacción con los objetos, la apariencia de estos puede cambiar drásticamente. El cuarto reto de la percepción visual es la oclusión, pues los objetos tridimensionales son muchas veces sólidos y, por lo tanto, se ocluyen, se tapan unos a otros. Esta característica implica que nuestro sistema visual debe ser capaz de interpretar datos incompletos y reconocer los objetos a partir de sus partes. El quinto reto de la visión es que algunos objetos cambian su forma en el tiempo y, por lo tanto, reconocer estos objetos deformables implica un grado adicional de dificultad. El sexto reto de la visión está asociado a la perspectiva, puesto que el mismo objeto es proyectado en la imagen de tamaño cada vez más pequeño a medida que se aleja de la cámara. Será necesario tener presentes estos cambios de escala en el modelamiento. Finalmente, el último reto para la interpretación de la información visual, está en el abarrotamiento del fondo, pues los objetos rara vez aparecen aislados y, por el contrario, a menudo están inmersos en un contexto del que no necesariamente es fácil separarlos. Entre estos retos de la interpretación visual, la escala a la que aparecen los objetos es crítica, pues, en buena medida, determina las tareas que se pueden estudiar. Por ejemplo, en este escala, la botella es un objeto aislado y, por lo tanto, esta imagen permitiría estudiar el problema de clasificación. Ahora, la botella aparece como un objeto embebido en una escena compleja. Por lo tanto, el problema interesante es ahora el de localizar la botella en la imagen o detectarla. Finalmente, si la escala a la que aparecen los objetos es realmente muy pequeña, estos dejan de ser percibidos como entidades individuales y se convierten, más bien, en un patrón repetido de textura. Para terminar, una distinción fundamental en visión es aquella entre instancias individuales y categorías de objetos. El problema de reconocer esta instancia específica de botella en una imagen es muy distinto al de identificar cualquier instancia de la categoría visual "botella". Nuestras conclusiones son entonces las siguientes. La visión por computador es el área de la inteligencia artificial que se encarga de la interpretación de la información visual. A través de computadores, queremos identificar qué objetos hay en una imagen, dónde están, qué forma tienen, qué está pasando, etcétera. Por otro lado, las tareas primarias de la visión por computador son las tres R de Malik, la reconstrucción geométrica, el reordenamiento perceptual y el reconocimiento. La visión es un área muy difícil. Algunos retos son los cambios de punto de vista, de iluminación, de escala, la deformación de los objetos, la oclusión y el abarrotamiento del fondo. Por otro lado, la escala afecta la comprensión de la imagen; mientras que en una imagen un objeto puede aparecer aislado, en otra puede ser parte de una textura. Finalmente, diferenciamos las instancias individuales y las categorías de objetos en el reconocimiento visual. Muchas gracias por su atención.