[MÚSICA] Hola. En nombre de todos los profesores que participamos en este curso, os quiero dar la bienvenida al curso de clasificación de imágenes. Esperamos que tanto los contenidos como los materiales que hemos preparado, cumplan con vuestras expectativas, y que podáis llegar hasta el final del curso habiendo adquirido los conocimientos básicos para diseñar un sistema de clasificación de imágenes. En este primer vÃdeo, os introduciremos al problema de la clasificación de imágenes. Veremos qué entendemos por clasificación de imágenes en el contexto de este curso, y lo vamos a diferenciar de otros problemas de visión por computador, que están relacionados con la clasificación, pero que quedan fuera del alcance del curso. Introduciremos también un esquema general de clasificación de imágenes que será el que seguiremos a lo largo de todo el curso. En el curso iremos viendo alternativas diferentes para cada uno de los pasos que tenemos en este esquema general. En el contexto de este curso, entenderemos por clasificación de imágenes, el proceso de asignar a una imagen como esta que tenemos aquÃ, una o múltiples etiquetas que nos permitirán describir el contenido de esa imagen. Hay que decir que la asignación de etiquetas a una imagen puede ser un proceso muy subjetivo. Seguramente, cada uno de nosotros, ante esta misma imagen, le darÃamos etiquetas que serÃan diferentes. Si, por ejemplo, podrÃamos considerar etiquetas referentes a los diferentes objetos que podemos identificar y detectar en la imagen, por ejemplo, en la imagen tenemos una persona, una bicicleta, un puente, pero también le podrÃamos dar etiquetas más genéricas sobre el aspecto global de la escena, como por ejemplo decir que esta imagen es una escena de una ciudad o de un rÃo. También le podrÃamos dar etiquetas sobre las partes que tenemos en la imagen, como por ejemplo, el cielo, agua, o nubes, o incluso etiquetas con un significado más semántico, como por ejemplo sobre acciones, o la impresión que nos traslada la imagen, por ejemplo en este caso, salto o peligro. Cómo se determinan estas etiquetas que hay que asignar a cada imagen, es algo que a nosotros no nos va a importar. A lo largo del curso, lo que vamos a ver es cómo podemos diseñar sistemas de clasificación de imágenes que sean capaces de aprender qué etiqueta tenemos que asignar a una determinada imagen, a partir de un conjunto de imágenes de aprendizaje que ya han sido previamente etiquetadas. Bajo qué criterios se han asignado estas etiquetas al conjunto de aprendizaje, es decir, si a partir de los objetos que la componen, si como descripción genérica de la escena, o cualquier otro criterio nos va a ser indiferente. Es decir, dada una nueva imagen a clasificar, lo que vamos a hacer es aprender a darle una etiqueta, siguiendo el mismo criterio que hayamos utilizado en el conjunto de aprendizaje. Por lo tanto, veremos que disponer de un buen conjunto de aprendizaje, será algo esencial para poder entrenar correctamente nuestro sistema de clasificación de imágenes. Aquà vemos algunos ejemplos de imágenes que podrÃan estar etiquetadas como bicicleta, como ciudad, o como persona. A partir de un conjunto como este, que normalmente contendrá muchas más imágenes, el sistema de clasificación deberá ser capaz de aprender cuáles son las caracterÃsticas visuales que comparten todas las imágenes de una categorÃa, y cuáles son las caracterÃsticas visuales que nos permiten distinguirlas de las imágenes de otras categorÃas. Cómo se extraen estas caracterÃsticas visuales en una imagen, cómo se representan, y cómo se aprende lo que es caracterÃstico de cada categorÃa, es precisamente lo que veremos a lo largo del curso. Fijémonos que, dada la subjetividad y los múltiples criterios que podemos utilizar para asignar etiquetas a las imágenes, podemos tener, en una misma imagen, diferentes etiquetas, por ejemplo, esta imagen de aquà es una imagen que contiene una persona en bicicleta dentro de una ciudad, por lo tanto, puede tener las tres etiquetas. Antes de continuar, vamos a distinguir lo que entendemos por clasificación, de otras tareas de visión por computador que pueden estar relacionadas con la clasificación y compartir algunas de las técnicas que se utilizan, pero que en realidad son programas diferentes y que quedan fuera del alcance de este curso. En primer lugar, tenemos que distinguir la clasificación de la detección de objetos. En la detección, lo que queremos hacer es localizar en una imagen, todas las apariciones de un determinado objeto. En este ejemplo, personas. La detección va a a implicar encontrar dónde está cada objeto, mientras que en la clasificación únicamente asignamos una etiqueta a toda la imagen, sin importarnos dónde está el objeto. Decir que en Coursera existe otro curso especÃfico sobre detección, en el que también hemos participado algunos de los profesores que impartimos este curso de clasificación. Tenemos también que distinguir la clasificación de la segmentación. En la segmentación, el objetivo es descomponer la imagen en los diferentes objetos o elementos que la componen. Por ejemplo en este caso, en esta imagen tenemos el cielo el puente, la persona en bicicleta, la ciudad, el rÃo, etcétera. Y finalmente, hay que distinguir la clasificación de lo que llamamos búsqueda por similitud, o retrieval en inglés, donde el objetivo va a ser buscar dentro de una base de datos de imágenes, otras imágenes que sean visualmente similares a la imagen original que tenemos. En este caso también habrá que encontrar imágenes con caracterÃsticas visuales parecidas, igual que en la clasificación, pero la diferencia está en que no tenemos etiquetas para todas las imágenes y que, seguramente, al buscar en una base de datos con muchas imágenes, la eficiencia computacional pasará a ser un aspecto mucho más relevante. Bien, ahora que ya tenemos definido qué es lo que entendemos por clasificación de imágenes, vamos a ver por qué es difÃcil realizar la clasificación. La principal dificultad vendrá dada por la enorme variabilidad que podemos tener en la apariencia visual de imágenes de la misma clase. Esta variabilidad puede venir dada por multitud de factores. Por ejemplo, diferencias en la iluminación que tenemos en la imagen, en el tamaño, en la posición, o en el punto de vista del objeto principal, aquà tenemos caballos que son muy pequeños, caballos que son más grandes, caballos que están de espaldas, caballos que están de lado. También podemos tener variabilidad en el fondo de la imagen, aquà tenemos un caballo en una montaña, en una playa, en un prado, etcétera. También podemos tener oclusiones del objeto a reconocer, en este caso los caballos están tapados por una persona, aquà está medio escondido dentro del agua, o bien, la propia variabilidad del objeto que queremos identificar, ya que tenemos diferentes tipos o razas de caballos. Otro motivo de dificultad va a ser también, el gran número de etiquetas o de categorÃas que podemos asignar en una, a una imagen. En el diccionario, podemos encontrar del orden de miles de palabras que son susceptibles de poder ser utilizadas como categorÃas en una imagen. Normalmente, los sistemas que diseñaremos nos permitirán distinguir solo entre un número más reducido de categorÃas, del orden de las decenas, de las centenas, incluso de unos pocos miles. Hasta aquÃ, la definición del problema. Vamos a empezar a ver cómo será nuestro sistema de clasificación que nos va a permitir resolverlo. A lo largo del curso seguiremos este esquema general que vemos aquà en el que tenemos tres pasos bien diferenciados. Por un lado la extracción de caracterÃsticas, la representación de la imagen y la clasificación. El objetivo va a ser que a partir de una imagen de entrada, al final podamos asignarle una determinada categorÃa, de entre las que habremos aprendido a partir del conjunto de aprendizaje. Vamos a introducir ahora brevemente cada uno de estos tres pasos. El primer paso va a ser siempre lo que llamaremos extracción de caracterÃsticas, que nos va a permitir obtener caracterÃsticas visuales a partir de la imagen. Veremos que cada caracterÃstica visual va a acabar siendo un vector numérico que nos describirá de forma matemática la apariencia visual de una región de la imagen. En este punto permitidme hacer una pequeña aclaración para aquellos de vosotros que hayáis seguido el curso de detección de objetos. Aquà tendréis que fijaros que el enfoque para extraer caracterÃsticas va a ser diferente al que se explica en el curso de detección. En el curso de detección la extracción de caraterÃsticas se realiza a partir de subventanas de la imagen, y obtenemos una representación global y única de toda la ventana. Para la clasificación, y debido a la gran variabilidad que podemos tener que ya hemos comentado, este enfoque nos introducirÃa mucho ruido y variabilidad, con lo que utilizaremos una técnica diferente que consiste en dos procesos diferentes. En primer lugar vamos a detectar en la imagen lo que llamaremos puntos de interés, es decir, zonas que nos puedan dar una información relevante sobre el contenido de la imagen. Normalmente, estos puntos estarán localizados en zonas significativas, como por ejemplo zonas con cambios significativos de contraste, o bien en los contornos de los objetos. En segundo lugar, para cada uno de estos puntos de interés, vamos a obtener una descripción local. Es decir, una descripción del contenido visual en una pequeña zona de la imagen que definiremos alrededor del punto de interés. Esta descripción va a ser un vector numérico que, como hemos dicho nos va a dar una representación matemática del contenido visual de esa zona. Asà pues, resumiendo este primer paso de extracción de caracterÃsticas, hemos visto que se compone de dos subprocesos, la detección y la descripción de puntos de interés, y como resultado nos da un conjunto de puntos de interés en la imagen, que podrá ser variable de una imagen a otra, y una descripción en forma de vector numérico, para cada uno de estos puntos. Esta lista con la descripción de todos los puntos de interés nos da la información básica sobre el contenido visual de las imágenes, pero es difÃcil de manejar desde el punto de vista computacional, tanto por la cantidad de información como por el formato, ya que, tal como veremos, los mejores clasificadores están diseñados para trabajar a partir de una representación en forma de un único vector numérico. Por lo tanto, el segundo paso en nuestro esquema será obtener una representación única de toda la imagen, en forma de vector numérico. Esta representación la vamos a obtener agregando o combinando la descripción de todos los puntos de interés. A partir de esta representación única de toda la imagen, el paso final va a ser el paso de clasificación propiamente dicho. Es en este último paso donde realmente vamos a aprender, a partir del conjunto de aprendizaje, cómo distinguir las imágenes de las diferentes categorÃas a partir de la representación visual de cada imagen. Es decir, vamos a tener, para cada imagen, una representación en un espacio multidisciplinar. Para simplificar, en el, y para dibujarlo, vamos a suponer que tenemos un espacio bidimensional, por lo tanto, vectores de dos dimensiones. Por lo tanto, esta imagen la podemos representar en este eje de coordenadas. Podemos hacer lo mismo para la, eh, cada una de las imágenes que tenemos en las otras clases, y para todas las imágenes del conjunto de aprendizaje. De esta forma, vamos a tener todas las imágenes del conjunto de aprendizaje representadas en el espacio multidimensional que nos da la representación de la imagen. Si esta representación es suficientemente discriminativa, como esperamos, nos deberÃamos encontrar que las imágenes de las diferentes clases deberÃan quedar representadas en zonas diferentes de este espacio multidimensional. La tarea del paso de clasificación va a ser, precisamente, encontrar la frontera óptima de separación entre las diferentes clases en este espacio multidimensional, siempre a partir del conjunto de aprendizaje. De esta forma, cuando tengamos una nueva imagen que queramos clasificar obtendremos también la representación de la imagen, la pondremos en este espacio del descriptor, y lo que esperaremos es que esté en lado de la frontera de la etiqueta que deberÃamos darle; en este caso, persona. A lo largo del curso iremos explorando diferentes alternativas para cada uno de estos pasos del esquema general que vamos a introducir. En la primera semana veremos un sistema básico que cubrirá todos los es, todos los pasos del esquema, de una forma simple. En la segunda semana introduciremos una nueva forma de obtener la representación global de la imagen, es lo que se conoce como bag of words en inglés. Este método de representación ha sido la base estándar de representación de imágenes para clasificación a lo largo de los últimos 10 años, y será la representación sobre la que basaremos la explicación de la mayorÃa del contenido del curso. En esta segunda semana, además, introduciremos uno de los métodos de clasificación más utilizados, que se conoce como support vector machine, en inglés, y que también será el método que utilizaremos mayoritariamente a lo largo de todo el curso. En la tercera semana, exploraremos diferentes alternativas para realizar el primer paso de detección y descripción de puntos de interés, incorporando también descriptores que permiten incorporar diferentes tipos de contenido visual, como por ejemplo la forma y el color. En la cuarta semana, y sobre la representación gráfica del bag of words, veremos cómo diferentes, eh, cómo diferentes formas de las que habremos explicado en la semana 3 para describir los puntos de interés se pueden combinar, a diferentes niveles, para mejorar el rendimiento del clasificador. En la quinta semana, lo que haremos será extender la representación básica del bag of words para superar una de sus limitaciones, ya que, como veremos, bag of words, eh, no tiene en cuenta la información espacial de dónde está cada uno de los puntos de interés en la imagen. Únicamente tiene en cuenta su descripción. Esta semana veremos cómo incorporar esta información espacial a la representación. Y, finalmente, en la última semana del curso introduciremos algunas de las extensiones de representación básica del bag of words, que se han ido desarrollando en los últimos años, que mejoran el rendimiento de la clasificación, y haremos también una breve introducción a lo que se conoce como redes neuronales convolucionales, o CNNs, eh, que están adquiriendo mucha relevancia en los 2, 3 últimos años, ya que permiten obtener unas tasas de clasificación muy elevadas. Aunque también hay que decir que el número de imágenes necesario y el coste del aprendizaje es muy elevado. Seguramente, las CNNs constituyen el futuro de la clasificación de imágenes, aunque su explicación detallada serÃa contenido para uno o varios cursos más. Bien, hasta aquà esta introducción al problema de la clasificación de imágenes y al esquema que seguiremos a lo largo del curso. Para finalizar este primer vÃdeo, solo repetir la bienvenida al curso en nombre de todos los profesores que lo hemos preparado. Esperamos que disfrutéis siguiendo el curso. [AUDIO EN BLANCO]