[MÚSICA] Hola, bienvenidos de nuevo. Esta semana veremos cómo aumentar la representatividad del esquema Bag of Words, añadiendo información espacial, en el módulo de representación de la imagen. Veremos en detalle, cómo utilizar pirámides espaciales o Spatial Pyramids; que consiste en particionar la imagen, en una división de regiones, cada vez más fina. En cada región y en cada nivel de la pirámide, calcularemos el histograma de las palabras visuales, que allà se encuentran y finalmente concatenaremos todos los histogramas, con un peso asociado según el nivel piramidal. Veremos también un ejemplo práctico, para analizar el rendimiento del esquema Bag of Words, aumentado a piramides espaciales. En concreto lo aplicaremos a una base de datos, presentado por Oliva y Torrealba, en el International Journal del Computer Vision del 2001. Y para finalizar esta semana, veremos cómo extraer información de los estadÃsticos del vocabulario visual, para llegar a aprender la mejor configuración espacial de una pirámide, y que mejor represente las clases de escenas en las que estamos trabajando. Empecemos, este curso va de clasificación de imágenes; es decir, un clasificador crea un modelo, para asignar una etiqueta a un conjunto de imágenes de aprendizaje. Durante el curso hemos visto como estas etiquetas pueden ser semánticamente muy genéricas, como interior o exterior, estar asociadas a tipos de escena, por ejemplo calle, costa, montaña, o a tipos de objetos concretos, coches, caras, etcétera. En muchos de estos ejemplos, la configuración espacial de la imagen revela información muy importante, por ser discriminativa de la clase. Por ejemplo en esta imagen se visualizan, las palabras visuales correspondientes a la categorÃa de la cara. Vemos como estas palabras no incorporan ningún tipo de información sobre, la configuración espacial del objeto que representan. Es decir en el esquema Bag of Words visto hasta ahora, ambas imágenes que veis aquÃ, son exactamente lo mismo para las palabras. Durante esta semana, pues veremos cómo incorporar información espacial, en la representación de la imagen basada en histogramas, para poder generar una representación global de toda la imagen, basada en patrones o configuraciones de descriptores calculados a nivel local, pero con representación de la localización en la imagen, que son más representativas para una determinada clase. Asà para muchas clases visuales, en general será una ventaja poder representar la configuración espacial de las palabras visuales más representativas que aparecen para cada clase. En particular, veremos que la configuración espacial nos permite incorporar información sobre las relaciones que hay entre distintas regiones de la imagen, asà como la posición absoluta de las regiones más identificativas de la clase. Aunque es verdad, que se pierden las propiedades en varianza en la representación final Bag of Words; esta pérdida se ve más que compensada por el incremento de poder discriminativo y de robustez en el histograma resultante. Además, también veremos distintos métodos propuestos, que están orientados a aumentar la eficiencia del aprendizaje del clasificador. Dentro del esquema Bag of Words visto hasta ahora se han propuesto distintas estrategias de incorporación de información espacial en cada uno de los módulos. Asà por ejemplo, en el primer módulo de extracción de caracterÃsticas, la manera de incorporar la información espacial en la literatura, se ha hecho de la siguiente forma, Dada una imagen de una escena en concreto, lo que se hace es a partir de cada punto detectado por un extractor de caracterÃsticas, generamos una descripción de forma o de color junto con la posición x e y, donde se ha encontrado el punto de interés. Puede ser la posición absoluta dentro de la imagen, o por ejemplo, la posición relativa del punto respecto al punto medio de la imagen. Respecto al módulo de representación de la imagen, también se puede incorporar información espacial. La idea serÃa concatenar información extraÃda de las diferentes regiones en las que se divide una escena. Es decir, lo que haremos a nivel de representación será concatenar los histogramas, que nos calcularán el número de veces que aparece una palabra visual, en cada una de las regiones en las que hemos dividido la imagen. Este esquema es el llamado pirámides espaciales y es la estrategia más conocida, con la que se obtuvieron los mejores resultados hasta la llegada de las redes neuronales convolucionales en 2012; por lo que la mayor parte del contenido de esta semana, se centrará en este módulo del esquema Bag of Words. Pero también se puede realizar la incorporación de información espacial en el módulo de clasificación. Asà como vimos en la semana anterior, también se pueden fusionar información de forma, de color, de localización, y aún a nivel de clasificadores; es decir, la idea si queremos incorporar información espacial a nivel de clasificación, serÃa dividir la imagen como antes, en diferentes regiones. Pero hay que construir un vocabulario visual independiente para cada región y a partir de aquà construir un clasificador especializado en cada una de las regiones, en las que hemos decidido dividir la imagen. Por tanto aquà tendrÃamos 3 clasificadores, que al final como vimos en el último vÃdeo de la semana anterior, realizarÃamos cualquier estrategia de combinación que ya vimos. Esta estrategia de selección de clasificadores permite especializarse en distintas zonas de la imagen, por ejemplo aquà verÃamos la salida del clasificador que corresponde con la parte del rÃo, en este caso. Vemos que dada una imagen donde la textura, la forma o el color se corresponden con un objeto del tipo rÃo, pues el clasificador darÃa mucha más confidencia a la región donde realmente se encuentra, en la parte inferior. Como hemos dicho, centraremos la mayor parte de esta semana en describir las pirámides espaciales, básicamente una pirámide espacial es una configuración concreta de regiones de la imagen, que se subdivide hasta llegar al nivel de resolución deseado. Al distinguirse un instagrama por rejilla, se llega asà a incorporar la distribución espacial de las palabras, básicamente la idea será dividir la imagen, al principio consideramos toda la imagen como el sistema Bag of Words original, pero después dividiremos la resolución, en que mira contamos el número de palabras que aparecen en la imagen, en diferentes regiones. Ahora lo que haremos, será concatenar los histogramas que se generan en cada una de las regiones y que en cada uno de los histogramas, se cuentan las palabras que aparecen en esa región. Esta división en celdas se hace de forma recursiva, hasta llegar a través de resolución mucho más elevados. De alguna manera lo que estamos haciendo es, doblar la resolución en la que contamos el número de palabras visuales en cada nivel de la pirámide. Resumiendo, esta semana veremos distintas estrategias para aumentar la capacidad descriptiva de un vocabulario visual. Para ello lo que haremos será generar histogramas de las palabras visuales, que aparecen en cada región y nivel de la pirámide, que se combinarán por ponderación de pesos, según el nivel en el que se analice cada palabra. Esto es asà porque hay que tener en cuenta, que las magnitudes de los histogramas dependen del nivel de la pirámide; es decir, hay muchas más apariciones de una cierta palabra para toda la imagen, que no en una única rejilla de las 4x4 en que se haya dividido una imagen, en el segundo nivel piramidal. Finalmente analizaremos la relación existente entre configuraciones de localización de palabras visuales y sus categorÃas, para poder aprender cuál es la mejor subdivisión en malla, según la clase de la escena que estamos trabajando. Finalizamos este vÃdeo repasando los conceptos más importantes que se han presentado. En primer lugar se ha explicado que el esquema Bag of Word, visto hasta ahora, descarta cualquier relación espacial entre las palabras visuales que representan un objeto o la escena en una imagen. Hemos visto que la mayorÃa de veces es muy importante tener en cuenta la configuración espacial de las palabras para mejorar la representación de la imagen. También hemos visto varias estrategias para incorporar la información de localización de las Bag of Words, según lo visto la anterior semana. Es decir, que se puede seguir una metodologÃa de Early Fusion combinando el descriptor y la posición en la imagen. se puede seguir una metodologÃa Intermediate Fusion, son las pirámides espaciales, combinación de histogramas en diferentes regiones de la imagen. O incluso se puede seguir una tecnologÃa Late Fusion, combinarÃamos clasificadores especializados por distintas zonas de la imagen. Finalmente hemos justificado que el principal objetivo de esta semana, es el funcionamiento, explicar el funcionamiento de las pirámides espaciales. Asà como, describir la técnica de comparación de histogramas a diferentes niveles de resolución, ya veremos que es una técnica altamente eficiente y que permite evitar el aprendizaje de pesos en los histogramas de cada nivel piramidal. Veamos pues a continuación en detalle, cómo funciona el método de clasificación de imágenes que fue el más popular y efectivo, antes de la entrada masiva de las redes neuronales convolucionales. [AUDIO_EN_BLANCO]