[MÚSICA] [MÚSICA] [MÚSICA] Hola, en este proyecto Capstone tendréis la posibilidad de aplicar las herramientas y las técnicas que habéis conocido en las semanas pasadas a un caso práctico. ¿Habéis tenido nunca la ocasión de observar el cielo en una noche despejada y sin luces? Veréis millones de estrellas. Pero estas solo son una pequeña parte de las estrellas que nos rodean. El sol es nuestra estrella y forma parte de la Vía Láctea, en nuestra galaxia. Las estrellas se agrupan en galaxias y tienen distinta forma y tamaño. Y su forma, tamaño y brillo nos revelan cómo se forma y cómo evolucionan. Potentes telescopios escanean el cielo y recogen fotos en forma digital de estrellas y galaxias lejanas. Son capaces de recoger imágenes de objetos celestes que a simple vista serían imposible de ver. Aún sí tenemos información de solo una fracción muy muy pequeña de las galaxias que pueblan nuestro universo. La cosmología es la ciencia que estudia cómo el universo ha nacido, ha evolucionado y eso nos hace entender cuál podría ser su destino. Conocer los distintos tipos de galaxias y clasificarlas es uno de los pasos fundamentales en el avance del conocimiento del mundo en que vivimos. La clasificación de imágenes de galaxias basadas en su forma es el objetivo fundamental y principal de ese proyecto final. Con este objetivo tendréis la oportunidad de aplicar algunas de las técnicas y análisis de clasificación de Big data que habéis ido conociendo durante el curso de estas semanas pasadas. Las galaxias se pueden clasificar en muchas maneras distintas. Pero la más común es por su forma. Depende de su edad, composición, etcétera. Clasificar una galaxia por su forma no es siempre tarea fácil. Los tipos más reconocibles de galaxias son las espirales, y las elípticas. Pero hay muchísimos estados intermedios. Algunas de formas irregulares, que junto al tamaño, la orientación del objeto y la resolución de la imagen, hacen que este trabajo de clasificación sea muy complicado. El proyecto Galaxy Zoo consiste en colectar datos sobre la forma de cuántos más objetos posibles para a través de una herramienta web y para llevar a cabo este proyecto, se prevee la colaboración de voluntarios que a través de esta página web visualicen las imágenes en su ordenador personal y clasifiquen el objeto que está fotografiado. El resultado luego se envía a través de la misma página web. En la página de Galaxy Zoo se puede acceder a un tutorial en inglés sobre cómo funciona. Los objetos representados en las imágenes se clasifican según distintos criterios. Una galaxia cuyo brillo va disminuyendo desde el centro gradualmente hacia el borde de la imagen se puede clasificar según la presencia de estructuras, que pueden ser los brazos de una galaxia espiral o un núcleo o barras u otras características peculiares de las galaxias o si es una estrella o una traza de satélite o alguno otro artefacto que hace este tipo de clasificación complicado. Los datos que vais a utilizar en este proyecto son, un subset de imágenes de galaxias tomadas por un telescopio de un proyecto llamado Sloan Digital Sky Survey o SDSS, un fichero que contiene un set de parámetros asociados a cada imagen de galaxia, puede tener un identificador único, la posición en el cielo, el brillo, etcétera, y un subset con los resultados de las clasificaciones recogidas vía web hecha a través del proyecto Galaxy Zoo, que vendrá proporcionado en la semanas siguientes. Con estos datos y con las herramientas que han sido presentadas en el curso de esta especialización os guiaremos en las próximas semanas para poder desarrollar y presentar a un imaginario comité científico un método para clasificar y analizar galaxias basados en herramientas Big data y aplicarlo a miles de millones de imágenes. Las herramientas que vamos a utilizar son, HDFS, sus comandos para la gestión de datos, Hive y su cliente Beeline, para la creación de datos, la importación de los datos externos, la exploración preliminar, el análisis y Spark, para el análisis, la visualización y la interpretación de los resultados. Estas herramientas se van a proporcionar mediante la máquina virtual de Cloudera. En resumen, os guiaremos para que podáis crear un clasificador de imágenes para que se pueda aplicar a un gran volumen de datos y finalmente crear un informe final con los resultados del trabajo. [MÚSICA] [MÚSICA]