[MÚSICA] [MÚSICA] [MÚSICA] En semanas anteriores hemos comentado que las regresiones, regresión lineal o regresión logÃstica, son casos particulares de una red normal que no tienen ninguna capa oculta, solamente tienen una capa de input o vector x y la capa output que es el valor predicho. Dependiendo si acá en el output si pongo una, una función de activación sigmoide, voy a tener una tarea de clasificación o una regresión logÃstica y si pongo una función de activación identidad, o sea no modifico la combinación, sencillamente voy a tener una regresión lineal. Imaginen ahora que en lugar de tener una única regresión tengo varias, sÃ. Envés de estos input x, los combino en un input intermedio a, y luego hago otro y luego hago otro y después esas combinaciones lineales que hago de los x las vuelvo a combinar de la misma manera que lo hacÃa en una regresión. Eso es exactamente la generalización de las regresiones o lo que conocemos como redes neuronales multicapa. En este caso, la arquitectura que mostramos es con una única capa oculta y fijense cómo cada una de estas neuronas, esta es una capa, cada una es una neurona, por eso es una red neuronal, es una red de neuronas artificiales. FÃjense si nos olvidamos de todo lo demás y miramos solamente este nodo, fijense que está conectado a los tres inputs y básicamente es lo mismo que tenÃamos antes en una regresión, hago una combinación con lo, esto tiene asociado un vector de pesos w que combinan el input x y luego lo paso por una función de activación que vamos a llamar g y porque eso lo que resulta se llama a, porque es la activación de la neurona 1. Acá hago lo mismo y acá hago lo mismo. Y una vez que tengo este vector de activaciones, los vuelvo a combinar de la misma manera que antes combinaba la, los vectores x en una regresión. Vean cómo, se sigue con mucha lógica una cosa de la otra y lo único que estoy haciendo es una regresión de regresiones. Si recordamos la expresión matricial de la regresión, tenÃamos el vector x con m elementos que eran las variables explicativas, tenÃamos que encontrar un vector w con m elementos que son los ponderados en cada una de esas x y b que era la ordenada. En la regresión matricial, o sea cuando hacemos esta combinación, tenemos un vector de 1 por m y un vector de pesos de m por 1, que eso se combina en una matriz de 1 por 1 que es lo mismo que un escalar, b es un escalar y termino teniendo una estimación escalar. ImagÃnense ahora que yo la matriz w, la cambio o mejor dicho, el vector w lo cambio por una matriz. FÃjense ahora tengo una matriz en lugar de un vector, esa matriz tiene una dimensión m, la misma dimensión m que usó la cantidad de variables explicativas que tengo en x, es la, lo necesito, esa dimensión en ese tamaño pero acumulo en columnas h vectores w. Esa cantidad de de columnas h, es la que me va a dar la representación interna o representación oculta o en inglés, hyden representation, que por eso viene la letra h, ¿no? Ahora la combinación de este vector por esta matriz, antes me daba un escalar, ahora me da otro vector. Los pesos de varias, o sea los ponderadores b, las ordenadas b, antes eran un escalar ahora de nuevo también son un vector y lo que me va a resultar de esto, en lugar de un único escalar, va a ser un vector nuevo. O sea voy a tomar mi vector x y lo voy a transformar en otro vector z. Luego ese vector z lo vamos a hacer pasar por una función no lineal que la podemos llamar sigma. En la regresión logÃstica esta función era la función logÃstica. Para capas intermedias vamos a ver que no, no es necesario que sea la función logÃstica pero sà es necesario que sea una función no lineal, Ahora vamos a ver por qué. Cuando aplico la función elemento por elemento al vector z, ese auto lounge lo vamos a llamar a de activación. Se acuerdan que cuando tenÃamos el diagrama de grafos, la capa intermedia tenÃa la letra a como variable de salida de esa capa y fÃjense como luego a ese vector a, yo le aplico un vector que tiene grandes similitudes con el vector de pesos de la regresión simple de una única capa. Como ahora es a lo que me quedó, es un único vector y me queda una única capa que es la que necesito para transformar ese vector en un escalar, la metodologÃa que aplicamos es la misma que antes. Les decÃa recién que, yo necesito de esta función sigma para que todo esto funciona. Le digo sigma porque antes la veÃamos como la función sigmoide, después vamos a ver que lo podemos, podemos usar cualquier otra. Pero lo importante es que, que veamos ahora y se entienda bien por qué la necesitamos. Si yo le quito sigma de nuestra expresión matricial, esta es digamos, básicamente toda la red. Quité sigma. Si yo le quito sigma, puedo distribuir este vector w adentro de esta suma. Al distribuirlo vemos que esta parte, esta multiplicación de tres términos, de estos dos términos no dependen de x y de hecho tiene dimensiones compatibles, entonces yo puedo directamente combinar esta matriz w con la matriz w prima en una única matriz, digamos, w prima prima de m por 1. Pasa lo mismo con este vector de pesos b y de pesos w prima, si yo lo aplico a esta multiplicación, le sumo b prima, me queda un único escalar. Vemos que si hago estas combinaciones de todos los términos que no dependen de x, termino con x por un vector w prima prima más otro escalar b prima prima, en este caso. Pero en definitiva donde cada uno de estos es una combinación de otros ponderadores que tengo por ahÃ, pero en definitiva los podrÃa representar con un único vector y un escalar como tengo en la regresión lineal. Entonces vemos que la combinación lineal de combinaciones lineales, no es más que alguna otra combinación lineal que no tiene más méritos que una regresión de, o sea, una red neural de una única capa que es la regresión lineal. Por eso necesito esa función sigma que ahora más tarde vamos a llamar w para hacerla más genérica. Necesito que, tener esa función no lineal que impida que se pueda distribuir la multiplicación de los subsiguientes pesos a las capas anteriores. Es de cierre decir entonces, que la función sigma la podemos reemplazar, la vamos a reemplazar en términos de notación, de nomenclatura por una función genérica g, donde este corchete arriba con el 1 significa que es la función g de la primera capa. Un viejo conocido, el vector x es el vector de input. La matriz que antes tenÃamos un vector w, ahora vamos a tener una matriz. Y el escalar b de [INAUDIBLE] va a ser un vector. Entonces el input o matriz x o vector x, va a ser una matriz n por m columnas. En este caso, estamos viendo un único caso, entonces es 1 por m columnas. La capa de pesos de, o sea la matiz de pesos de la primera capa vamos a llamar W mayúscula, el mismo corchetito que tenemos acá vamos a poner acá, denotando que estos son los w de la primer capa y la misma lógica vamos a aplicar a los b de la primer capa con este corchete. Aplico g a esta multiplicación de x por W más b. Tenemos allá adentro, se llama, lo llamamos z en algún momento, pero una vez que aplique la función g, vamos a llamarlo vector a donde fÃjense que, mantengo esta misma notación con el corchete y 1 para denotar que es de la primera capa. Revisando, cuando tengamos múltiples capas vamos a tener la matriz W de super Ãndice c, refiriéndonos que es la matriz W de la capa c, los b de la capa c, la función g de la capa c y las activaciones a de la capa c. Por último si al vector x lo convierto en la matriz completa, donde tengo todos mis casos ordenados en filas, asà queda la expresión matricial donde todas estas matrices tienen dimensiones compatibles y antes esto era un vector a, ahora va a terminar siendo una matriz A mayúscula. Gracias por su atención. Vimos entonces cuál es la lógica detrás de las redes neuronales. Vemos que si bien, a quiénes no tengan mucha costumbre a ver expresiones matriciales y álgebra, pueden perderse un poquito en la notación y en la complejidad abstracta de, de las expresiones algebraicas que se hacen, vemos que una red neuronal no es mucho más que una combinación de muchas regresiones, puestas en una capa primero una arriba de la otra y después volviendo a combinar el resultado de esas regresiones en una regresión más, que es simplemente aplicar la misma lógica que si funciona para una capa, funciona para muchas. En las próximas lecciones vamos a ver que funciones de activación se puede usar en estas capas intermedias, las funciones g que mencionamos pero que no dijimos que funciones son. Y luego vamos a ver al menos básicamente, cuáles son los pasos del algoritmo para determinar los pesos w y b de cada una de las capas. [MÚSICA]