[MÚSICA] Olá pessoal. Nesse módulo iremos estudar a identificação dos drivers de engajamento e conversão por meio dos modelos de regressão linear. Para começarmos, vamos entender pouquinho o que seriam os drivers de engajamento e conversão, assim como as suas utilidades. Ao serem realizadas campanhas de marketing, é possível notar que algumas campanhas possuem melhor desempenho do que outras. Dos principais motivos é o marketing de engajamento. O marketing de engajamento são estratégias que visam uma resposta positiva para as ações de marketing criadas pela empresa. O engajamento do cliente abre portas para as interações se converterem vendas, interações essas que atualmente, na pandemia, ocorrem predominantemente por meio digital. Mas para melhor explorar o potencial das estratégias de engajamento, precisamos saber quais fatores e quais drivers que mais impactam nessa interação, pois a partir do momento que estamos com os drivers e mãos e sabemos como esses drivers impactam na interação com os clientes, podemos utilizá-los como métricas para nossa tomada de decisão, otimizar as vendas e aumentar o lucro organizacional. E aí que entra a regressão, pessoal. Com o modelo de regressão é possível identificarmos os principais atributos que promovem o engajamento e que estão relacionados com a taxa de conversão. Entre os modelos de regressão, o mais utilizado e conhecido é disparadamente o modelo de regressão linear. Mas então, o que seria a regressão linear? Pessoal, regressão linear é a técnica estatística que estuda a relação entre a variável dependente, y, e as variáveis independentes ou explicativas, x. Então, seu objetivo é desenvolver uma equação linear que apresente a relação entre uma variável dependente e uma variável explicativa. Atenção, pessoal, o modelo de regressão deve ter por trás uma base teórica, ou no mínimo a experiência do pesquisador, pois apesar do modelo ser correlacional, não podemos garantir causalidade entre as variáveis do modelo. E é esse dos erros mais comuns que acontecem. Existem sites que buscam encontrar correlações entre algumas variáveis presentes no nosso dia a dia. Caso conhecido, mas muito didático é o consumo de café e a incidência de câncer no pulmão. Foram realizados alguns estudos que foi observado que a pessoa que toma café, ela tem uma chance aumentada de incidência de câncer no pulmão. Note que, contudo, sabemos que o café não tem efeito relação a câncer no pulmão. Na verdade, temos uma terceira variável causando a relação entre as duas. Então, você consegue imaginar o que seria essa variável? Isso mesmo pessoal, o tabagismo. Notou-se que as pessoas que fumavam, elas costumavam consumir uma quantidade pouquinho maior de café. Então, nesse caso, podemos até ser enganados, mas a correlação espúria consegue correlacionar as mais diferentes variáveis possíveis. Vale a pena fazer uma pesquisa nos sites especializados. Mas vamos voltar ao nosso conteúdo. A regressão linear pode ser classificada como simples e como múltipla. Quando temos modelo que consta apenas uma única variável explicativa x, o chamamos de modelo de regressão linear simples. Por outro lado, nos modelos que temos duas ou mais variáveis explicativas, chamamos de modelo de regressão linear múltipla. Como veremos mais para frente, a natureza e as características da regressão linear exigem que a variável dependente y seja quantitativa e as variáveis explicativas sejam métricas ou dummies, pessoal, porque diz, pessoal, diversos momentos teremos que tirar médias, variância e o desvio padrão e não podemos realizar esses cálculos com variáveis qualitativas ou também conhecidas como categóricas. Então nosso modelo pode ser definido da seguinte maneira. Nós temos o y, nossa variável dependente, né, é igual a alfa mais beta x mais u, que é o nosso erro, Então, quando temos regressão simples, utilizamos apenas uma variável explicativa. Então temos esse caso, beta vezes x. E quando nós temos regressão múltipla, nós podemos ter o seguinte modelo y = alfa + beta1 x1 + beta2 x2 +... e assim por diante, até tomar betak a xk, mais u, né pessoal?! Que y, então, é o nosso fenômeno ou variável que estamos estudando, o alfa, ele é o interceptor, ou constante, que a gente chama também. E nos mostra o ponto da reta quando x = 0. Os betas, eles são os nossos coeficientes angulares de cada variável, ou seja, quando y é impactado positivamente ou negativamente para uma unidade adicional de x, média. É o quanto que y é impactado. E x são as nossas variáveis explicativas, mas notem que existe u, que eu ainda não comentei dele profundamente. Pessoal, o u é o nosso termo de erro. Vocês vão ver mais para frente que a gente vai trabalhar bastante com ele. Então, por exemplo, temos uma regressão linear simples para identificarmos o peso de uma criança relação a sua altura. O y, no caso, nossa variável dependente, o fenômeno a ser estudado, é o peso da criança. O alfa é o peso da criança quando a variável explicativa x, que é peso, for igual a zero. O beta nos informa qual incremento no peso ao se aumentar a idade ano, média. Mas a gente sabe que não é só a idade que impacta no peso de uma criança. Portanto, o nosso modelo terá termo u que deverá capturar o efeito das demais variáveis que nós não incluímos no nosso modelo. Que o termo do erro é a diferença entre o nosso y, nossa variável dependente real, e o y previsto nosso modelo para cada uma das observações. Pessoal, apesar de tentar chegar o mais próximo possível da perfeição, o nosso modelo não é perfeito. Certamente estamos deixando algumas variáveis x, elas estão fora do nosso modelo, né? E essas variáveis x, elas têm uma relação com y. Então, sabendo que u deve capturar o efeito das demais variáveis não inclusas, né, não incluídas no nosso modelo, estabelecemos duas condições fundamentais relacionadas ao nosso resíduo. O somatório dos resíduos, elas devem ser iguais a zero e a somatória dos resíduos ao quadrado é a mínima possível. Pessoal, espero que tenha ficado claro que assumimos que o nosso modelo é imperfeito e portanto possui erros. Contudo, o nosso objetivo aqui é minimizar ao máximo o nosso u, ou o nosso erro apresentado. [MÚSICA]