[MÚSICA] Olá pessoal, aqui é o professor Gustavo, e irei acompanhá-los neste módulo de identificação dos drivers de engajamento e de conversão por meio da regressão logística. Para iniciarmos, primeiramente vamos definir o que é o nosso objeto de estudos. A regressão logística é classificada como uma técnica de dependência ou confirmatória. Isso quer dizer que estamos buscando estimar modelo que permita analisar o comportamento das variáveis e elaborar previsões. Pode-se dizer que a regressão logística tem o intuito de explicar ou estimar a probabilidade de ocorrência de fenômeno, o qual se apresenta forma categórica. Isso é importante frisar, pessoal. Quando trabalhamos com essa técnica, frequentemente a gente encontra a variável dependente, que é categórica na forma binária, ou dicotômica. Por exemplo, eu tenho interesse saber a probabilidade de aluno ser aprovado ou reprovado. Nestes casos, a técnica utilizada é regressão logística binária. Então, temos apenas duas categorias. Por outro lado, nós também encontramos a variável dependente com três ou mais possibilidades de resposta. Por exemplo, se eu tenho interesse saber a probabilidade de aluno ser aprovado, ficar de recuperação ou ser reprovado. Note que neste caso, temos três possibilidades diferentes, portanto a técnica utilizada é a regressão logística multinomial. Aí você me pergunta, professor, por que não utilizamos a regressão linear que aprendemos no módulo anterior? Vem comigo, vamos imaginar que uma loja deseje saber a probabilidade de seu cliente realizar compras maiores que 500 reais com base no tempo que este passa no site da loja. Veja o gráfico e note que ao utilizarmos a função linear não obtemos ajuste satisfatório. Isso ocorre porque a natureza da variável dependente não é métrica, e sim, categórica. Pessoal, através do gráfico de probabilidade estimada de ocorrência de evento é possível a gente notar que a qualidade de ajuste da regressão logística é muito superior. Note que ele se apresenta no formato de curva S ou sigmoide. Então qual o objetivo da regressão logística? O objetivo é encontrar uma função logística formada por meio da ponderação das variáveis, também conhecida como os atributos, cuja resposta permite estabelecer uma probabilidade de ocorrência de determinado evento, assim como a importância das variáveis para esta ocorrência. Pessoal, relação às aplicações, podemos notar que é possível utilizar a regressão logística diversos cenários. Por exemplo, diferenciar os consumidores leais dos não leais a produto ou marca termos de perfil demográfico. Qual será o cliente mais fiel? Cliente de 20 anos ou cliente de 60 anos? Sabemos que isso vai depender da nossa marca e do setor que estamos analisando, não é mesmo? Podemos diferenciar os clientes adimplentes dos inadimplentes com relação aos empréstimos bancários, pois banco precisa saber o perfil de seu cliente antes de fornecer empréstimo. Então banco que não analisa o perfil de seu cliente está fadado ao fracasso. Outra aplicação interessante é a diferenciação dos alunos com chance de terminar o curso de graduação daqueles com pouca possibilidade de terminar o curso. Deste modo, a faculdade pode buscar uma forma de auxiliar os que mais precisam. Isso tudo se deve às características e vantagens que a regressão logística possui. Entre as principais podemos citar, permite trabalhar com variáveis categóricas dependentes, o que quero dizer com isso? O nosso fenômeno a ser estudado deve se apresentar de forma qualitativa, pessoal, com ou mais variáveis dummies. Pessoal, notem que temos uma condição que é o oposto do que tínhamos na regressão linear, que as variáveis dependentes eram métricas. Agora nós temos as variáveis dependentes categóricas, qualitativas. Outra vantagem é fornecer os resultados termos de probabilidade. Isso é importante sempre deixar bem claro. Nós temos o intuito de estimar a probabilidade de ocorrência de evento. Através da probabilidade, podemos calcular também a chance. Contudo, por conta da semelhança com a equação de regressão linear, algumas pessoas imaginam que a equação de regressão logística seja a equação que define o nosso Logito. A regressão logística também permite classificar indivíduos categorias. Essas categorias são a ocorrência ou não de evento específico, podendo ser enquadrada, por exemplo, nas aplicações apresentadas anteriormente. Lembrando que a classificação é baseada na probabilidade calculada e no cutoff escolhido. Mas não se preocupe com o cálculo da probabilidade e saber o que é cutoff neste momento. Veremos isso nas próximas aulas. E por último, pessoal, sabemos que a regressão logística nos dá a possibilidade de escolher o grau de confiabilidade do nosso modelo. Tudo vai depender do objetivo da pesquisa e o tipo de risco que estamos dispostos a correr. Espero que agora vocês consigam saber o que é a regressão logística e quando devemos utilizá-la. [MÚSICA]