[MÚSICA] Olá, pessoal. Nesse módulo, a gente vai falar sobre árvores de decisão e churn. Eu vou fazer uma breve introdução; eu vou explicar para vocês o dataset, o conjunto de dados que a gente vai trabalhar; a gente vai ver, na prática, como é que a gente prepara os dados, a gente codifica as variáveis; aí a gente vai criar uma árvore de decisão, e principalmente, a gente vai aprender como interpretar essa árvore. Uma árvore de decisão nada mais é do que uma ferramenta de suporte para tomar uma decisão. Normalmente, ela é gráfico que tem formato de árvore, daí que vem o nome dela, e ela serve para a gente demonstrar visualmente os critérios para classificar uma determinada massa de dados. O melhor jeito de você pensar uma árvore de decisão é pensar nessa árvore de cabeça para baixo. Tecnicamente, árvore de decisão é uma técnica de inteligência artificial; e dentro de inteligência artificial, de machine learning; e dentro de machine learning, análise preditiva. A gente vai utilizar método de aprendizado de máquina, que é o machine learning, supervisionado. Árvore de decisão é método que é fácil de rodar e é fácil de interpretar, e ele gera insights para a gente entender os dados. Eu falei que uma árvore de decisão, a gente tem que pensar nela de cabeça para baixo. A raiz, uma árvore de decisão, está lá cima. Então a gente cria a nossa árvore dividindo todos os dados (e todos os nossos dados estão aonde? Na raiz) grupos menores, por meio de critérios e condições, que nós chamamos de nós, até que a gente consiga obter subconjunto que seja homogêneo o suficiente para ele ser classificado como uma mesma classe, criando nó terminal. Esse nó terminal a gente chama de folha. Uma árvore sai da raiz e ela tem os galhos, os nós que vão se dividindo, e termina nas folhas. Ela vem de baixo para cima. A nossa árvore tem o nosso nó, ou o nosso nó principal, o nosso nó raiz, ele está cima, e aí ela vai se dividindo para baixo. Então por isso é que eu falei que é bom a gente imaginar como se fosse uma árvore de cabeça para baixo, mais fácil de entender. Toda árvore de decisão tem uma profundidade. Se a gente pensar uma árvore comum, ela tem uma altura, não é? A nossa árvore tem uma profundidade, porque, como eu falei para vocês, ela cresce para baixo. E aí dos principais parâmetros de uma árvore de decisão é quantos níveis ela tem, qual é a profundidade que ela vai ter. No exemplo que a gente vai usar nesse módulo, a nossa árvore vai ter quatro níveis, mas eu posso ter uma árvore de dois níveis ou uma árvore de dez níveis. É claro que quanto mais níveis você utilizar, mais tempo vai levar para o software conseguir montar essa árvore para você. Vamos ver exemplo bem simples para a gente entender o intuition, o conceito que está por trás de uma árvore de decisão. A gente vai criar uma árvore de decisão para decidir se hoje é dia adequado ou não para sair para jogar tênis. Então dêem uma olhada nessa figura que está aparecendo aí na tela. A gente vai considerar o panorama do dia, se está ensolarado, se está nublado, ou se está chuvoso; a gente vai considerar a condição de umidade; e a condição de vento. Então, como vocês podem observar, se a instância panorama é "ensolarado" e a instância umidade é "alta", qual que é a saída dessa árvore? É "não", ou seja, hoje não é bom dia para jogar tênis. Se, por lado, a gente olhar a instância panorama e for "nublado", depois de nublado não tem mais nenhuma subdivisão e a saída é "sim", ou seja, a gente vai jogar tênis. Então vejam que nós usamos os critérios para decidir o que nós vamos fazer, e esse é o princípio que está por trás das árvores de decisão. Uma árvore de decisão, você tem interação entre os diversos features. "Opa, features? Como assim features?". Features é o nome bonito, dentre o mundo da inteligência artificial, que a gente dá para as características. Então, por exemplo, quais são os features que a gente usou nesse exemplo que eu acabei de dar? O panorama, a umidade, a condição de vento, não é? Então são características. Uma árvore de decisão, cada nó é dividido com base determinados critérios e condições. A principal diferença entre os modelos de árvore de decisão e os modelos que são ditos lineares, como, por exemplo, a regressão logística, é que os modelos lineares não funcionam bem, porque eles tentam encontrar justamente relações lineares ou correlações entre as features. Já a árvore de decisão funciona muito bem, especialmente quando a gente tem uma situação que é de target desbalanceado. O que é isso? A gente tem poucos exemplos de uma das classes do target, como é o caso do exemplo que a gente vai usar nesse módulo. Vocês vão ver que a gente tem muitos casos de leads que não foram convertidos, e poucos casos de leads que foram convertidos e que se tornaram clientes. Então esse é exemplo aonde a árvore de decisão vai funcionar muito bem, mas se nós fôssemos usar modelo de regressão logística, ele não funcionaria tão bem. Na prática, a gente vai utilizar nesse módulo o Python; vamos usar como exemplo banco de dados de banco português, que é uma campanha para oferecer investimentos; o nosso foco vai ser a conversão de leads clientes; e os dados estão disponíveis no repositório da UCI. Todos os links e as informações estão no material complementar de vocês. Como ambiente, nós vamos utilizar o Anaconda, o Jupyter Notebook, e na próxima aula, a gente vai colocar mão na massa.