Seja muito bem-vindo à nossa Imersão IA com Python: como prever a inflação do Brasil.
Nos dias 5, 6 e 7 de Novembro, das 19h às 22h, vamos estar juntos no Zoom para uma Imersão totalmente mão na massa.
Você e um seleto grupo de pessoas vão construir, desde o zero, um script em Python responsável por:
1- Coletar os dados de forma automática direto das principais bases de dados utilizadas para o objetivo da imersão;
2- Tratar os dados e extrair as informações mais relevantes para realizar a previsão;
3- Modelar os dados, escolhendo os modelos mais apropriados para o seu caso de uso específico;
4- E finalmente prever a inflação medida pelo IPCA utilizando Inteligência Artificial e Python.
Veja como irá funcionar esta Imersão:
Dia 1- Construindo sua base de dados: o primeiro dia da Imersão será dedicado a conhecer as principais fontes de dados públicos utilizadas durante toda a Imersão, além de desenvolvermos juntos uma rotina para coletar, tratar e disponibilizar (ETL) as variáveis para uso em modelos preditivos.
Aqui veremos diversos desafios de coleta de dados automática de fontes como Banco Central do Brasil (BCB), Instituto Brasileiro de Geografia e Estatística (IBGE), Instituto de Pesquisa Econômica Aplicada (IPEA) e Federal Reserve Bank of St. Louis (FED).
Serão descritos ainda informações gerais sobre os metadados das mais de 100 variáveis exploradas, envolvendo nível de atividade, câmbio, juros, variáveis de crédito, consumo de energia, variáveis não tradicionais, etc.
É o dia para discutir problemas e desafios comuns na coleta de dados como conexão de internet instável, fonte de dados instável, mudanças inesperadas na fonte de dados, uso de versões de funções ou bibliotecas com comportamentos inesperados. Vamos mostrar como enfrentar e resolver esses desafios práticos ao longo da aula.
Ao final do primeiro dia do evento, o aluno terá aprendido a construir um script que coleta todos os dados discutidos com funções específicas em python.
Dia 2- Tratamento dos dados: agora o objetivo é tratar os dados para que eles fiquem prontos para a construção de modelos.
Diversos aspectos práticos surgem nessa etapa, como o tratamento de números índices, a existência de dados faltantes, qual o intervalo da amostra que será utilizada, como tratar problemas de sazonalidade nos dados, etc.
Além disso, será que precisamos de todas as variáveis coletadas? Muitas delas são correlacionadas entre si, então pode ser necessário fazer uma seleção de quais variáveis são realmente importantes para o objetivo de prever a inflação medida pelo IPCA.
Mostraremos métodos simples para construir esse tipo de filtro.
Ao final do segundo dia, o aluno terá construído um script completo em python que trata e disponibiliza os dados para a implementação de um fluxo de modelagem preditiva.
Dia 3- Modelagem, Validação e Automatização: chegou a hora de lidar com os modelos preditivos que irão fornecer os resultados que tanto queremos.
Para desenvolver modelos preditivos são necessários conhecimentos da área de aplicação, habilidades técnicas de programação, conhecimento de estatística, experiência em ciência de dados, dentre outros.
Portanto, a operacionalização de um modelo não é nada trivial, pois são diversos os procedimentos que um profissional da área precisa sempre ter no radar.
Mas se generalizarmos esses procedimentos em um fluxo de trabalho, a distância entre a idealização do modelo e sua implementação pode ser mais curta e menos árdua.
Tendo como objetivo prever a taxa de inflação medida pelo IPCA, implementaremos um fluxo prático e passo a passo, envolvendo a operação de mais de 18 tipos de modelos, como passeio aleatório, SARIMA, Ridge Regression, LASSO, Bayesian Ridge, Huber Regression, SVM, AdaBoosting, Gemini AI, etc.
Serão explorados temas importantes envolvendo defasagens e exógenas selecionadas pelo método Recursive feature elimination (RFE), forçando inclusão de variáveis determinadas a priori, horizontes de previsão, estratégia de modelagem envolvendo hiperparâmetros definidos via grid search e, então, erro avaliado via validação cruzada com reestimação e janela de treino crescente, com amostra inicial de 50% das observações. Como atualizar as previsões a partir de reestimação ou utilização das estimativas prévias do modelo escolhido na etapa anterior mensalmente no dia 15, procedendo com subsequente produção de previsões e avaliação de erro periódica.
Ao final das atividades do dia, ainda haverá um tempo reservado para discutir com o grupo e o professor sobre como é feita a automatização desse processo envolvendo ferramentas práticas como o Github Actions.