Sobre mim

Meu nome é Matheus Ventura

Formado em Engenharia Química, cursando pós-graduação em Ciência de Dados e Big Data Analytics.

Sou um Cientista de Dados em desenvolvimento com 2 anos de experiência em análises de dados fazendo uso de Python, R, Excel e VBA. Atuando nos laboratórios de controle de qualidade, eliminei o retrabalho na geração de relatórios com Excel e VBA, refatorando planilhas e garantindo a qualidade e veracidade das informações, eliminando o atraso de entregas.

Para agregar minhas skills em Data Science, atualmente estou desenvolvendo projetos particulares e também voluntários, usando diversas ferramentas como: SQL, Machine Learning, Data Visualization, Power BI, Estatística e Testes de Hipótese, Computação em Nuvem, Webscraping, com dados reais de bancos de dados públicos.

Habilidades

Linguagem de Programação e Banco de Dados

  • Python e R com foco em análise de dados.
  • Webscraping com Python: BeautifulSoup4 e Selenium.
  • SQL para extração de dados.
  • Apps Script em Google Sheets.
  • Excel para manipução de dados.
  • VBA para automação de tarefas.
  • Conceitos de ETL.

Estatística

  • Estatística descritiva (localização, dispersão, assimetria, kurtosis, densidade).
  • Estatística Inferencial: planejamento, execução e análise de teste A/B com técnicas tradicionais de estatística e técnicas modernas de Multi-Armed Bandit (MAB) e Inferência Bayesiana.
  • Técnicas de Elasticidade de Preço-demanda, Elasticidade Cruzada e Elasticidade-renda da demanda.

Machine Learning

  • Algoritmos de Regressão, Clusterização/Agrupamento, Classificação e "Learn to Rank".
  • Técnicas de balanceamento dos dados, seleção de atributos e redução de dimensionalidade.
  • Métrica de performance dos algoritmos (RMSE, MAE, MAPE, Confusion Matrix, Precisão, Recall, Curva ROC, Curva Lift, Silhouette Score).
  • Pacotes de Machine Learning: Sklearn, Scipy e Statsmodels.

Deep Learning e Big Data

  • Algoritmos de Regressão e Classificação com Redes Neurais.
  • Treinamento de Redes Neurais com Gradiente Descendente Estocástico.
  • Melhoria de performance com Dropout, Batch Normalizatino e outras técnincas.
  • Pacotes de Deep Learning : Keras e Tensorflow.

Visualização de Dados

  • Matplotlib, Seaborn, Plotly e Folium.
  • Geopandas.
  • Power BI e Metabase.

Engenharia de Software

  • Git, Github, Gitlab, Cookiecutter e Virtual Environment.
  • Streamlit, Flask, Python API’s.
  • Banco de Dados PostgreSQL e SQLite3.
  • AWS Amazon (S3, RDS, EC2).
  • Streamlit Cloud, Cloud Heroku e Render.

Experiências Profissionais

Tutor e Monitor em Análise e Ciência de Dados - Comunidade DS

Tutor responsável por turmas de Formação em Análise de Dados, auxiliando alunos desde seu ingresso no programa, auxiliando nos estudos e disciplinas, acompahando os alunos até o fim da formação. Realizo planejamento de atividades e eventos de projetos relacionados à Análise de Dados.
Como Monitor nas disciplinas de Ciência e Análise de Dados, já ajudei mais de 100 alunos com dúvidas desde Python e SQL, até discussões sobre modelos de Machine Learning.

Cientista de Dados Voluntário - Omdena

Projeto voluntário na plataforma Omdena, que ajuda organizações e startups movidas pela missão de construir soluções com inteligência artificial impactantes através de colaboração global, e empoderar cientistas e engenheiros de dados de todo o mundo para se tornarem changemakers. Mais de 15.000 profissionais de dados de 120+ países já foram parte de projetos Omdena, construindo soluções guiadas pelo impacto para 200+ organizações. Além de Local Chapters em 175+ localizações em 70 países.

Projeto de Insights e 4 Projetos completos de Ciência de Dados

Construção de soluções de dados para problemas de negócio, próximos dos desafios reais das empresas, utilizando dados públicos de competições de Ciência de Dados, onde eu abordei o problema desde a concepção do desafio de negócio até a publicação do algoritmo treinado em produção, utilizando ferramentas de Cloud Computing.

Projeto de Cases de Teste A/B

Construção de soluções de dados para problemas de negócio, utilizando testes de inferência para validação de hipóteses. Abordando os casos com técnicas de Estatística Inferencial. Desenvolvimento de algoritmos para simulação de agentes de Multi-Armed Bandit para páginas web.

3+ anos em Técnico de Controle de Qualidade e Análise de Dados

Desenvolvimento de planilhas para monitoramento de indicadores, com grande domínio em Excel e VBA para automação e criação de formulários, produção de instruções de trabalho. Coleta e análise qualitativas e quantitativas de amostras para monitoramento de perdas e processos industriais, preparo de reagentes e soluções, validação de insumos, inserção de dados em sistema, elaboração de relatórios. Participação em projetos Kaizen para redução de custos e otimização de análises.

Carta de Reconhecimento

Fui parabenizado com uma Carta de Reconhecimento pelo desenvolvimento de sistema interno para controlar o estoque de reagentes e soluções para uso nas análises no laboratório industrial, agilizando as baixas e demonstrando a necessidade de reabastecimento dos insumos, resultando na precisão do controle dos estoques. O projeto foi desenvolvimento em VBA no Excel para criação de formulários com base na leitura de códigos de barras dos lotes dos reagentes, eliminando os erros no preenchimento das informações, sendo rápido e prático. Para visualização das informações, foi desenvolvido dashboard em Power BI com visões para controle de nível de estoque de reagentes, vencimento de reagentes e soluções e rastreio de componentes utilizados no preparo das soluções.

Projetos em Ciências de Dados

Solução de negócio para empresa no ramo imobiliário

Neste projeto de Insights eu usei Python para maximizar a receita da empresa imobiliária fictícia House Rocket, indicando as melhores oportunidades de compra e venda de imóveis. Também desenvolvi um dashboard com Streamlit para facilitar a Visualização e Análise dos dados de qualquer lugar. E o resultado desta solução, caso fosse implementado, seria uma receita de 273 MM de dólares.

As ferramentas utilizadas foram:

  • Python, Pandas, Matplotlib, Plotly, Folium e Geopandas.
  • Jupyter Notebook e VSCode.
  • Git e Github.
  • Streamlit.
  • Medidas de Tendência Central e Dispersão.
  • Análise Exploratória de Dados.

Criação de bot para predição de vendas futuras das lojas Rossmann

Neste projeto usei Python, Flask e Algoritmos de Regressão Linear para prever as vendas da Rossmann, uma rede de drogarias, nas próximas seis semanas, para determinar a alocação de recursos para renovação de cada loja. O resultado foi o desenvolvimento de um bot no Telegram que retorna o valor previsto apenas com o número de identicação de cada loja, possibilitando o acesso aos resultados de qualquer lugar.

As ferramentas utilizadas foram:

  • Python, Pandas, Matplotlib, Seaborn e Sklearn.
  • Jupyter Notebook e VSCode.
  • Flask e API's em Python.
  • Heroku e Telegram Bot.
  • Git e Github.
  • Medidas de Tendência Central e Dispersão.
  • Análise Exploratória de Dados.
  • Algoritmos de Regressão (Linear, Lasso, Random Forest, XGBoost, LightGBM).
  • Métodos de Cross-Validation, Otimização de Hiperparâmetros e Métricas de Performance de Algoritmos (RMSE, MAE, MAPE, R²).

Predição de Cross Sell para companhia de seguros

Neste projeto usei Python, Pandas, Flask e Algoritmos de Classificação para prever a propensão de interesse no novo produto de seguros de veículos para uma companhia de seguros de saúde. O produto de dados desenvolvido foi uma planilha no Google Sheets, facilitando e otimizando o trabalho do time de vendas, que ranqueia os clientes pela propensão baseado nos dados inseridos. O modelo desenvolivdo é 288% melhor no alcance de clientes interessados, que permitiria um retorno financeiro de 146 Bi. a mais que o modelo aleatório.

As ferramentas utilizadas foram:

  • Python, Pandas, Matplotlib, Plotly, Seaborn e Sklearn.
  • Jupyter Notebook e VSCode.
  • Git e Github.
  • Render, Google Sheets e Apps Scripts.
  • Medidas de Tendência Central e Dispersão.
  • Análise Exploratória de Dados.
  • Algoritmos de Classificação (k-Nearest Neighbors, Regressão Logística, Random Forest, Extra Tree, XGBoost, LightGBM e CatBoost).
  • Métodos de Cross-Validation, Otimização de Hiperparâmetros e Métricas de Performance de Algoritmos (Precision @ k, Recall @ k).

Programa Insiders - Fidelização de Clientes

Neste projeto usei Python, Pandas, Scipy e Algoritmos de Clusterização para determinar um grupo de clientes de um e-commerce que se destaquem da base visando a implementação de um programa de fidelidade para alavancar o faturamento da empresa. Os produtos de dados desenvolvidos foram uma lista com a dados de todos os clientes e seus clusters, um relatório com questões abordadas pelo time de marketing, e dashboard com Power BI alimentado com dados atualizados através de serviços da AWS. A solução desenvolvida apresenta um grupo, formado por 8,6% da base de clientes, que detem 58,87% do faturamento total da empresa (£5.44 Mi), e um faturamento médio de £11 Mil.

As ferramentas utilizadas foram:

  • Python, Pandas, Matplotlib, Plotly, Seaborn, Scipy Sklearn.
  • Jupyter Notebook e VSCode.
  • Git e Github.
  • Serviços AWS: S3, RDS e EC2.
  • Medidas de Tendência Central e Dispersão.
  • Análise Exploratória de Dados com Ydata Profiling (Pandas Profiling).
  • Técnicas de Redução de Dimensionlidade (PCA, UMAP, t-SNE e Tree-based Embedding)
  • Algoritmos de Clusterização (K-Means, Gaussian Mixture Model, Hierarchical Clustering e DBSCAN).
  • Métricas de Performance de Algoritmos (Within-Cluster Sum of Square e Silhouette Score).
  • Linux, PostgreSQL e Power BI

Teste de Hipóteses - Soluções de casos

Nesse projeto apliquei técnicas estatísticas de hipóteses em cenários de diferentes empresas, para planejar desde as soluções e design de experimentos, até coleta de dados e análise de testes A/B com técnicas tradicionais e modernas, sempre considerando as limitações e expectativas de cada caso. Além de desenvolver e simular situações para uso de diferentes agentes de Multi-Armed Bandit.

As ferramentas utilizadas foram:

  • Python, Pandas, Matplotlib, Plotly, Seaborn, Scipy, Sklearn, Statsmodels.
  • Pingouin, BeautifulSoup4 e Selenium
  • Jupyter Notebook, VSCode e Flask.
  • Git e Github.
  • Medidas de Tendência Central e Dispersão.
  • Design de Experimentos: nível de confiança, nível de significância, tamanho do efeito e poder estatístico.
  • Teste A/B: teste t de Student, teste z, qui-quadrado, Mann-Whitney, Wilcoxon.
  • Teste A/B/n: ANOVA, Kruskall-Wallis, Teste de Tukey, Teste de Dunn.
  • Inferência Bayesiana: Posteriori e Priori
  • Normalidade e Variância: Shapiro-Wilk, QQ-plot, Teste F.
  • Políticas de MAB: Random, Omniscient, Epsilon-Greedy, Upper Confidence Bound, Thompson Sampling.

Monitoring and Predicting Subway Passenger Demand in São Paulo City

Projeto voluntário colaborativo com um time de diversos países proposto pela plataforma Omdena com objetivo de desenvolver um sistema de monitoramento e predição da demanda de passegeiros do metrô da cidade de São Paulo. Com duração de 5 semanas, participei ativamente de diversos estágios incluindo coleta e preparação dos dados, análise exploratória dos dados, visualização dos dados, desenvolvimento e treinamento dos modelos e desenvolvimento da aplicação web. O produto de dados entregue foi o webapp em Streamlit com introdução do projeto, dashboards desenvolvidos pelos participantes, insights encontrados na etapa exploratória, predição do modelo para diferentes linhas de trem, descrição das etapas do projeto e informações sobre o time.

As ferramentas utilizadas foram:

  • Python, Pandas, Matplotlib, Plotly, Seaborn, Scipy, Sklearn, Statsmodels.
  • Algoritmos de Séries Temporais.
  • Jupyter Notebook, VSCode.
  • Git e Github.
  • Streamlit.
  • Análise Exploratória de Dados.
  • Medidas de Tendência Central e Dispersão.

Análise de Elasticidade de Preço em E-commerce

Realizei o estudo, análise de dados e elasticidade de preço-demanda de diferentes e-commerces com foco na Best Buy, comparando suas vendas com concorrentes e calculando a relação de uma categoria de seus produtos com seus preços de venda. O produto de dados foi a entrega de um relatório respondendo perguntas de negócio e um dashboard interativo em Streamlit para compreensão do impacto de descontos e acréscimos nos preços do produto e impacto na demanda. A aplicação dos resultados tem um retorno previsto em torno de 461,1% acima da receita atual média para os produtos selecionados.

As ferramentas utilizadas foram:

  • Python, Pandas, Matplotlib, Seaborn, Statsmodels.
  • Jupyter Notebook, VSCode.
  • Git e Github.
  • Streamlit.
  • Análise Exploratória de Dados.
  • Medidas de Tendência Central e Dispersão.
  • Técnicas de Elasticidade de Preço-demanda.
  • Técnicas de Elasticidade de Preço cruzada.

Entre em contato

Sinta-se à vontade para entrar em contato.