Objetivo: Dominar a criação de algoritmos de raiz (First Principles), desde a estatística clássica até Agentes RL de topo (AlphaZero), com aplicação final em Finanças Quantitativas.
Bibliografia Nuclear:
- [ESL] The Elements of Statistical Learning (Hastie et al.)
- [Boyd] Convex Optimization (Boyd & Vandenberghe)
- [DL Book] Deep Learning (Goodfellow et al.)
- [Sutton] Reinforcement Learning (Sutton & Barto)
Recursos:
- Vídeos: K. Weinberger (Cornell CS4780), Andrew Ng, David Silver
- Exercícios Práticos: Site (100 exercícios NumPy)
- Links: Cornell Lectures | Homeworks | Ml"leetcode"
Recurso de vídeo: MIT 6.0002 — Computational Thinking & Data Science (Prof. John Guttag), aulas 4-10.
Notebook hands-on: Fase1_Foundation/Sprint00_StochasticThinking/ — 15 micro-tasks com assertions, do random walk ao two-sample t-test. Vê o capítulo do Guttag, abre o notebook, escreve o código.
Quando usar:
- Se precisares de ponte entre programação básica e estatística aplicada
- Foco em: Monte Carlo, intervalos de confiança, amostragem, erros experimentais
- Útil antes de mergulhar em ESL (Sprint 2)
Convenção: O scaffolded.ipynb é o template (committed). Trabalhas em solutions/local.ipynb (gitignored). Vê o README do sprint para os detalhes.
Notebooks hands-on: Fase1_Foundation/Sprint01_Optimization/ — 5 checkpoints (Engine, Geometry, Velocity, Newton, Showdown), ~38 micro-tasks com asserts, do GD 1D ao showdown final de 7 otimizadores em Rosenbrock. Mesma convenção do Sprint 0: scaffolded.ipynb é template, trabalhas em solutions/local.ipynb (gitignored).
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| K. Weinberger: 1, 2, 3, 4, 5, 6, 11, 12, 13, 14, 15🎥 Stephen Boyd — Convex Optimization (Stanford EE364a)🎥 freeCodeCamp: Machine Learning for Everybody (3:53:53)🎥 freeCodeCamp: No Black Box Machine Learning Course (3:51:31)🎥 Stanford CS229: Lectures 1-2 (Andrew Ng) - Introduction, Linear Regression, Gradient Descent | [Boyd]:• Cap 2 (Convex Sets)• Cap 3 (Convex Functions)• Cap 4 (Convex Problems)• Cap 9 (Newton's Method)📄 Boyd lecture notes on Newton's Method | Álgebra Linear:(21) Dot Product(38) Matrix Transpose(35) Matrix Trace(30) 3D Vector Norm(20) Normalize Vectors(63) Angle Between Vectors(92) Make Diagonal MatrixOtimização:(25) Gradient Descent 1D(55) Mean Squared Error(3) Adam, (36) AdaGrad(93) RMSProp, (50) Nesterov(15) AdamW, (12) Nadam(61) AdaDelta(13) Learning Rate Scheduler | Optimization Showdown:1. Implementar biblioteca álgebra linear do zero2. Implementar 8 otimizadores3. Testar em Rosenbrock (não-convexo)4. Implementar Newton's Method 2D manualmente5. Provar convergência quadrática Newton vs linear GDRelatório LaTeX: Análise comparativa com provas matemáticas |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| Andrew Ng: Bias/Variance conceptsK. Weinberger: 16, 17, 18, 19, 20, 28, 29, 30, 31, 32, 33, 34🎥 StatQuest — Bias/Variance🎥 freeCodeCamp: Machine Learning Course for Beginners (9:52:19)🎥 Stanford CS229: Lectures 8-10 - Data Splits, Models, Cross-Validation, Decision Trees | [ESL]:• Cap 2 (Overview/Decision Theory)• Cap 7 (Model Assessment) *Foco: Eq 7.9 (Effective Parameters)*📘 Hastie & Tibshirani — An Introduction to Statistical Learning (versão curta) | Estatística:(47) Mean, Median, Mode(78) Sample Variance & Std Dev(57) Percentiles/Quantiles(40) Bernoulli PMF(4) Binomial PMF(59) Poisson PMF & CDF(99) Geometric PMF(100) Expected Value(88) One-Sample t-Test(41) Chi-Square Test(44) Bootstrap CI | Bias-Variance Lab:1. Gerar dados sintéticos2. Fit polinómios de grau crescente3. Criar visualização bias-variance decomposition (não no site)4. Plotar train vs test error curves5. Decompor erro em Bias², Variância, Erro IrredutívelRelatório LaTeX: Explicar "Optimism of Training Error" |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| Andrew Ng: GMMs & EM Algorithm, RegularizationK. Weinberger: 7, 8, 9, 10, 26, 27📄 Tibshirani (1996) — Lasso original🎥 freeCodeCamp: Scikit-Learn Course (2:54:25)🎥 freeCodeCamp: Scikit-learn Crash Course (2:09:22)🎥 Stanford CS229: Lectures 3-7 - Logistic Regression, Perceptron, GDA, Naive Bayes, SVM, Kernels🎥 Stanford CS229: Lectures 14-15 - EM Algorithm, Factor Analysis | [ESL]:• Cap 3 (Linear Methods: Ridge/Lasso)• Cap 4.4 (LDA)• Cap 8.5 (EM Algorithm) | Modelos & Métricas:(6) Covariance Matrix(83) Pearson Correlation(2) Logistic Regression Loop(1) Sigmoid(54) Accuracy, Precision, Recall, F1(48) Micro-F1(62) R² Score(67) Confusion Matrix(45) AUC, (76) ROC Curve(8) Euclidean Distance(77) Manhattan Distance(24) Cosine Similarity | The Linear Suite:1. Implementar Ridge (L2) do zero2. Implementar Lasso (L1) do zero3. Implementar GMM com EM Algorithm4. Implementar Logistic Regression completa5. Plotar geometria L1 vs L2 (diamante vs círculo)6. Aplicar testes estatísticos (Sprint 2) para validar modelosRelatório LaTeX: Demonstração geométrica da sparsity do Lasso |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| S. Brunton: Sparsity & Compressed Sensing📄 Donoho — High-Dimensional Data Analysis🎥 Stanford CS229: Lecture 9 - Approximation/Estimation Error & ERM | [ESL]:• Cap 18 (High-Dimensional) Sec 18.3, 18.4, 18.6 | Data Engineering:(89) Eigenvalues(33) Matrix Inverse(18) Batch Shuffling ⭐(23) K-Fold Split(87) Stratified Split(73) Impute Missing Values(46) Min-Max Normalization(97) z-Score Standardization(95) Streaming Min-Max(26) Matrix Normalization(52) One-Hot Encoding | Curse of Dimensionality:1. Criar dataset onde p cresce até ultrapassar N2. Implementar PCA do zero usando SVD (não no site)3. Demonstrar colapso de Regressão Linear padrão4. Mostrar recuperação via L1 regularization5. Construir pipeline completo de dadosRelatório LaTeX: Análise teórica de quando L1 recupera soluções esparsas |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| Andrew Ng: Momentum / AdamK. Weinberger: 35, 36, 37🎥 CS231n — Optimization & Backprop📄 Goodfellow — Saddle Points paper🎥 freeCodeCamp: TensorFlow 2.0 Complete Course (6:52:08)🎥 freeCodeCamp: PyTorch for Deep Learning & ML (25:37:26)🎥 freeCodeCamp: Practical Deep Learning (fast.ai) (11:12:32)🎥 freeCodeCamp: Deep Learning Crash Course (1:25:39)🎥 freeCodeCamp: Keras with TensorFlow Course (2:47:55)🎥 freeCodeCamp: How Deep Neural Networks Work (3:50:57)🎥 freeCodeCamp: TensorFlow 2.0 Crash Course (2:13:17)🎥 Stanford CS229: Lectures 11-13 - Neural Networks, Backprop, Debugging ML Models | [DL Book]:• Cap 4 (Numerical)• Cap 6 (Deep Feedforward)• Cap 7 (Regularization)• Cap 8 (Optimization) Foco: Saddle Points & Hessians | DL Building Blocks:(10) Dropout(16) Batch Normalization(11) Gradient Clipping(65) ReLU, (31) Leaky ReLU(14) GELU, (37) Swish(80) Tanh, (79) SoftmaxLoss Functions:(70) Cross-Entropy Loss(72) Hinge Loss(27) Huber Loss(42) Focal Loss(32) Dice Loss | Optimizer Benchmark + MLP:1. Implementar MLP de 3 camadas em NumPy puro2. Treinar no MNIST com diferentes otimizadores3. Analisar estabilidade em Saddle Points4. Computar Hessian eigenvalues manualmente (não no site)5. Comparar convergência em loss landscapesRelatório LaTeX: Análise de por que Adam funciona melhor em high-dimensional spaces |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| Arxiv Insights: Variational Autoencoders📄 Rezende et al. — Stochastic Backprop | [DL Book]: Cap 20.10 (VAEs)Paper: Kingma & Welling (VAE) | Métricas de Divergência:(75) KL Divergence(22) InfoNCE Loss ⭐(56) Contrastive Loss(85) Triplet Loss(29) Wasserstein Critic Loss(7) Silhouette Score | VAE from Scratch:1. Implementar encoder-decoder completo (não no site)2. Implementar Reparameterization Trick3. Treinar em MNIST4. Derivar fórmula do ELBO matematicamente5. Visualizar latent space com t-SNERelatório LaTeX: Derivação completa do ELBO e conexão com KL Divergence |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| CS224n (Stanford): TransformersK. Weinberger: 21, 22, 23, 24, 25, 40Additional Lecture 2023📄 Rahimi & Recht — Random Features🎥 freeCodeCamp: Python TensorFlow - Neural Network Text Classification (1:54:11) | [ESL]: Sec 12.3 (SVMs & Kernels)Estudar SVM como problema dual + kernel trick, NÃO como classificadorPaper: Attention Is All You Need | Sequências & NLP:(9) RNN Step Forward(68) RNN Step Backward ⭐(17) Mini GRU Cell(98) Positional Encoding ⭐(69) Causal Masking ⭐(60) Pad Sequences(39) Bag-of-Words(82) TF-IDF ⭐(64) Bigram Probabilities(96) Word Count(66) Remove Stopwords(34) BM25 Ranking | Attention Anatomy:1. Implementar Scaled Dot-Product Attention (não no site completo)2. Implementar Transformer encoder-only (1 head)3. Testar em classificação de texto4. Comparar matematicamente attention com kernel smoothing5. Mostrar: primal→dual, kernel como inner productRelatório LaTeX: Demonstrar analogia entre attention e kernels aprendidos |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 CS231n — CNNs🎥 freeCodeCamp: Self-Driving Car with JavaScript (2:32:40)🎥 freeCodeCamp: OpenCV Course - Full Tutorial (3:41:42)🎥 freeCodeCamp: Computer Vision and Perception for Self-Driving Cars (1:59:38) | [DL Book]: Cap 9 (CNNs)Convolution mathematics | (94) Simple CNN Layer(19) Global Average Pooling(91) 4x4 Homogeneous Transform | LeNet-5 Clone:1. Implementar conv2d com im2col (não no site)2. Construir CNN completa em NumPy3. Treinar no MNISTRelatório LaTeX: Análise matemática de convolução como operação linear |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| (Revisar StatQuest para árvores) | [ESL]: Cap 9 (Additive Models & Trees)Gradient Boosting theory | (49) Entropy for Node(51) Gini Impurity(53) Information Gain(28) KNN Distance(74) Majority Class Classifier(81) Naive Bayes ⭐ | **Decision Tree from Scratch:**1. Implementar árvore de decisão pura2. Comparar com sklearn3. Estudar teoria de Random Forest/XGBoost (usar sklearn, não implementar)Relatório LaTeX: Análise de information gain vs Gini impurity |
Inserir ANTES de Sprint 10 (RL):
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos | Entrega |
|---|---|---|---|
| 🎥 StatQuest: XGBoost, Gradient Boosting🎥 ritvikmath: Time-Series📄 XGBoost paper (Chen & Guestrin) | [ESL] Cap 10 (Boosting)Cap 14.7 (CART improvements)📘 Rob Hyndman — Forecasting: Principles & PracticeCap 8 (ARIMA), Cap 9 (Dynamic regression) | Semana 1:• Implementar AdaBoost do zero• Usar XGBoost (library) em dataset• Feature importance analysisSemana 2:• Implementar ARIMA do zero• Stationarity tests (ADF)• Forecast S&P500 returnsSemana 3:• Feature engineering financeiro: - Lag features - Rolling windows - Technical indicators - Fractional differentiation (López de Prado) | **XGBoost vs RL Baseline:**1. Treinar XGBoost para prever direção do mercado2. Comparar com regressão logística3. Feature importance (SHAP)4. Usar como **baseline para Sprint 19Time-Series Report:**1. ARIMA vs persistence model2. Análise de stationarity3. Forecast evaluation (RMSE, MAE)Relatório LaTeX: Por que boosting funciona? Conexão com bias-variance. |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| David Silver: Policy Gradients📄 Peters & Schaal — Natural Policy Gradients🎥 Stanford CS229: Lectures 16-18 - ICA & RL, MDPs, Value/Policy Iteration, Continuous State MDP | [Sutton]:• Cap 6 (TD Learning)• Cap 13 (Policy Gradient) Sec 13.2 (The Theorem) | (58) Monte Carlo Policy Eval(84) Tabular Q-Learning(90) TD Value Update(71) ε-Greedy Selection(5) Advantage Computation ⭐ | RL Trilogy:1. Implementar Tabular Q-Learning, SARSA, Monte Carlo2. Implementar REINFORCE do zero (não no site)3. Testar em CartPole4. Derivar ∇J(θ) matematicamente5. Implementar baseline e mostrar redução de variânciaRelatório LaTeX: Derivação do Policy Gradient Theorem e Log-Derivative Trick |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 OpenAI Spinning Up — PPOYouTube: PPO Explained📄 Schulman — TRPO paper🎥 Stanford CS229: Lectures 19-20 - Reward Model, Linear Dynamical System, RL Debugging | [Boyd]: Cap 5 (Duality)Papers: TRPO / PPO | (5) Advantage (revisão)(75) KL Divergence (revisão) | PPO Deep Dive:1. Implementar PPO com clipping (não no site)2. Treinar em LunarLander-v23. Comparar com/sem clipping4. Conectar clipping com Dualidade Lagrangiana5. Mostrar restrição de trust regionRelatório LaTeX: Demonstrar matematicamente porque PPO é aproximação de TRPO |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 DeepMind — Multi-Agent RL TalksGame Theory: Nash Equilibrium📘 Shoham & Leyton-Brown — Multiagent Systems | Paper: MADDPG (Centralized Training)📘 Marcos López de Prado — Advances in Financial MLleakage, backtest overfitting, purged CV, multiple testing | (Nenhum exercício específico no site) | **Market Sim:**1. Simular compradores/vendedores com PettingZoo2. Analisar convergência para Nash Equilibrium3. Estudar López de Prado: purged k-fold, combinatorial CV4. Aplicar conceitos de ESL 18.7 (multiple testing)Relatório LaTeX: Diferenças entre game theory clássica e MARL |
Estes sprints são opcionais e podem ser feitos em paralelo ou após o roadmap principal. Focam em habilidades práticas de Data Science que complementam o conhecimento teórico de ML.
📍 Recomendado: Após Sprint 4 ou em paralelo com Fase 2
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 Kaggle: Learn courses (Pandas, Data Viz)🎥 Ken Jee: Data Science Project Walkthroughs📄 Tufte — Visual Display of Quantitative Information | 📘 Wes McKinney — Python for Data Analysis📘 Jake VanderPlas — Python Data Science Handbook📄 Feature Engineering Guide (Kaggle) | Semana 1 (EDA):• Histogramas, box plots, violin plots• Correlation matrices (Seaborn)• Interactive plots (Plotly)• Distribution analysis• Outlier detection (IQR, Z-score, Isolation Forest)Semana 2 (Feature Engineering):• Target encoding, frequency encoding• Feature interactions• Polynomial features• Date/time features• Text features (TF-IDF, embeddings)Semana 3 (Pipeline Completo):• sklearn Pipeline• Feature selection (RFE, SHAP)• Automated feature engineering (featuretools) | **Kaggle Competition Entry:**1. Escolher competição ativa (tabular data)2. EDA Notebook: Top 10% quality• Visualizações publication-ready• Statistical insights documentados3. Feature Engineering Pipeline:• Criar 50+ features• Documentar feature importance• Cross-validation rigorosa4. Submit: Entrar no top 50%Relatório: Storytelling com dados (apresentação de negócio) |
📍 Recomendado: Após Sprint 6 (VAE) — aproveitas conhecimento de probabilidade
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 Richard McElreath: Statistical Rethinking lectures🎥 Ben Lambert: Bayesian Statistics📄 Judea Pearl talks — Causality | 📘 Richard McElreath — Statistical Rethinking📘 Judea Pearl — Causality📘 Gelman et al. — Bayesian Data Analysis📄 DoWhy documentation (Microsoft) | Semana 1 (Bayesian Basics):• Conjugate priors• MCMC from scratch (Metropolis-Hastings)• Gibbs sampling• PyMC/Stan basicsSemana 2 (Bayesian Modeling):• Bayesian linear regression• Hierarchical models• Model comparison (WAIC, LOO)• Posterior predictive checksSemana 3 (Causal Inference):• DAGs (Directed Acyclic Graphs)• Backdoor criterion• Propensity score matching• Instrumental variables• Difference-in-differencesSemana 4 (A/B Testing):• Bayesian A/B testing• Sequential testing (early stopping)• Multi-armed bandits (Thompson Sampling)• Power analysis | Causal Analysis Report:1. Implementar MCMC do zero:• Metropolis-Hastings• Convergence diagnostics (R-hat, ESS)• Trace plots2. Causal Study:• Dataset com confounders• Desenhar DAG• Aplicar 3 métodos (PSM, IV, DiD)• Comparar resultados3. A/B Test Simulation:• Simular experimento online• Bayesian analysis• Stopping rules• Cost-benefit analysisRelatório LaTeX: Provar causalidade vs correlação num caso real |
📍 Recomendado: Expansão do Sprint 9.5 ou após Sprint 14
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 ritvikmath: Time Series playlist📄 Rob Hyndman blog — Forecasting principles🎥 Kaggle: Time Series courses | 📘 Rob Hyndman & George Athanasopoulos — Forecasting: Principles & Practice (online grátis)📘 James Hamilton — Time Series Analysis📄 Prophet paper (Facebook) | Semana 1 (Classical Methods):• SARIMA (seasonal ARIMA)• Exponential smoothing (Holt-Winters)• Stationarity tests (ADF, KPSS, PP)• Seasonal decomposition (STL)• Granger causalitySemana 2 (Modern Approaches):• Prophet (Facebook)• TBATS (multiple seasonality)• State-space models• VAR (Vector AutoRegression)• Multivariate forecastingSemana 3 (Deep Learning for TS):• LSTM for time series• Temporal Convolutional Networks (TCN)• Transformer for forecasting (Informer)• Conformal prediction (uncertainty) | Forecasting Competition:1. Implementar SARIMA do zero2. Benchmark múltiplos métodos:• Classical: ARIMA, ETS• Modern: Prophet, TBATS• DL: LSTM, Transformer3. M5 Competition dataset (Kaggle/Walmart)4. Evaluation:• RMSE, MAE, MAPE• Prediction intervals• Forecast combinations5. Production deployment:• API com FastAPI• Automated retraining• Monitoring driftRelatório: Quando usar cada método? Decision tree prático |
📍 Recomendado: Após Sprint 14 — antes de projetos aplicados
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 freeCodeCamp: SQL Full Course🎥 Corey Schafer: Pandas tutorials📄 Designing Data-Intensive Applications (selected chapters) | 📘 Martin Kleppmann — Designing Data-Intensive Applications📘 Joe Reis & Matt Housley — Fundamentals of Data Engineering📄 dbt documentation — Analytics engineering | Semana 1 (SQL Mastery):• JOINs (inner, left, right, full)• Window functions (ROW_NUMBER, LAG, LEAD)• CTEs (Common Table Expressions)• Subqueries vs JOINs• Query optimization• IndexesSemana 2 (Data Pipelines):• ETL vs ELT• Apache Airflow basics• Data validation (Great Expectations)• dbt (data build tool)• Data quality checksSemana 3 (Big Data & Cloud):• PySpark basics (RDDs, DataFrames)• Parquet, partitioning strategies• Cloud storage (S3, Azure Blob)• Data warehouses (Snowflake, BigQuery)• Lakehouse architecture | End-to-End Data Pipeline:1. SQL Challenge:• HackerRank SQL (5-star)• LeetCode SQL (50 problemas)• Window functions mastery2. Build ETL Pipeline:• Ingest: API → raw storage• Transform: dbt models• Load: DWH (local Postgres)• Orchestrate: Airflow DAGs• Monitor: data quality tests3. Big Data Processing:• Dataset >10GB• Process com PySpark• Optimize partitioning• Compare: Pandas vs Spark vs Polars4. Dashboard:• Superset/Metabase/Streamlit• Connect to DWH• Business metrics visualizationRelatório: Arquitetura completa documentada (diagrams.net) |
📍 Recomendado: Após Sprint 14 ou antes de Fase 5 (research)
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 MLOps Community: Talks🎥 Made With ML: MLOps course📄 Google: MLOps whitepaper | 📘 Chip Huyen — Designing Machine Learning Systems📄 ML Test Score (Google)📄 Hidden Technical Debt in ML (Sculley et al.) | Semana 1 (Model Serving):• FastAPI for ML models• Docker containerization• Model versioning (MLflow)• A/B testing infrastructure• Shadow deploymentSemana 2 (Monitoring & Observability):• Data drift detection• Model performance monitoring• Logging & alerting• Feature store (Feast)• Retraining triggersSemana 3 (CI/CD for ML):• GitHub Actions for ML• Model testing (unit, integration)• Automated retraining pipeline• Model registry• Rollback strategies | Production ML System:1. Deploy modelo (Sprint anterior) em produção:• REST API (FastAPI)• Docker + docker-compose• Load testing (Locust)• Latency <100ms (p99)2. Monitoring Dashboard:• Prometheus + Grafana• Track: latency, throughput, errors• Data drift alerts (Evidently)• Model performance decay3. CI/CD Pipeline:• GitHub Actions workflow• Automated tests (pytest)• Model validation• Automated deployment• Rollback mechanism4. Documentation:• API docs (Swagger)• Architecture diagram• Runbook (incident response)• Cost analysisRelatório: Post-mortem de um "incident" simulado |
Faz todos os sprints opcionais nos momentos recomendados:
- Total: 70 semanas (main) + 16 semanas (optional) = 86 semanas (~20 meses)
- Perfil: T-shaped (profundo em ML + amplo em DS)
Completa as 70 semanas primeiro, depois escolhe os opcionais:
- Vantagem: Foco total em research/teoria primeiro
- Usa os opcionais quando precisares para jobs/projetos
Escolhe só os que interessam:
- Quant Finance? → Skip Sprint D (Data Engineering)
- Research only? → Faz Sprint B (Bayesian/Causal), skip resto
- Industry job? → Todos são úteis, prioriza D e E
Faz sprints opcionais nos weekends enquanto avanças no roadmap principal:
- Exemplo: Segunda-Sexta (Sprint 5: DL), Sábado-Domingo (Sprint A: Kaggle EDA)
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| (Revisar Graph Theory basics) | Papers:• GCN (Kipf & Welling)• GraphSAGE | (Nenhum exercício de GNN no site) | GNN Classifier:1. Implementar PageRank (warm-up)2. Implementar GCN do zero3. Usar dataset Cora4. Classificação de nósRelatório LaTeX: Conexão entre spectral graph theory e GNNs |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| (Revisar cross-validation theory) | [ESL]: Cap 7 (Model Assessment)López de Prado: Purged k-fold, combinatorial CV | (43) Mean Average Precision ⭐(76) ROC Curve (revisão)(45) AUC (revisão) | Evaluation Suite:1. Implementar framework de avaliação rigorosa2. Purged k-fold para time-series3. Testar em 3 datasets4. Análise de multiple testing biasRelatório LaTeX: Demonstrar porque naive CV falha em finanças |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 DeepMind — AlphaZero Explained🎥 David Silver — Planning & Learning📄 Browne et al. — MCTS Survey📄 Papers With Code — How to reproduce🎥 freeCodeCamp: AlphaZero from Scratch (4:07:54) | [Sutton]: Cap 8 (Planning)Sec 8.8 (MCTS)Papers (Leitura Obrigatória):• Silver et al. — AlphaZero• Schrittwieser et al. — MuZero• Ye et al. — EfficientZero📄 ICLR Reproducibility Checklist | (Revisão de todos RL anteriores)(58) Monte Carlo Policy Eval(84) Q-Learning(5) Advantage Computation(75) KL Divergence | Paper Reproduction (4 semanas):Semana 1: Código Base• Escolher: AlphaZero OU MuZero• Implementar MCTS + Networks• Testar em Connect4/Tic-Tac-ToeSemana 2: Reprodução• Treinar até convergência• Comparar com resultados do paper• Documentar diferençasSemana 3: Ablation Study• Remover MCTS → só policy• Remover value → só MCTS• Variar hyperparameters• Medir impacto de cada componenteSemana 4: Análise Crítica• Identificar limitações do método• Onde falha? (ex: sparse rewards, stochastic)• O que é sensível a hyperparameters?Entrega (Relatório LaTeX 15-20 pág):• Derivações matemáticas completas• Código no GitHub (limpo, comentado)• Gráficos de convergência• Tabela de ablations• Secção de limitações identificadas |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 Lex Fridman Podcasts:• Demis Hassabis (DeepMind)• Pieter Abbeel (RL)• Marcos López de Prado📄 How to Read Papers:• Keshav — "How to Read a Paper"• Critical reading strategies | Ler 40-60 Papers:Model-Based RL (15 papers):• MuZero variants• EfficientZero• Sampled MuZero• Dreamer v2/v3• STEVE, IrisRL for Finance (15 papers):• Moody & Saffell (2001) — RL Trading• Deng et al. (2016) — Deep RL Trading• Zhang et al. (2020) — Deep RL Portfolio• Liang et al. (2018) — Adversarial Deep RL• Fischer (2018) — RL Stock TradingRisk-Sensitive RL (10 papers):• Chow et al. (2015) — Risk-Constrained• Tamar et al. (2015) — PG w/ CVaR• Mihatsch & Neuneier (2002) — Risk-Sensitive• Dabney et al. (2018) — Distributional RL• Bellemare et al. (2017) — C51📘 López de Prado (Cap relevantes):• Backtest overfitting• Purged cross-validation• Combinatorial CV• Multiple testing• Bet sizing | (43) Mean Average Precision(76) ROC Curve(45) AUC*(Para avaliar estratégias)* | Research Proposal (12-15 páginas LaTeX):Semana 1: Survey Papers• Ler 20 papers core• Tomar notas estruturadas• Identificar trendsSemana 2: Deep Dive• Ler 20+ papers específicos• Reproduzir 1-2 experimentos chave• Identificar contradiçõesSemana 3: Gap Analysis• O que funciona? O que falha?• Identificar 3 gaps possíveis• Escolher 1 gap principalSemana 4: Proposal WritingEstrutura obrigatória:1. Introduction (2 pág)• Contexto: Por que RL para finanças?• Problema: AlphaZero assume X, mas mercados têm Y• Motivação: Impacto económico potencial2. Related Work (3-4 pág)• Model-based RL (1 pág)• RL para trading (1 pág)• Risk-sensitive methods (1 pág)• Síntese: O que falta? (1 pág)3. Research Gap (1 pág) — CRÍTICO• Claim: "MuZero falha em X porque Y"• Evidence: Citar 3-5 papers que mostram isto• Hypothesis: "Propor Z vai resolver porque W"4. Proposed Method (3-4 pág)• Arquitetura modificada (diagrama)• Algoritmo (pseudo-código)• Justificação teórica de cada modificação• Exemplo toy (CartPole estocástico)5. Evaluation Plan (2 pág)• Datasets: Quais mercados? (S&P500, Forex, Crypto?)• Baselines: MuZero vanilla, PPO, Model-Free SOTA• Métricas: Sharpe, Sortino, Max Drawdown, Calmar• Ablations: Provar que cada componente importa6. Expected Contributions (1 pág)• Científica: Novel algorithm/theory• Prática: Demonstração em dados reais• Código: Open-source reprodutívelPeer Review:• Postar em r/MachineLearning (Feedback Friday)• Partilhar com 3+ pessoas (Discord, Twitter)• Iterar baseado em comentários |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 Hands-On Tutorials:• AlphaZero implementation walkthrough• MuZero code review (YouTube)📄 Code Study:• muzero-general (GitHub)• EfficientZero codebase• RLlib MuZero implementation | Revisão Teórica:• [Sutton] Cap 8 (Planning)• [Boyd] Cap 5 (Duality) — para MCTSImplementation Details:• MuZero Appendix (hyperparameters)• AlphaZero Supplementary Materials• EfficientZero tricks | *(Todos anteriores)*Especialmente:(9) RNN Forward(68) RNN Backward(17) GRU Cell(94) CNN Layer(16) Batch Norm(10) Dropout(98) Positional Encoding(69) Causal Masking | MuZero Base System (6 semanas):Semana 1-2: Representation Network• Input: raw observations (OHLCV + features)• Output: hidden state s₀• Arquitetura: ResNet OU Transformer encoder• Normalização: Layer Norm + Batch Norm• Testar: Consegue reconstruir input?Semana 3: Dynamics Model• Input: hidden state sₜ + action aₜ• Output: next state sₜ₊₁ + reward rₜ• Arquitetura: ResNet blocks• Treinar em transições conhecidas• Testar: Predição de reward/state accuracySemana 4: Prediction Network• Input: hidden state sₜ• Output: policy πθ(a |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| *(Depende da tua contribuição específica)***Exemplo se Risk-Sensitive:🎥 Distributional RL talks📄 Bellemare et al. — C51📄 Dabney et al. — QR-DQN, IQNExemplo se Non-Stationary:**🎥 Meta-Learning talks📄 Finn et al. — MAML📄 Nagabandi et al. — Online Meta-Learning | Teoria Específica:Se Risk-Sensitive MuZero:• Chow et al. — Risk-Constrained RL• Tamar et al. — Policy Gradients + CVaR• Portfolio theory (Markowitz)Se Non-Stationary:• Change-point detection literature• Online learning theory• Contextual banditsSe Sample-Efficient:• Offline RL (CQL, BCQ)• Model-based offline (MOPO, MOReL)• Data augmentation in RL | (Implementações anteriores como base) | Implementação da Tua Contribuição (6 semanas):Semana 1: Architecture Modification• Modificar networks para tua contribuição• Ex (Risk): Value head → distribuição (não scalar)• Ex (Non-Stat): Adicionar context encoder• Ex (Sample-Eff): Adicionar uncertainty quantificationSemana 2: Algorithm Changes• Modificar MCTS se necessário• Ex (Risk): UCB com risk penalty• Ex (Non-Stat): Adapt tree policy online• Ex (Sample-Eff): Conservative value estimatesSemana 3: Loss Function• Modificar training objective• Ex (Risk): Adicionar CVaR term• Ex (Non-Stat): Meta-learning outer loop• Ex (Sample-Eff): Pessimistic value backupSemana 4-5: Debug & Tune• Fazer funcionar em toy environment primeiro• Sanity checks: - Overfit num episódio único - Gradientes não explodem/desaparecem - Predictions fazem sentido qualitativo• Hyperparameter search (Optuna/Ray Tune)Semana 6: Toy Experiments• Testar em 2-3 ambientes controlados• Comparar com MuZero vanilla• Provar que tua modificação ajuda aquiEntrega (Checkpoint Técnico):• Código da modificação (clean, testado)• Resultados preliminares (plots)• Análise: Quando funciona? Quando falha?• Next steps claros para finance adaptation |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 🎥 Finance-Specific:• Market microstructure basics• Order book dynamics📘 López de Prado (revisão):• Labeling (triple barrier)• Fractional differentiation• Meta-labeling | Papers de Trading Environment:• Liang et al. — Adversarial Deep RL Trading• Zhang et al. — Deep RL Portfolio ManagementMarket Modeling:• Kyle model (price impact)• Almgren-Chriss (optimal execution)• Transaction costs modeling | (Dados & métricas)(46) Min-Max Norm(97) z-Score(18) Batch Shuffling(87) Stratified Split(23) K-Fold (purged version) | Trading Environment (4 semanas):Semana 1: Data Pipeline• Escolher mercados: S&P500 OU Forex OU Crypto• Features engineering: - OHLCV - Technical indicators (RSI, MACD, Bollinger) - Order flow features (se disponível) - Sentiment (opcional)• Normalização: Rolling z-score• Train/Val/Test split: Purged K-FoldSemana 2: Environment Definition• State space: O que o agente observa?• Action space: Long/Short/Hold OU continuous position sizing• Reward: Sharpe ratio OU risk-adjusted return• Constraints: - Transaction costs (realistic: 5-10 bps) - Slippage (price impact model) - Position limits (max leverage) - No lookahead biasSemana 3: Realistic Simulation• Implementar order execution simulator• Price impact: √(volume) scaling• Market impact persistence (temporary + permanent)• Commission structure• Teste: Comparar com backtesting library (backtrader)Semana 4: Adaptation Testing• Treinar teu agente modificado• Comparar com: - Buy & Hold - Moving Average Crossover - MuZero vanilla - PPO• Initial results (não precisa ser SOTA ainda)Entrega (Finance Checkpoint):• Environment code (gym-compatible)• Data pipeline reprodutível• Baseline comparisons• Relatório: Challenges específicos encontrados |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 📄 Experimental Design:• Henderson et al. — "Deep RL that Matters"• Reproducibility in ML research📊 Statistics:• Bootstrap confidence intervals• Multiple hypothesis testing corrections | [ESL] Cap 7 (revisão)López de Prado:• Deflated Sharpe ratio• Probability of backtest overfitting• Combinatorial purged CV | (44) Bootstrap CI(88) t-Test(41) Chi-Square(45) AUC(76) ROC | Experimental Campaign (4 semanas):Semana 1: Main Results• Treinar 5+ seeds• Testar em múltiplos períodos (2015-2020, 2020-2023)• Métricas principais: - Sharpe ratio (annualized) - Sortino ratio - Max drawdown - Calmar ratio - Win rate - Profit factor• Comparar com 3+ baselines• Statistical significance: Bootstrap CISemana 2: Ablation Study• Remover cada componente da tua contribuição• Medir impacto isolado• Provar que CADA parte importa• Exemplo (Risk-Sensitive): - Sem CVaR term → performance? - Sem distributional value → performance? - Sem risk penalty in MCTS → performance?Semana 3: Robustness Checks• Variar hyperparameters (±20%)• Testar em mercados diferentes (se S&P, testar Nasdaq)• Stress test: 2008 crash, COVID crash• Out-of-sample: 2024 data (never seen)• Transaction cost sensitivity: 1bp vs 10bpSemana 4: Failure Analysis• Quando o método falha?• Visualizar episódios de perdas grandes• Análise qualitativa: O que o agente aprendeu?• Limitações honestasEntrega (Results Package):• Tabelas de resultados (LaTeX format)• Plots de curvas de equity• Ablation tables• Statistical tests (com p-values)• Failure case analysis• Raw data (CSV) para reviewers |
| Vídeos (Intuição) | Teoria (Livros) | Exercícios Práticos (Site) | Entrega (Checkpoint) |
|---|---|---|---|
| 📄 Writing Resources:• "How to Write a Great Research Paper" (Simon Peyton Jones)• NeurIPS/ICML author guidelines🎨 Visualizations:• Tufte — Visual Display of Quantitative Info• Matplotlib best practices | Style Guides:• Conference-specific formatting• LaTeX templates (NeurIPS, ICML, ICLR)Example Papers:• Ler 10 accepted papers da conferência target• Estudar estrutura, flow, figuras | (Nenhum novo) | Paper Completo (4 semanas):Semana 1: Draft WritingStructure (8 páginas ICML format):1. Abstract (150 palavras)• Problema + Gap + Contribuição + Resultado2. Introduction (1 pág)• Contexto: RL para finanças• Problema: MuZero falha em X• Contribuição: Propomos Y que resolve Z• Resultados: Melhora W em N%3. Related Work (1 pág)• Model-based RL (0.3 pág)• RL para trading (0.3 pág)• Risk-sensitive/Non-stat/Sample-eff (0.3 pág)• Posicionamento claro vs trabalhos anteriores4. Background (0.5 pág)• MuZero recap (muito breve)• Trading environment formalization5. Method (2 pág)• Tua modificação (detalhada)• Algoritmo (pseudo-código)• Justificação teórica• Diagrama de arquitetura (figure)6. Experiments (2 pág)• Setup: Datasets, baselines, métricas• Main results (table + plot)• Ablations (table)• Analysis: Porque funciona?7. Discussion (0.5 pág)• Limitações• Future work• Broader impact8. Conclusion (0.3 pág)Appendix (ilimitado):• Hyperparameters completos• Derivações matemáticas• Ablations adicionais• Plots extraSemana 2: Figures & Tables• Criar 4-6 figuras high-quality• Refinar tabelas (LaTeX booktabs)• Captions detalhadosSemana 3: Iteration• Pedir feedback (r/MachineLearning, Twitter, Discord)• Iterar baseado em comentários• Clarificar partes confusas• Proofread (Grammarly + manual)Semana 4: Submission• Escolher conferência: - Tier 1: NeurIPS, ICML, ICLR - Tier 2: AISTATS, CoRL, ALT - Workshops: NeurIPS workshops, ICML workshops• Preparar supplementary materials• Code release (GitHub public)• Submeter via OpenReview/CMTEntrega FINAL:• Paper PDF (camera-ready)• Código open-source (GitHub)• Data (se possível)• Demo video (opcional mas impressive)• Blog post (divulgação) |
| Fase | Semanas | Sprints | Foco Principal | Entregável Chave |
|---|---|---|---|---|
| Fase 1 | 1-13 | 1-4 | Fundamentos Matemáticos | Optimizer Showdown, Ridge/Lasso, PCA |
| Fase 2 | 14-22 | 5-8 | Deep Learning Core | MLP, VAE, Transformer, CNN |
| Fase 3 | 23-32 | 9-12 | RL Avançado | Decision Tree, REINFORCE, PPO, MARL |
| Fase 4 | 33-38 | 13-14 | Estruturas Especializadas | GNN, Evaluation Suite |
| Fase 5 | 39-42 | 15 | Paper Reproduction | AlphaZero/MuZero reproduction + ablations |
| Fase 6 | 43-70 | 16-21 | Original Research | Paper publicável em top conference |
| TOTAL | 70 | 21 | First Principles → Novel Contribution | Published Paper |
| Sprint | Semanas | Objetivo | Output |
|---|---|---|---|
| 16 | 43-46 | Literature Review (40-60 papers) | Research Proposal (15 pág) |
| 17 | 47-52 | Implementar MuZero base funcional | Código base (GitHub) |
| 18 | 53-58 | Adicionar tua contribuição novel | Modified MuZero working |
| 19 | 59-62 | Adaptar para trading real | Finance environment + baselines |
| 20 | 63-66 | Experiments rigorosos + ablations | Results package completo |
| 21 | 67-70 | Escrever paper + submeter | Paper submitted to conference |
Paper Title: "Risk-Aware Model-Based Reinforcement Learning for Financial Portfolio Management"
Gap: MuZero maximiza expected return. Trading real requer risk-adjusted returns (Sharpe).
Contribuição:
- Value head output → distribuição (quantiles, não scalar)
- MCTS usa CVaR (Conditional Value at Risk) para action selection
- Training objective inclui risk penalty: L = L_policy + L_value + λ·CVaR_loss
Claim: RSMuZero supera MuZero vanilla em mercados com fat tails (crypto, emerging markets).
Experiments:
- Datasets: Bitcoin, S&P500, Emerging Markets ETF
- Baselines: MuZero, PPO, SAC, Buy&Hold
- Métricas: Sharpe, Sortino, Max Drawdown
- Ablations: Sem CVaR, sem distributional value, sem risk penalty
Paper Title: "Non-Stationary World Models for Adaptive Trading Agents"
Gap: MuZero assume dynamics estático. Mercados mudam (bull → bear → crash).
Contribuição:
- Change-point detection module (CUSUM/Bayesian online CP)
- Multiple dynamics models (bull, bear, high-vol regimes)
- Online adaptation: Re-treina dynamics quando detecta regime shift
- Meta-learned initialization: Usa MAML para fast adaptation
Claim: AdaMuZero adapta melhor a crashes e regime changes.
Experiments:
- Datasets: S&P500 (2000-2024, inclui dotcom, 2008, COVID)
- Baselines: MuZero, PPO, Online Learning baselines
- Métricas: Performance em períodos de transition
- Ablations: Sem change-point, sem multiple models, sem meta-learning
Paper Title: "Offline Model-Based RL with Pessimistic Value Estimates for Financial Trading"
Gap: MuZero precisa milhões de samples. Dados financeiros são limitados.
Contribuição:
- Offline training only (sem simulator, só dados históricos)
- Conservative value estimates (inspirado em CQL)
- Uncertainty quantification em dynamics model (ensemble + epistemic uncertainty)
- Pessimistic MCTS: Penaliza acções com alta uncertainty
Claim: SEMuZero atinge 80% da performance com 10x menos dados.
Experiments:
- Datasets: Limitar a 1 ano de dados (vs 10 anos baseline)
- Baselines: MuZero (full data), Offline RL methods (CQL, BCQ)
- Métricas: Data efficiency curves
- Ablations: Sem conservatism, sem uncertainty, sem pessimism
Antes de submeter paper, verificar:
- Novelty clara: Contribuição não é incremental
- ≥3 baselines: Comparação justa
- Ablations completas: Cada componente justificado
- Statistical significance: Bootstrap CIs, p-values
- Código público: GitHub com README detalhado
- Reproducibilidade: Docker + requirements.txt + seeds
- Figures high-quality: Vector graphics (PDF), não PNG
- Writing: Proofread por ≥2 pessoas
- Honest limitations: Secção de "quando falha"
- Ethical considerations: Broader impact statement