3.10.2 Multinoulli Distribution . . . . . . . . . . . . . . . . . . . . . . . 43
3.10.3 Gaussian Distribution . . . . . . . . . . . . . . . . . . . . . . . . 44
3.10.4 Dirac Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.10.5 Mixtures of Distributions and Gaussian Mixture . . . . . . . . . 47
3.11 Useful properties of common functions . . . . . . . . . . . . . . . . . . . 47
3.12 Bayes’ rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.13 Technical details of continuous variables . . . . . . . . . . . . . . . . . . 50
3.14 Example: Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4 Numerical Computation 54
4.1 Overflow and underflow . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Poor conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Gradient-Based Optimization . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4 Constrained optimization . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.5 Example: linear least squares . . . . . . . . . . . . . . . . . . . . . . . . 65
5 Machine Learning Basics 67
5.1 Learning Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.1 The task, T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.2 The performance measure, P . . . . . . . . . . . . . . . . . . . . 69
5.1.3 The experience, E . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Example: Linear regression . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3 Generalization, Capacity, Overfitting and Underfitting . . . . . . . . . . 73
5.3.1 Generalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3.2 Capacity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.3 Occam’s Razor, Underfitting and Overfitting . . . . . . . . . . . 75
5.4 Estimating and Monitoring Generalization Error . . . . . . . . . . . . . 78
5.5 Estimators, Bias, and Variance . . . . . . . . . . . . . . . . . . . . . . . 78
5.5.1 Point Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.5.2 Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.5.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.5.4 Trading off Bias and Variance and the Mean Squared Error . . . 81
5.5.5 Consistency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6 Maximum likelihood estimation . . . . . . . . . . . . . . . . . . . . . . . 82
5.6.1 Properties of Maximum Likelihood . . . . . . . . . . . . . . . . . 82
5.6.2 Regularized Likelihood . . . . . . . . . . . . . . . . . . . . . . . . 83
5.7 Bayesian Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.8 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.8.1 Estimating Conditional Expectation by Minimizing Squared Error 84
5.8.2 Estimating Probabilities or Conditional Probabilities by Maxi-
mum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.9 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.10 The Smoothness Prior, Local Generalization and Non-Parametric Models 85
5.11 Manifold Learning and the Curse of Dimensionality . . . . . . . . . . . . 90
2